1 / 17
文档名称:

Clementne决策树CHAID算法.doc

格式:doc   大小:350KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Clementne决策树CHAID算法.doc

上传人:小枷 2019/4/11 文件大小:350 KB

下载得到文件列表

Clementne决策树CHAID算法.doc

文档介绍

文档介绍:螈CHAID算法(Chi-SquareAutomaticInteractionDetection)袇CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。芁不同于C&R树和QUEST节点,CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。羀CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。腿CHAID方法(卡方自动交叉检验)莅CHAID根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量属性共同描述的,因此属于多变量分析。芄在形式上,CHAID非常直观,它输出的是一个树状的图形。,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,计算分类的卡方值(Chi-Square-Test)。如果几个变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类法作为子节点。,使之显著性达到最大。、无遗漏的组群,但只适用于类别型资料。膀当预测变量较多且都是分类变量时,CHAID分类最适宜。螇CHAID分层的标准:卡方值最显著的变量蒄CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。螁CHAID的一般步骤膀-属性变量的预处理***-确定当前分支变量和分隔值芆属性变量的预处理:袄-对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们;芀-对定距型属性变量,先按分位点分组,然后再合并具有同质性的组;薈-如果目标变量是定类变量,则采用卡方检验蚄-如果目标变量为定距变量,则采用F检验薃(统计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;定类型数据是指没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据。)莀F检验:比较两组数据的方差,,假设检验两组数据没有显著差异,F<F表,则接受原假设,两组数据没有显著差异;F>F表,拒绝原假设,两组数据存在显著差异。罿属性变量预处理的具体策略莆-如果仅有一个或两个分组,则不做合并处理莂-根据卡方统计量(或似然比卡方)的P-值决定合并哪些组()葿-如果用户指定在合并同时还考虑组拆分(Allowsplittingmergedcategories),则新近合并的组中如果包括三个以上的原始分组,应根据检验结果判断是否需再拆分成两组(P-值<split-merge)肆确定当前分支变量和分隔值袄-计算经预处理后的各属性变量与目标变量的卡方检验统计量和P-值。P-值最小的变量(与目标变量联系最紧密)作为当前的最佳分支变量,该变量的所有分组形成该分支下的子节点膁对每个子节点重复上述处理,直到满足收敛条件为止蕿CHAID的适用范围蒇当预测变量是分类变量时,CHAID方法最适宜。对于连续型变量,CHAID在缺省状态下将连续变量自动分为10段处理,但是可能有遗漏。薆当预测变量是人口统计变量时,研究者可以很快找出不同细分市场特征,免去对交叉分析表归并与检查之苦。膄CHAID的预剪枝虿基本参数:袈决策树最大深度:如果决策树的层数已经达到指定深度,则停止生长。肄树中父节点和子节点所包含的最少样本量或比例:对父节点是指,如果节点的样本量已低于最少样本量或比例,则不再分组;对于子节点是指,如果分组后生成的子节点中的样本量低于最小样本或比例,则不必进行分组。羃当输入变量与输出变量的相关性小于一个指定值,则不必进行分组。蝿CHAID模块的优点:艿-不像CART和QUEST模块,CHAID可产生多分枝的决策树螆-目标变量可以定距或定类的蚂-从统计显著性角度确定分支变量和分隔值,进而优化树的分枝过程蝿

最近更新

蝴蝶找花市公开课获奖教案省名师优质课赛课一.. 4页

蚂蚁钻洞健康市公开课获奖教案省名师优质课赛.. 4页

荷塘月色朱自清市公开课获奖教案省名师优质课.. 5页

微生物实验室常用设备 27页

花儿好看我不摘市公开课获奖教案省名师优质课.. 4页

艾草制品市公开课获奖教案省名师优质课赛课一.. 7页

脚丫丈量市公开课获奖教案省名师优质课赛课一.. 4页

耳的市公开课获奖教案省名师优质课赛课一等奖.. 5页

弘扬航天精神引领中国航天的辉煌腾飞 28页

美术市公开课获奖教案省名师优质课赛课一等奖.. 5页

弘扬航天精神为中国航天事业带来新的发展动力.. 22页

黄瓜美容工作室项目融资方案 8页

美丽的蝴蝶市公开课获奖教案省名师优质课赛课.. 6页

美丽的伞中班市公开课获奖教案省名师优质课赛.. 4页

魔术扫把项目融资计划书 7页

高端零食的商业计划书 7页

高端汽车汽修商业计划书 7页

中建环艺建筑施工安全标准化工作实施方案 5页

结婚音乐市公开课获奖教案省名师优质课赛课一.. 4页

高档家具项目融资方案 8页

红杜鹃市公开课获奖教案省名师优质课赛课一等.. 4页

精彩瞬间市公开课获奖教案省名师优质课赛课一.. 4页

香菇种植项目商业计划书 7页

饺子项目商业计划书 7页

第八册国学市公开课获奖教案省名师优质课赛课.. 5页

笔筒制作市公开课获奖教案省名师优质课赛课一.. 4页

食行生鲜商业计划书 9页

食用油项目商业计划书 8页

积木汽车市公开课获奖教案省名师优质课赛课一.. 4页

科探中班市公开课获奖教案省名师优质课赛课一.. 5页