1 / 15
文档名称:

clementine决策树chaid算法.doc

格式:doc   大小:346KB   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

clementine决策树chaid算法.doc

上传人:2028423509 2021/1/26 文件大小:346 KB

下载得到文件列表

clementine决策树chaid算法.doc

文档介绍

文档介绍:CHAID算法(Chi-Square Automatic Interaction Detection)
CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。
不同于C&R树和QUEST节点,CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。
CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。
CHAID方法(卡方自动交叉检验)
CHAID根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量属性共同描述的,因此属于多变量分析。
在形式上,CHAID非常直观,它输出的是一个树状的图形。
,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,计算分类的卡方值(Chi-Square-Test)。如果几个变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类法作为子节点。
,使之显著性达到最大。

CHAID 自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。
当预测变量较多且都是分类变量时,CHAID分类最适宜。
CHAID分层的标准:卡方值最显著的变量
CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。
CHAID的一般步骤
-属性变量的预处理
-确定当前分支变量和分隔值
属性变量的预处理:
-对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们;
-对定距型属性变量,先按分位点分组,然后再合并具有同质性的组;
-如果目标变量是定类变量,则采用卡方检验
-如果目标变量为定距变量,则采用F检验
(统计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;
定类型数据是指没有在固定大小或高低顺序,一般以数值或字符表示的分类数据。)
F检验:比较两组数据的方差,,假设检验两组数据没有显著差异,F<F表,则接受原假设,两组数据没有显著差异;F>F表,拒绝原假设,两组数据存在显著差异。
属性变量预处理的具体策略
-如果仅有一个或两个分组,则不做合并处理
-根据卡方统计量(或似然比卡方)的P-值决定合并哪些 组()
-如果用户指定在合并同时还考虑组拆分(Allow splitting merged categories),则新近合并的组中如果包括三个以上的原始分组,应根据检验结果判断是否需再拆分成两组(P-值< split-merge)
确定当前分支变量和分隔值
-计算经预处理后的各属性变量与目标变量的卡方检验统计量和P-值。P-值最小的变量(与目标变量联系最紧密)作为当前的最佳分支变量,该变量的所有分组形成该分支下的子节点
对每个子节点重复上述处理,直到满足收敛条件为止
CHAID的适用围
当预测变量是分类变量时,CHAID方法最适宜。对于连续型变量,CHAID在缺省状态下将连续变量自动分为10段处理,但是可能有遗漏。
当预测变量是人口统计变量时,研究者可以很快找出不同细分市场特征,免去对交叉分析表归并与检查之苦。
CHAID的预剪枝
基本参数:
决策树最大深度:如果决策树的层数已经达到指定深度,则停止生长。
树中父节点和子节点所包含的最少样本量或比例:对父节点是指,如果节点的样本量已低于最少样本量或比例,则不再分组;对于子节点是指,如果分组后生成的子节点中的样本量低于最小样本或比例,则不必进行分组。
当输入变量与输出变量的相关性小于一个指定值,则不必进行分组。
CHAID模块的优点:
-不像CART和QUEST模块,CH