文档介绍：CHAID算法(Chi-SquareAutomaticInteractionDetection)CHAID提供了一个在多个自变量中自动搜索能产生最大差异变量方案。不一样于C&R树和QUEST节点,CHAID分析能够生成非二进制树,即有些分割有两个以上分支。CHAID模型需要一个单一目标和一个或多个输入字段。还能够指定重量和频率领域。CHAID分析,卡方自动交互检测,是一个用卡方统计,以确定最好分割,建立决议树分类方法。CHAID方法(卡方自动交叉检验)CHAID依据细分变量区分群体差异显著性程度(卡方值)大小次序,将消费者分为不一样细分群体,最终细分群体是由多个变量属性共同描述,所以属于多变量分析。在形式上,CHAID很直观,它输出是一个树状图形。,对每个自变量(只能是分类或有序变量,也就是离散性,假如是连续变量,如年纪,收入要定义成份类或有序变量)进行分类,计算分类卡方值(Chi-Square-Test)。假如多个变量分类均显著,则比较这些分类显著程度(P值大小),然后选择最显著分类法作为子节点。,使之显著性达成最大。、无遗漏组群,但只适适用于类别型资料。当估计变量较多且全部是分类变量时,CHAID分类最适宜。CHAID分层标准:卡方值最显著变量CHAID过程:建立细分模型,依据卡方值最显著细分变量将群体分出两个或多个群体,对于这些群体再依据其它卡方值相对最显著细分变量继续分出子群体,直到没有统计意义上显著细分变量能够将这些子群体再继续分开为止。CHAID通常步骤-属性变量预处理-确定目前分支变量和分隔值属性变量预处理:-对定类属性变量,在其多个分类水平中找到对目标变量取值影响不显著分类,并合并它们;-对定距型属性变量,先按分位点分组,然后再合并含有同质性组;-假如目标变量是定类变量,则采取卡方检验-假如目标变量为定距变量,则采取F检验(统计学依据数据计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等连续性数据,也包含诸如人数、商品件数等离散型数据;定序型数据含有内在固有大小或高低次序,但它又不一样于定距型数据,通常能够数值或字符表示。如职称变量能够有低级、中级和高级三个取值,能够分别用1、2、3等表示,年纪段变量能够有老、中、青三个取值,分别用A、B、C表示等。这里不管是数值型1、2、3还是字符型A、B、C,全部是有大小或高低次序,但数据之间却是不等距。因为低级和中级职称之间差距和中级和高级职称之间差距是不相等;定类型数据是指没有内在固定大小或高低次序,通常以数值或字符表示分类数据。)F检验:比较两组数据方差,,假设检验两组数据没有显著差异,F<F表,则接收原假设,两组数据没有显著差异;F>F表,拒绝原假设,两组数据存在显著差异。属性变量预处理具体策略-假如仅有一个或两个分组,则不做合并处理-依据卡方统计量(或似然比卡方)P-值决定合并哪些组()-假如用户指定在合并同时还考虑组拆分(Allowsplittingmergedcategories),则新近合并组中假如包含三个以上原始分组,应依据检验结果判定是否需再拆分成两组(P-值<split-merge)确定目前分支变量和分隔值-计算经预处理后各属性变量和目标变量卡方检验统计量和P-值。P-值最小变量(和目标变量联络最紧密)作为目前最好分支变量,该变量全部分组形成该分支下子节点对每个子节点反复上述处理,直到满足收敛条件为止CHAID适用范围当估计变量是分类变量时,CHAID方法最适宜。对于连续型变量,CHAID在缺省状态下将连续变量自动分为10段处理,不过可能有遗漏。当估计变量是人口统计变量时,研究者能够很快找出不一样细分市场特征,免去对交叉分析表归并和检验之苦。CHAID预剪枝基础参数:决议树最大深度:假如决议树层数已经达成指定深度,则停止生长。树中父节点和子节点所包含最少样本量或百分比:对父节点是指,假如节点样本量已低于最少样本量或百分比,则不再分组;对于子节点是指,假如分组后生成子节点中样本量低于最小样本或百分比,则无须进行分组。当输入变量和输出变量相关性小于一个指定值,则无须进行分组。CHAID模块优点:-不像CART和QUEST模块,CHAID可产生多分枝决议树-目标变量能够定距或定类-从统计显著性角度确定分支变量和分隔值,进而优化树分枝过程-CHAID是建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分例:心脏数据综合诊疗数据现有数据OVERALL_DIAGNOSIS(综合诊疗)本案例是一个医学心脏病综合诊疗汇报案例,目标经过已