文档介绍:-
. z.
CHAID算法〔Chi-Square Automatic Interaction Detection〕
CHAID提供了一种在多个自变量中自动搜索能产生最比例,则不必进展分组。
当输入变量与输出变量的相关性小于一个指定值,则不必进展分组。
CHAID模块的优点:
-不像CART和QUEST模块,CHAID可产生多分枝的决策树
-目标变量可以定距或定类的
-从统计显著性角度确定分支变量和分隔值,进而优化树的分枝过程
-CHAID是建立在因果关系的探讨中的,依据目标变量实现对输入变量众多水平的划分
例:心脏数据综合诊断数据
现有数据OVERALL_DIAGNOSIS〔综合诊断〕
本案例是一个医学心脏病综合诊断报告案例,目的通过的22个变量F1~F22来预测每个病人是否正常。0-正常,1-异常
卡方检验:
零假设:心脏病检验结果与F13变量无关。〔F13变量对输出变量无影响〕
卡方值越大,说明两者有关系可能性越大。
确定自由度:〔行数-1〕*〔列数-1〕=1
选择显著水平=,
卡方值==>>
拒绝原假设。故心脏病检验结果与F13有关。(,对应的P值已趋于0,即“心脏病检验结果与F13有关〞成立的概率趋于1-0=100%)
建立CHAID模型
-在“建模〞中选择CHAID节点,将其参加数据流中
“TYPE〞节点
-
. z.
-“Range〞围:用来描述数值,如0--。一个围值可以是一个整数,实数,日期/时间。
-“Discrete〞离散:用于不同的字符串数值确实切数目是未知的。这是一个未初始化的数据类型,即对数据的存储和使用的所有可能的信息尚不清楚。一旦数据被读取,类型标志,集,或无类型的,取决于最大集大小属性对话框中指定的流。
-“Flag〞标志:用于具有两个不同值的数据,如Yes和No或1和2的数据。可能是文本,整数,实数,日期/时间数据。注:日期/时间是指三种类型的存储时间,日期或时间戳
-“Set〞集:用来描述具有多个不同的值的数据,每个被视为一个集的成员,如小型/中型/大型数据。在这个版本的Clementine ,一套可以有任何存储数值---字符串或日期/时间。请注意,设置类型设置不会自动改变字符串的值。
-“Ordered Set〞有序集合:用来描述具有多个不同的值的数据,有一种在的秩序。例如,工资类别或满意度排名可以分为一组有序。有序集的顺序是指通过其元素的自然排序顺序。例如, 1 ,3,5 ,是一组整数的默认排序顺序,而高,低,师大学〔升序按字母顺序排列〕是一组字符串的顺序。有序的集合类型,可让您定义一组有序数据的可视化,建立模型〔, C&R Tree, TwoStep〕,并扩展到其他应用程序,如SPSS ,成认有序数据作为一个独特的类型。此外,任何存储类型〔真实的,整数,字符串,日期,时间,等等〕的领域都可以被定义为一个有序的集合。
-“Typeless〞无类型:用于数据不符合任何上述类型的集合类型或包含太多值的集