文档名称：

clementine决策树chaid算法.doc

格式：doc 大小：166KB 页数：7页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

clementine决策树chaid算法.doc

上传人:hnxzy51 2022/7/23 文件大小：166 KB

下载得到文件列表

clementine决策树chaid算法.doc

相关文档

文档介绍

文档介绍：-
. z.
CHAID算法〔Chi-Square Automatic Interaction Detection〕
CHAID提供了一种在多个自变量中自动搜索能产生最比例，则不必进展分组。
当输入变量与输出变量的相关性小于一个指定值，则不必进展分组。
CHAID模块的优点：
-不像CART和QUEST模块，CHAID可产生多分枝的决策树
-目标变量可以定距或定类的
-从统计显著性角度确定分支变量和分隔值，进而优化树的分枝过程
-CHAID是建立在因果关系的探讨中的，依据目标变量实现对输入变量众多水平的划分
例：心脏数据综合诊断数据
现有数据OVERALL_DIAGNOSIS〔综合诊断〕
本案例是一个医学心脏病综合诊断报告案例，目的通过的22个变量F1~F22来预测每个病人是否正常。0-正常，1-异常
卡方检验：
零假设：心脏病检验结果与F13变量无关。〔F13变量对输出变量无影响〕
卡方值越大，说明两者有关系可能性越大。
确定自由度：〔行数-1〕*〔列数-1〕=1
选择显著水平=，
卡方值==>>
拒绝原假设。故心脏病检验结果与F13有关。(，对应的P值已趋于0，即“心脏病检验结果与F13有关〞成立的概率趋于1-0=100%)
建立CHAID模型
-在“建模〞中选择CHAID节点，将其参加数据流中
“TYPE〞节点
-
. z.
-“Range〞围：用来描述数值，如0--。一个围值可以是一个整数，实数，日期/时间。
-“Discrete〞离散：用于不同的字符串数值确实切数目是未知的。这是一个未初始化的数据类型，即对数据的存储和使用的所有可能的信息尚不清楚。一旦数据被读取，类型标志，集，或无类型的，取决于最大集大小属性对话框中指定的流。
-“Flag〞标志：用于具有两个不同值的数据，如Yes和No或1和2的数据。可能是文本，整数，实数，日期/时间数据。注：日期/时间是指三种类型的存储时间，日期或时间戳
-“Set〞集：用来描述具有多个不同的值的数据，每个被视为一个集的成员，如小型/中型/大型数据。在这个版本的Clementine ，一套可以有任何存储数值---字符串或日期/时间。请注意，设置类型设置不会自动改变字符串的值。
-“Ordered Set〞有序集合：用来描述具有多个不同的值的数据，有一种在的秩序。例如，工资类别或满意度排名可以分为一组有序。有序集的顺序是指通过其元素的自然排序顺序。例如， 1 ，3，5 ，是一组整数的默认排序顺序，而高，低，师大学〔升序按字母顺序排列〕是一组字符串的顺序。有序的集合类型，可让您定义一组有序数据的可视化，建立模型〔, C&R Tree, TwoStep〕，并扩展到其他应用程序，如SPSS ，成认有序数据作为一个独特的类型。此外，任何存储类型〔真实的，整数，字符串，日期，时间，等等〕的领域都可以被定义为一个有序的集合。
-“Typeless〞无类型：用于数据不符合任何上述类型的集合类型或包含太多值的集