1 / 8
文档名称:

Clementine决策树CHAID算法.docx

格式:docx   大小:54KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Clementine决策树CHAID算法.docx

上传人:cjc201601 2022/3/5 文件大小:54 KB

下载得到文件列表

Clementine决策树CHAID算法.docx

文档介绍

文档介绍:CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。
不同于C&R树和QUES节点,CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。
CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频性角度确定分支变量和分隔值,进而优化树的分枝过程
CHAID是建立在因果关系的探讨中的,依据目标变量实现对输入变量众多水平的划分
例:心脏数据综合诊断数据
现有数据OVERALL_DIAGNOSI跺合诊断)
本案例是一个医学心脏病综合诊断报告案例,目的通过已知的22个变量F1~F22来预测每个病人是否正常。
0-正常,1-异常
卡方检验:
(1)零假设H0:心脏病检验结果与F13变量无关。(F13变量对输出变量无影响)
卡方值越大,说明两者有关系可能性越大。
确定自由度:(行数-1)*(列数-1)=1
选择显著水平=,对应的卡方值K为
卡方值=(48*12587*7)2*267/(55*212*135*132)=>>
拒绝原假设。故心脏病检验结果与
F13有关。(卡方值为时,对应的P值已趋于0,
即“心脏病检验结果与F13有关”成立的概率趋于1-0=100%)
建立CHAID模型
在“建模”中选择CHAID节点,将其加入数据流中
“TYPE’节点
"Range”范围:用来描述数值,如0-100或范围。一个范围值可以是一个整数,实数,日期/时间。
“Discrete”离散:用于不同的字符串数值的确切数目是未知的。这是一个未初始化的数据类型,即对数
据的存储和使用的所有可能的信息尚不清楚。一旦数据被读取,类型标志,集,或无类型的,取决于最大
集大小属性对话框中指定的流。
“Flag”标志:用于具有两个不同值的数据,如Yes和No或1和2的数据。可能是文本,整数,实数,
日期/时间数据。注:日期/时间是指三种类型的存储时间,日期或时间戳
“Set”集:用来描述具有多个不同的值的数据,每个被视为一个集的成员,如小型/中型/大型数据。在
这个版本的Clementine,一套可以有任何存储数值---字符串或日期/时间。请注意,设置类型设置不会
自动改变字符串的值。
“OrderedSet”有序集合:用来描述具有多个不同的值的数据,有一种内在的秩序。例如,工资类别
或满意度排名可以分为一组有序。有序集的顺序是指通过其元素的自然排序顺序。例如,1,3,5,是
一组整数的默认排序顺序,而高,低,师范大学(升序按字母顺序排列)是一组字符串的顺序。有序的集
合类型,可让您定义一组有序数据的可视化,建立模型(,C&RTree,TwoStep),并扩展到其他应用程序,
如SPSS,承认有序数据作为一个独特的类型。此外,任何存储类型(真实的,整数,字符串,日期,时
间,等等)的领域都可以被定义为一个有序的集合。
“Typeless”无类型:用于数据不符合任何上述类型的集合类型或包含太多值的集合类型。它是有用于一
个集合包含太多值(如帐号)。
CHAID“字段”选项
目标。对于需要一个或多个目标字段的模型,请选择目标字段。此操作与在类型节点中将字段的方向设置
为输出类似。
输入o选择输入字段。此操作与在类型节点中将字段的方向设置为输入类似。
分区字段。该字段允许使用指