1 / 47
文档名称:

数据挖掘决策树.ppt

格式:ppt   大小:2,938KB   页数:47页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘决策树.ppt

上传人:文库新人 2021/10/15 文件大小:2.87 MB

下载得到文件列表

数据挖掘决策树.ppt

文档介绍

文档介绍:数据挖掘决策树
第一页,共47页
内容提要
引言
构造分类树
剪枝导论
模型评估
第二页,共47页
引言
分类树是使用树结构算法将数据分成离散类的方法。Breiman在20世纪80年代早期创造了该术语。该技术在医疗、市场调查统计、营销和顾客关系方面得到了很好的应用。
例如,一个树结构分类器使用血压、年龄和先前的治疗情况将心脏病患者分成危险和不危险两类。
另一种工具可能使用与年龄相关的变量和其他人口统计量决定谁应该出现在邮件发送清单上。
预测对直接邮寄广告的反应和确定控制电信业顾客流失的方法都是具体行业的应用。
第三页,共47页
决策树作用(1)
下表的数据提供了什么信息?
第四页,共47页
决策树作用(2)
决策树的主要作用是揭示数据中的结构化信息。
决策树汇总了数据,并揭示了其中隐藏的结构:
规则:
如果血压高,则采用药物A。
如果血压低,则采用药物B。
如果血压正常。年龄小于或等于40,则采用药物A,否则采用药物B。
第五页,共47页
准确率、支持度、错误率
该例得到的规则和对应的准确率和支持度是:
如果血压高,则采用药物A(准确率100%,支持度3/12)。
如果血压低,则采用药物B(准确率100%,支持度3/12)。
如果血压正常并且年龄小于或等于40,则采用药物A(准确率100%,支持度3/12)。
如果血压正常并且年龄大于40。则采用药物B(准确率100%,支持度3/12)。
第六页,共47页
树生长的策略
对于树生长的策略,算法主要考虑的问题:
选择分裂变量的标准。
找到被选择的变量的分裂点的标准(连续变量情况)。
确定何时停止树生长过程的标准。
第七页,共47页
决策树的分类
目标变量和预测变量
决策树根据目标变量的类型可分成分类树与回归树
如果目标变量(也称为响应变量或类变量)是标称/分类变量(如处方药),则称该树为分类树(classification tree)。
如果目标变量是连续的(如“收入”),则称该树为回归树(regression tree)。
第八页,共47页
预测变量分类
预测变量也可以一般地分为标称的或连续的。
连续值变量的处理,大部分实际算法在构造树之前先将连续值变量转换成具有离散层次(或区间)的变量。
第九页,共47页
构造分类树
用于标称属性的lD3算法
ID3代表归纳决策树(induction decision—tree)版本3,它是一种用来由数据构造决策树的递归过程。
第十页,共47页