1 / 45
文档名称:

决策树简介.ppt

格式:ppt   页数:45页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树简介.ppt

上传人:endfrs 2016/7/8 文件大小:0 KB

下载得到文件列表

决策树简介.ppt

文档介绍

文档介绍:决策树第十组: 郭浩韩学成何珺何军黄安迪 123§ 数据分类介绍分类是数据挖掘的一个重要课题, 它的目的是: 构造一个分类函数或分类模型, 该模型能把数据库中的数据项映射到给定类别中的某一个。数据分类的过程一般来说主要包含两个步骤第一步, 建立一个描述已知数据集类别或概念的模型第二步, 利用所获得的模型进行分类操作 4 § 数据分类介绍-2第一步, 建立一个描述已知数据集类别或概念的模型该模型是通过对数据库中各数据进行内容的分析而获得的。分类学****方法所使用的数据集称为训练样本集合,每一数据行都属于一个确定的数据类别,其类别值是由一个属性来描述的(被称为类别标记属性)。因此分类学****又可称为监督学****它是在已知训练样本类别情况下,通过学****建立相应模型。而无监督学****则是在训练样本的类别与类别个数均未知的情况下进行的,如聚类分析。 5 § 数据分类介绍-2第二步, 利用所获得的模型进行分类操作首先对模型分类准确率进行估计。模型的准确性可以通过由该模型所正确分类的测试样本个数所占总测试样本的比例得到。即对于每一个测试样本, 比较其已知的类别与学****所获模型的预测类别。如果一个学****所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来数据行或对象(其类别未知)进行分类,即利用学****所获得的模型进行预测,对未知类别的数据行或对象判断其类别(属性)取值。 6 由训练数据产生分类规则 7 由分类规则对新的样本数据进行分类 8 § 决策树介绍-2常用的分类预测算法: ?决策树归纳分类?贝叶斯分类?基于规则的分类?用后向传播分类?遗传算法、粗糙集方法、模糊集方法 9 § 决策树介绍- 决策树的基本知识决策树方法最早产生于 20世纪 60年代,是由 Hunt 等人研究人类概念建模时建立的学****系统 CLS (concept learning system) 。到了 70年代末, J. Ross Quinlan 提出 ID3 算法,引进信息论中的有关思想,提出用信息增益(information gain) 作为特征判别能力的度量,来选择属性作为决策树的节点,并将建树的方法嵌在一个迭代的程序之中。当时他的主要目的在于减少树的深度,却忽略了叶子数目的研究。 1975 年和 1984 年,分别有人提出了 CHAID 和 CART 算法。 1986 年, J. C. Schlinner 提出 ID4 算法。 1988 年, P. E. Utgoff 提出 ID5R 算法。 1993 年, Quinlan 本人以 ID3 算法为基础研究出 算法。新算法在对预测变量的缺失值处理、剪枝技术、派生规则等方面作了较大的改进, 是 的商业改进版。 10