1 / 21
文档名称:

决策树讲解.ppt

格式:ppt   大小:2,924KB   页数:21页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树讲解.ppt

上传人:63229029 2017/6/26 文件大小:2.86 MB

下载得到文件列表

决策树讲解.ppt

文档介绍

文档介绍:决策树简介
胡作梁 1433275
目录页
CONTENTS PAGE




何为决策树
什么是决策树?
通过把实例从根节点排列到某个叶子节点来分类实例;
叶子节点即为实例所属的分类;
树上每个节点说明了对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。
决策树(Decision Tree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。
决策树的发展
决策树的发展
决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。
决策树的起源是CLS(Concept Learning System),CLS是由Hunt、Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该模型为很多决策树算法的发展奠定了很好的基础。
1984年,(Classification and Regression Tree)算法。
决策树的发展
1986年,。
1993年,,克服了ID3算法的一些不足。
1996年,(Supervised Learning In Quest)。
同年,(Scalable PaRallelizable Induction of Decision Trees)
1998年,(A Decision Tree that Integrates Building and Pruning)
决策树的分类
ID3
ID3算法选用最大信息增益的属性作为决策树分裂属性。在算法实际应用中,这种方法偏向于选择多值属性,但属性取值数目的多少与属性的匹配并无真正关联。这样在使用ID3算法构建时,若出现各属性值取值数分布偏差大的情况,分类精度会大打折扣。
ID3算法本身并未给出处理连续数据的方法。
ID3算法不能处理带有缺失值的数据集,故在进行算法挖掘之前需要对数据集中的缺失值进行预处理。

提出,它在ID3 算法的基础上演变而来。 算法除了拥有前述的ID3 算法基本功能外,在其算法中还加入了连续值处理、属性空缺处理等方法。总结来说, 算法在以下几个方面做出了改进:
信息增益比例计算公式如下:
1) 使用信息增益比例而非信息增益作为分裂标准。
在上式中, 称为分裂信息,它反映了属性分裂数据的延展度与平衡性,计算公式如下: