1 / 7
文档名称:

决策树算法C4.5.doc

格式:doc   大小:53KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树算法C4.5.doc

上传人:小辰GG 2022/6/3 文件大小:53 KB

下载得到文件列表

决策树算法C4.5.doc

相关文档

文档介绍

文档介绍:3刘2倩21宋0琛3
数据仓库与数据挖掘

本组成员:
3刘2倩21宋0琛3
07103王2维1光80710郑3辰224
数据仓库与数据挖掘
.背景
最早的决策时算法是由等人于年提出3刘2倩21宋0琛3
数据仓库与数据挖掘

本组成员:
3刘2倩21宋0琛3
07103王2维1光80710郑3辰224
数据仓库与数据挖掘
.背景
最早的决策时算法是由等人于年提出的。当前最有影
响的决策树算法是于年提出的和年提出的。
只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。
算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。是算法的改进算法,不仅可以处理离散型描述属性,还能处
理连续性描述属性。采用了信息增益比作为选择分枝属性的标准,弥
补了算法的不足。
决策树算法的优点如下:(1)分类精度高;(2)成的模式简单;(3对噪声数据有很好的健壮性。因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。
・C4・5改进的具体方面
算法存在的缺点
()算法在选择根节点和各内部节点中的分支属性时,采用信息增益
作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。
()算法只能对描述属性为离散型属性的数据集构造决策树。
2算法做出的改进
用信息增益率来选择属性
克服了用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为:
其中与算法中的信息增益相同而分裂信息代表
数据仓库与数据挖掘
了按照属性分裂样本集的广度和均匀性。
其中,到是个不同值的属性分割而形成的个样本子集。
如按照属性把集(含个用例)分成了个用例和个用例两个集合

(2)可以处理连续数值型属性
既可以处理离散型描述属性,也可以处理连续性描述属性。在选择某节点上的分枝属性时,对于离散型描述属性,的处理方法与相同,按照该属性本身的取值个数进行计算;对于某个连续性描述属性,假设在某个结点上的数据集的样本数量为,将作以下处理。
•将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行排序,得到属性值的取值序列,,……a
•在取值序列中生成个分割点。第()个分割点的取
值设置为(())它可以将该节点上的数据集划分为
两个子集。
•从个分割点中选择最佳分割点。对于每一个分割点划分数据集
的方式,计算它的信息增益比,并且从中选择信息增益比最大的分
割点来划分数据集。
(3)采用了一种后剪枝方法
避免树的高度无节制的增长,避免过度拟合数据,该方法使用训练样本集本身来估计剪枝前后的误差从,而决定是否真正剪枝。方法中使用的公式如下:
其中是实例的数量,为观察到的误差率(其中为个实例中分类错误
的个数),为真实的误差率,为置信度(算法的一个输入参数,默认值
数据仓库与数据挖掘
为),为对应于置信度的标准差,其值可根据的设定值通过查正态分布表得到。通过该公式即可计算出真实误差率的一