1 / 5
文档名称:

一种改进的C4.5决策树算法.doc

格式:doc   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种改进的C4.5决策树算法.doc

上传人:jiqingyong11 2016/7/24 文件大小:0 KB

下载得到文件列表

一种改进的C4.5决策树算法.doc

文档介绍

文档介绍:1 /5 --------------------------------------------- 感谢观看本文------- 谢谢----------------------------------------------------------- [ 标签: 标题]2016 一种改进的 决策树算法【关键词】数据挖掘决策树 算法信息增益率 1引言数据挖掘中决策树是解决分类问题的方法之一, 是一种归纳学****算法。通过一组属性值向量和相应的类,采用归纳学****算法构造分类器和预测模型,能够从一组无序和无规则的数据中生成决策树形式的分类规则。决策树基本不依赖于任何专业领域的知识,所以在分类,预测和规则提取等领域都被广泛的应用。 70年代末, Quinlan 提出了 ID3 算法后,在机器学****和知识发现领域决策树算法都得到了进一步应用和发展。 ID3 算法的核心是选择属性时,用信息增益作为选择属性的度量标准,在测试每一个非叶子结点时, 能获得关于被测试记录最大的类别信息。虽然 ID3 算法具有算法清晰,方法简单和学****能力较强的优点, 但是 ID3 算法不能处理连续的属性值,并且依赖于训练数据集的质量,只对数据集较小的情况有效,训练数据集在逐渐变大时,决策树可能会随之改变。由于 ID3 算法存在着许多需要改进的地方,为此, 2 /5 --------------------------------------------- 感谢观看本文------- 谢谢----------------------------------------------------------- [ 标签: 标题]2016 于1993 提出了 算法,对 ID3 算法进行了补充和改进。 算法具有 ID3 算法优点的同时也改进和扩展了算法,使其产生易于理解和准确率较高的分类规则。相比于 ID3 算法, 算法用信息增益率来选择属性,而不是 ID3 算法所用的信息增益;在 ID3 算法的基础上还增加了对连续属性的离散化、对不完整属性的处理能力和产生规则等功能。 2 算法 信息增益和信息增益率设D是m个不同值的训练集有m个不同类 Ci, 设 Ci,d 是元组的集合, D和 Ci,d 中的元组个数是|D| 和|Ci ,d|。 信息增益 ID3 算法中选择具有最高信息增益的属性作为节点 N的分裂属性,使元组分类的信息量最小。期望信息为: 用|Ci , d|/|D| 估计 D 中任意元组属于类 Ci 的概率 Pi。 Info 为D的熵。若D的元组用属性A可分成v个不同的类{D1 , D2 ,…, Dn} , Dj包含 D 中的元组且在 A上有值 aj, 则属性 A的信息熵为: A属性上该划分的获得的信息增益为: 3 /5 --------------------------------------------- 感谢观看本文------- 谢谢----------------------------------------------------------- [ 标签: 标题]2016 信息增益率信息增益率用“分裂信息”值将信息增益规范化, 假设以属性 A的值为基准