1 / 6
文档名称:

C4.5算法的分析及应用.pdf

格式:pdf   页数:6
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

C4.5算法的分析及应用.pdf

上传人:小泥巴 2014/3/1 文件大小:0 KB

下载得到文件列表

C4.5算法的分析及应用.pdf

文档介绍

文档介绍:东莞理工学院学报
第卷第期..
年月.
.算法的分析及应用
刘耀南
嘉应学院继续教育学院,广东梅州
摘要:.算法是进行数据分类分析的经典决策树数据挖掘算法,应用广泛。介绍了决策树及其常用算
法,指出了它存在的缺点。,通过其在高校教学决策中的应用实例,说明数据分类并实
现预测的过程。。
关键词:决策树;;.算法;分类;数据挖掘
中图分类号:. 文献标识码: 文章编号:———
随着计算机的不断普及和网络技术、数据库技术的广泛应用,各行各业积累了大量的数据,如何从
这些浩瀚的数据海洋中提炼出有价值的信息,已成为一个亟待解决的问题。数据挖掘
自问世以来就得到了广泛关注和深入研究,它是一门多学科的交叉性学科,从现存的大量的数据源中通
过加工处理,探寻出有用的、有潜在价值并且是可以被理解的信息或知识,从而为正确决策提供数
据支持。决策树是数据挖掘的重要分支,主要研究从一组毫无次序和规律的事例中推理出决策树形式的
分类规则,用于预测未知数据样本的类别,由于其具有数据分析效率高、简单直观、容易理解等优点,
在越来越多的领域得到了广泛应用,并取得了较好的效果。
决策树概述
决策树是一种树结构,内部节点是决策节点,表示对数据实例在某个属性上的测试,叶子节点代表
类别,而每个分枝则表示一个测试输出。为了对测试样例进行分类,在决策树上从根节点开始,自上而
,直到测试样例到达一个表示该样例预测的叶子节点。决策树表
示在某种条件下就得到某种结果,容易转换成—的分类规则,每个分支就代表一条规则,分支
上所有的决策节点构成规则的条件,叶子节点代表规则的结果。
决策树的构造是通过递归地对训练数据进行分隔,基本思想是:首先把所有数据样例作为根节点,
采用适当的标准,确定测试属性,然后根据该测试属性的不同取值,将训练数据集分为若干子数据集,
作为根节点下的第一层子节点,再分别将这些子节点视为根节点,重复以上步骤,当所有的当前节点数
据属于同一类时,终止迭代,得到一棵完整的树。由于现实世界中有不准确、不完整数据及噪声等
因素的存在,所以构造出的初始决策树会有训练数据孤立点和噪声引起的异常分枝,必须进行剪枝,得
到一棵精简且准确的决策树。
常用决策树算法
为了构建决策树分类模型,决策树算法的选择非常关键。决策树算法最著名和经典的是提
出的算法,它采用信息增益的特征来选择测试属性,选择最高信息增益或最大熵压缩的属
性作为当前节点的测试属性,算法先计算每个属性的信息增益,则选取具有最高信息增益的属性作为决
策树的节点,然后根据该属性不同的取值创建分枝,重复递归调用该方法对各分枝的子集建立分枝,直
收稿日期:——
基金项目:梅州市与嘉应学院联合自然科学基金重点项目“基于数据挖掘的高校教学决策支持系统的研发”。
作者简介:刘耀南一,男,广东梅州人,讲师,硕士,主要从事数据挖掘研究。
万方数据
东莞理工学院学报年
到所有子集属于同一类别的数据为止,最后得到一棵决策树,此决策树就可以用来对新的样本进行分
类⋯。
算法理论清晰、方法简单、学习能力较强,是建立决策