1 / 10
文档名称:

决策树算法研究及应用..doc

格式:doc   大小:26KB   页数:10页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树算法研究及应用..doc

上传人:q1188830 2019/10/25 文件大小:26 KB

下载得到文件列表

决策树算法研究及应用..doc

相关文档

文档介绍

文档介绍:决策树算法研究及应用∗王桂芹黄道华东理工大学实验十五楼206室摘要:信息论是数据挖掘技术的重要指导理论之一,是决策树算法实现的理论依据。决策树算法是一种逼近离散值目标函数的方法,其实质是在学****的基础上,得到分类规则。本文简要介绍了信息论的基本原理,重点阐述基于信息论的决策树算法,分析了它们目前主要的代表理论以及存在的问题,并用具体的事例来验证。关键词:决策树算法分类应用StudyandApplicationinDecisionTreeAlgorithmWANGGuiqinHUANGDaoCollegeofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnologyAbstract:TheinformationtheoryisoneofthebasictheoriesofDataMining,--sificationruleonthebasisofexample-:DecisionTree;Algorithm;Classification;Application1引言决策树分类算法起源于概念学****系统CLS(ConceptLearningSystem,然后发展到ID3方法而为高潮,,有名的决策树方法还有CART和Assistant,Sliq、Sprint等等[2]。最初利用信息论中信息增益方法寻找数据库中具有最大信息量的字段,作决策树的一个结点字段的某些值作门限建立树的分支;在分支下建立下层结点和子分支,生成一棵决策树。再剪枝,优化,然后把决策树转化为规则,利用这些规则可以对新事例进行分类。作者介绍:王桂芹,女,汉族,1983年5月生于山东省嘉祥县,2005年本科毕业于太原理工大学自动化系,现就读于华东理工大学信息科学与工程学院,攻读硕士学位,研究方向为数据挖掘;黄道,男,汉族,华东理工大学信息科学与工程学院博士生导师、教授。,具有描述简单、分类速度快的优点,适合于大规模数据的处理,,通过选择窗口来形成决策树,是利用信息增益寻找数据库中具有最大信息量的属性字段建立决策树的一个节点,再根据该属性字段的不同取值建立树的分枝;在每个分枝子集中重复建立树的下层节点和分枝过程。ID3算法的基础理论清晰,使得算法较简单,学****能力较强,且构造的决策树平均深度较小,分类速度较快,特别适合处理大规模的学****问题。ID3算法采用信息增益最为单一属性的度量,试图减少树的平均深度,忽略了叶子数目的研究,主要存在的问题有[1]:(1ID3算法注意力集中在特征的选择上,且偏向于