文档介绍：北京交通大学
硕士学位论文
决策树分类器算法的研究
姓名:黄泽宇
申请学位级别:硕士
专业:计算机应用技术
指导教师:王志海
20060301
摘要最为典型的决策树分类器学****算法是算法,ê芎玫乩┱沽薉惴ǎǚ掷嗔煊虼用毒傩褪粜岳┱沟本文在深入分析算法、.惴ā⒗炼枋骄霾呤鞣掷嗥魉惴ā切式和懒惰式学****策略相结合的决策树分类模型、竞争选择分裂属性的决策树分类器模型。本文将新的分类器算法与算法、.惴ā在数据挖掘和机器学****领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学****和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用。决策树分类方法作为分类知识发现的一种非常重要方法,它具有良好的可解释性、分类速度快、分类性能优越,因此,研究决策树分类器算法逐渐成为一个活跃的研究领域。分而治之的策略,利用信息增益的标准选择分裂属性,能保证构造出一棵简单的树。但是它只能处理枚举型属性,不能解决过适应问题。连续值属性,同时采用剪枝策略很好地解决了过适应问题。目前它已成为现在公认的性能较优的决策树分类器算法。懒惰式决策树也是一种决策树分类器,它采取懒惰式学****策略,学****过程被推迟到分类一个给定测试实例时才进行。它从概念上为每一个测试实例建立一棵最优决策树。在小的数据集合上,它的分类精确度非常高。但是在某些大的数据集合上,特别是属性数目非常多的数据集合上,它的分类速度慢,内存消耗大。朴素贝叶斯分类器算法等多种分类器算法的基础上,进一步提出了急的决策树分类模型、以及基于距离和权重的懒惰式分类模型等中朴素贝叶斯分类器算法进行了比较,通过大量实验验证了这些新算法的有效性和实用性,它们可以应用于求解众多实际的数据挖掘问题。关键词:数据挖掘;分类;决策树分类器:朴素贝叶斯;懒惰式决策树;
,删撇,.嬲聊,.鵊緁船齞百甀印鏰琲瓸鴏砒伽琣北京交通大学硕士学位论文甀晷吕蛐仃曲╱畁璐虮鋣船辳矗,,瓵.Ⅱ阤—鎒也一仃它,牡仃.,鴏虹仃瓹苚.·戗阠丘.·打,琣缸Ⅱ‘‘”,—辏畁騛,Ⅱ
Ⅲ癵騝篸%莔瑆摘要—,.壬甀,.,,,鎒,¨·仃
本人签名:垄叠当独创性声明本人声明,所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽本人所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京交通大学或其他教学机构的学位或、证书而使用过的材料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了明确的说明并表示了谢意。日期:一一,扫年抡既
日期:盟年上月上本人签名:塑坠辑关于论文使用授权的说明术学院所有。未经许可,任何单位和个人不得拷贝。版本人完全了解北京交通大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。论文中所有创新和成果归北京交通大学计算机与信息技权所有,违者必究。
、相关理论、以及本论文的研究内容及其组织安排。数据挖掘⋯,也称作数据采掘、数据开采等。许多人把“数据挖掘”和“数据库中的知识发现”虺芀醋魇堑燃鄣母拍睢R种比较公认的定义是甁..等人提出的数据挖掘的定义:数据挖掘就是从大型数据库的数据中提取出人们感兴趣的知识;这些知识是隐含的、事先未知的,但潜在有用和易于理解的信息;提取的知识可以表示为概念、规则、规律、模式等形式。而更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程【俊通常,数据挖掘是建立在大量数据的基础之上。这些数据可以是关系数据库中的数据,也可以是文本、图形和图像数据,甚至还可以是分布在网络上的异构型数据J萃诰蛟谡庑┐罅渴葜刑崛〉的有用信息和知识可以被用于信息管理、查询优化、过程控制等,并可以用它们对未来情况进行预测,以辅助决策者评估风险来做出正确的决策。因此,数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、机器学****数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点【俊绪论
.萃诰虺S眉际合来辨别新的记录。有时也称这种技术为尽最近邻方法。这互反应。它从结构上模仿生物神经网络,是一种通过训练来学****的非线性预测模型。可以完成分类、聚类、特征挖掘等的集合被称为等价关系牡燃劾唷L跫粜陨系牡燃劾郋与决策属性上的等价类涞墓叵捣秩智榭觯合陆啤目前的数据挖掘常用技术【坑校夯遗传算法:它基于生物进化的概念设