1 / 69
文档名称:

决策树优化算法研究.pdf

格式:pdf   大小:3,553KB   页数:69页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树优化算法研究.pdf

上传人:mengjiong6216 2021/11/16 文件大小:3.47 MB

下载得到文件列表

决策树优化算法研究.pdf

相关文档

文档介绍

文档介绍:西南交通大学
硕士学位论文
决策树优化算法研究
姓名:李卿
申请学位级别:硕士
专业:计算机应用技术
指导教师:楼新远
20090401
摘要西南交通大学硕士研究生学位论文第决策树是一种有效的数据挖掘方法,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的发展要求,具有重要的理论和实践意义。本文对决策树算法中涉及的样本筛选方法和测试属性选择标准进行了深入研究,主要包括以下几个方面的内容:通过分析基于重复剪辑近邻法筛选样本的原理,提出了引入拒绝阀值的重复剪辑近邻法。与重复剪辑近邻法相比,该方法通过引入拒绝阀值来减小样本被误剔除的可能性,进而减小决策树的判决风险和误判概率。通过仿真实验比较这两种方法发现,引入拒绝阀值的重复剪辑近邻法在降低判决风险和误判概率上要优于重复剪辑近邻法:而在决策树的规模和分类错误率上,重复剪辑近邻法的精度要优于引入拒绝阀值的重复剪辑近邻法。同时,用这两种方法对样本集进行筛选,都能在不损害分类准确率的同时减小决策树的规模。提出了一种基于修正系数的测试属性选择标准。该方法利用修正系数降低信息增益大且取值个数多的属性的信息增益,与信息增益和引入用户兴趣度的测试属性选择标准相比,此方法既克服了惴ù嬖诘亩嘀灯蛭侍猓挚朔了采用用户兴趣度产生的对多值属性重要性的主观评测等问题。同时保持了决策树算法不要求用户掌握应用领域的知识,完全通过样本集自动构建分类器对未知数据进行分类的优点。提出了一种组合优化决策树算法。该算法从样本筛选和测试属性选择标准方面进行了改进,对决策树建立过程中易受噪声影响和易产生多值偏向问题的主要环节进行了优化。仿真实验表明了该算法在减小决策树规模的同时提高了分类准确率。关键词数据挖掘;决策树;引入拒绝阀值的重复剪辑近邻法;修正系数
西南交通大学硕士研究生学位论文第页瓾甌畉.猠·猠猲—瓵琲.琒’琺猠猲猠猲—瑃.ぁぁ·,ぁ,甌.
西南交通大学硕士研究生学位论文第琤獀.;。,....瓸,.篋;!ぁ·
日期:***.彳碑学位论文作者签名:杏卿槐C芤厥褂帽臼谌ㄊ椤西南交通大学学位论文版权使用授权书曲南父通大罕本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于C芸冢年解密后适用本授权书;朐谝陨戏娇蚰诖颉”
苍纭『础祝西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下:ü治龌谥馗醇艏诜ㄉ秆⊙镜脑恚岢隽艘刖芫阀值的重复剪辑近邻法。诰霾呤鞯牟馐允粜匝≡癖曜忌希捎靡恢只谛拚凳牟馐属性选择标准,通过用修正系数降低信息增益大且取值个数多的属性的信息增益。
第虑把课题研究的背景与意义西南交通大学硕士研究生学位论文第随着计算机和信息时代的到来,人们收集、存储和访问的数据急剧增加,对这些快速增长的海量数据进行分析和知识理解已经远远超出了人的能力。大量的数据被描述为“数据丰富,但信息贫乏”。随着数据库规模目益扩大,仅依靠数据库管理系统的查询检索机制和统计分析方法,已经远远不能满足现实的需要,而大量激增的数据中往往又隐藏着许多重要的信息,如果能把这些信息从数据库中提取出来,就能为用户创造很多潜在的利润。因此,对大量历史数据进行分析处理,挖掘出有用的知识就显得非常迫切。传统的查询技术不能解决目前面临的信息爆炸问题,如何有效地管理,怎样才能有效地利用数据库中数据,以及怎样才能发现其潜在的知识,这就需要有新的、更为有效的手段来对各种数据源整理并进行挖掘,以发现新的知识并发挥这些数据的潜能。年代末兴起的数据库中的知识发现,及其核心技术数据挖掘窃谡庋的应用需求下产生并迅速发展起来的一门技术。目前知识发现和数据挖掘技术已经成为计算机界新的研究热点之一,引起数据库、机器学****统计等领域专家的广泛关注。数据挖掘的方法多种多样,包括分类、预测、聚类、关联规则挖掘、序列模式挖掘等,其中分类问题是被广泛研究的课题之一,在商业中应用最多。分类是指把数据项映射到一个事先定义的类中的学****过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学****算法得出分类。分类学****的目标是构建一个分类模型。它在构造模型时需要知道训练集中每个样本所属的类,因此是有指导的学****方法。分类研究在国外发展很快,

最近更新

梅山快速路可行性研究报告 7页

人工智能教育方案开启学生走向未来科技的大门.. 26页

智能补货方案 7页

无损检测方案 7页

施工企业大客户研究报告 7页

方案介绍结构 8页

人工智能在游戏开发中的创新与实践培训 30页

人力资源信息系统的应用:优化人力资源管理流.. 30页

交通事故急救现场处理交通事故伤者 27页

公务员行政测试图形推理大全 101页

了解严重精神障碍患者的法律权益保护 22页

全国刘氏字辈资料-(1) 19页

修理厂安全防护措施和设施 2页

临床研究设计培训:实践中的实证医学 27页

《槐乡五月》评课稿汇编 4页

临床医学诊断与治疗的综合方法与路径选择 26页

临床医学概论课程的病理生理基础知识梳理 27页

临床医学技术培训中的项目管理与执行(1) 27页

临床医学专业认证自评报告的重要性与目的解读.. 27页

临床医学专业自评报告解读时的教学质量保障机.. 24页

中药热奄包在急性咽喉炎中的临床应用研究 29页

中小学人工智能教育的评估标准与方法 26页

中国航天工业的高效生产与管理 26页

华为公司质量管理手册 51页

浮法玻璃断面条纹均匀性产生因素和研究应用 7页

梁实秋散文集:骂人的艺术 3页

【最新】sl176-2023水利水电工程施工质量检验.. 63页

混凝土地坪施工合同(打地坪施工合同) 56页

山区公路路线总体设计思路(合理掌握运用技术指.. 27页

农村供水工程实施方案 7页