1 / 13

文档名称：

决策树C45算法.pptx

格式：pptx 大小：959KB 页数：13页

下载后只包含 1 个 PPTX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

分享

预览

下载此文档

决策树C45算法.pptx

上传人:wz_198613 2019/10/21 文件大小：959 KB

下载得到文件列表

决策树C45算法.pptx

相关文档

C45算法生成决策树的研究

决策树信息论C45算法

决策树C45算法总结课件

C45算法生成决策树的研究

决策树C45算法

C45算法建立决策树JAVA练习

决策树算法C45

决策树、信息论、id3、c45算法

决策树c45算法总结

决策树算法C45

文档介绍

文档介绍：(对ID3的改进):1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。:产生的分类规则易于理解,准确率较高。:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。,香农提出了“信息熵”的概念,解决了对系统信息的量化度量问题。香农认为信息的准确信息量可以用下面的信息熵公式计算:一个系统越是有序,信息熵就越低;反之,一个系统越乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个衡量。,(informationGainRatio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)设样本集S按离散属性F的V个不同的取值划分为,共V个子集定义分割信息量Split(S,F):那么信息增益率为::将连续型的属性变量进行离散化处理,形成决策树的训练集把需要处理的样本(对应根节点)或样本子集(对应子树)按照连续变量的大小从小到大进行排序假设该属性对应的不同的属性值一共有N个,那么总共有N-1个可能的候选分割阈值点,:在某些情况下,可供使用的数据可能缺少某些属性的值。例如(X,y)是样本集S中的一个训练实例,X=(F1_v,F2_v,…Fn_v)。但是其属性Fi的值Fi_v未知。处理策略:处理缺少属性值的一种策略是赋给它结点t所对应的训练实例中该属性的最常见值另外一种更复杂的策略是为Fi的每个可能值赋予一个概率。例如,给定一个布尔属性Fi,如果结点t包含6个已知Fi_v=1和4个Fi_v=0的实例,那么Fi_v=,而Fi_v=。于是,实例x的60%被分配到Fi_v=1的分支,40%被分配到另一个分支。这些片断样例(fractionalexamples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。():有监督的算法需要考虑泛化能力,在有限样本的条件下,决策树超过一定规模后,训练错误率减小,但测试错误率会增加。为了避免过拟合,采用剪枝技术。剪枝:控制决策树规模的方法称为剪枝,一种是预剪枝,一种是后剪枝。所谓先剪枝,实际上是控制决策树的生长;后剪枝是指,对完全生成的决策树进行修剪。预剪枝(pre-pruning):1)数据划分法。划分数据成训练样本和测试样本,使用用训练样本进行训练,使用测试样本进行树生长检验。 2)阈值法。当某节点的信息增益小于某阈值时,停止树生长。3)信息增益的统计显著性分析。从已有节点获得的所有信息增益统计其分布,如果继续生长得到的信息增益与该分布相比不显著,则停止树的生长。优点:简单直接;缺点:对于不回溯的贪婪算法,缺乏后效性考虑,可能导致树提前停止。(post-pruning):减少分类错误修剪法。使用独立的剪枝集估计剪枝前后的分类错误率,基于此进行剪枝。最小代价与复杂性折中的剪枝。对剪枝后的树综合评价错误率和复杂性,决定是否剪枝。最小描述长度准则。最简单的树就是最好的树。对决策树进行编码,通过剪枝得到编码最小的树。规则后剪枝。将训练完的决策树转换成规则,通过删除不会降低估计精度的前件修剪每一条规则。优点:实际应用中有效缺点:数据量大时,计算代价较大。常见的后剪枝方法有:Reduced-ErrorPruning(REP,错误率降低剪枝)、PessimisticErrorPruning(PEP,悲观剪枝)P、代价复杂度)、ID3、。后剪枝操作是一个边修剪边检验的过程,一般规则标准是:在决策树的不断剪枝操作过程中,将原样本集合或新数据集合作为测试数据,检验决策树对测试数据的预测精度,并计算出相应的错误率,如果剪掉某个子树后的决策树对测试数据的预测精度或其他测度不降低,那么剪掉该子树。(PEP,悲观剪枝),它使用训练集生成决策树又用它来进行剪枝,不需要独立的

相关标签

党员发展对象培训心得体会提高教学质量心得体会参观警示教育基地心得体会不做为不担当心得体会小学语文教师培训心得体会计算机实训心得体会入党积极分子党课心得体会给我三天光明心得体会支部书记培训班心得体会教师法学习心得体会

最近更新

在EBS里新建一个OU的步骤 9页

市公开课获奖教案省名师优质课赛课一等奖教案.. 5页

市公开课获奖教案省名师优质课赛课一等奖教案.. 6页

安全市公开课获奖教案省名师优质课赛课一等奖.. 4页

2024年价格诚信承诺书 4页

大班读书市公开课获奖教案省名师优质课赛课一.. 5页

2024年仙女作文500字4篇 5页

给校长的建议书作文 (5) 7页

2024年仓管员工作职责（通用20篇） 11页

大班沉与浮的市公开课获奖教案省名师优质课赛.. 6页

妊娠合并精神病护理ppt 24页

数字乡村试点方案 3页

消防工程监理评估报告范本 4页

地下车库开荒保洁服务委托合同 3页

WS T 496-2017《临床实验室质量指标》 7页

重庆大学2020年春季学期课程作业高等数学（II.. 63页

讲道大纲 9页

讲章书念的妇人 16页

心思的战场-乔依丝迈尔 50页

沁园春·长沙 2页

猜你喜欢

互联网广告创业计划书2 36页

《她是我的朋友》习题设计 4页

信息系统安全与维护卷5 10页

临床放射学专业介绍 28页

种子轮轮项目商业计划书 7页

临床医学概论课程的泌尿病学与泌尿系统疾患 28页

临床医学技术培训的影响与效果 27页

临床医学专业认证自评报告中的教学管理与质量.. 29页

中风与脑出血的现场施救方法 27页

中药热奄包在乳腺癌中的应用探讨 27页

中国航天精神的传承与弘扬 23页

中国航天事业的飞跃发展弘扬航天精神 24页

中医针灸治疗视网膜激光治疗后的临床效果评估.. 22页

中医诊断学问诊对思虑过度的辨证与治疗 24页

中医诊断学问中的阴阳平衡理论研究 24页