1 / 13

文档名称：

决策树C4.5算法课件.pptx

格式：pptx 大小：952KB 页数：13页

下载后只包含 1 个 PPTX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

分享

预览

下载此文档

决策树C4.5算法课件.pptx

上传人:燕燕盛会 2022/3/16 文件大小：952 KB

下载得到文件列表

决策树C4.5算法课件.pptx

相关文档

决策树、信息论、ID3、C45算法

决策树C45算法总结

决策树信息论C45算法课件

决策树C45算法总结课件课件

决策树信息论C45算法

决策树C45算法总结课件

决策树C45算法

决策树算法C45

决策树c45算法总结

决策树算法C45

文档介绍

文档介绍：数据挖掘

决策树算法
(对ID3的改进)
:
1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)
数据挖掘

决策树算法
(对ID3的改进)
:
1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。
：产生的分类规则易于理解，准确率较高。
：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

信息熵
1948年，香农提出了“信息熵”的概念，解决了对系统信息的量化度量问题。
香农认为信息的准确信息量可以用下面的信息熵公式计算：
一个系统越是有序，信息熵就越低；反之，一个系统越乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个衡量。
信息增益率

与ID3不同，(information Gain Ratio)的方法选择测试属性，信息增益率等于信息增益对分割信息量的比值。
GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)
设样本集S按离散属性F的V个不同的取值划分为，共V个子集
定义分割信息量Split(S, F)：
那么信息增益率为：

离散化处理：将连续型的属性变量进行离散化处理，形成决策树的训练集
把需要处理的样本（对应根节点）或样本子集（对应子树）按照连续变量的大小从小到大进行排序
假设该属性对应的不同的属性值一共有N个，那么总共有N-1个可能的候选分割阈值点，每个候选的分割阈值点的值为上述排序后的属性值中两两前后连续元素的中点
用信息增益率选择最佳划分
连续型属性

缺缺失值：在某些情况下，可供使用的数据可能缺少某些属性的值。例如(X, y)是样本集S中的一个训练实例，X=(F1_v, F2_v, …Fn_v)。但是其属性Fi的值Fi_v未知。
处理策略：
处理缺少属性值的一种策略是赋给它结点t所对应的训练实例中该属性的最常见值
另外一种更复杂的策略是为Fi的每个可能值赋予一个概率。例如，给定一个布尔属性Fi，如果结点t包含6个已知Fi_v=1和4个Fi_v=0的实例，那么Fi_v=，而Fi_v=。于是，实例x的60%被分配到Fi_v=1的分支，40%被分配到另一个分支。这些片断样例（fractional examples）的目的是计算信息增益，另外，如果有第二个缺少值的属性必须被测试，这些样例可以在后继的树分支中被进一步细分。()
简单处理策略就是丢弃这些样本
属性值缺失

过拟合问题
过拟合：有监督的算法需要考虑泛化能力，在有限样本的条件下，决策树超过一定规模后，训练错误率减小，但测试错误率会增加。
为了避免过拟合，采用剪枝技术。
剪枝：控制决策树规模的方法称为剪枝，一种是预剪枝，一种是后剪枝。所谓先剪枝，实际上是控制决策树的生长；后剪枝是指，对完全生成的决策树进行修剪。
预剪枝（pre-pruning）：
1) 数据划分法。划分数据成训练样本和测试样本，使用用训练样本进行训练，使用测试样本进行树生长检验。
2) 阈值法。当某节点的信息增益小于某阈值时，停止树生长。
3) 信息增益的统计显著性分析。从已有节点获得的所有信息增益统计其分布，如果继续生长得到的信息增益与该分布相比不显著，则停止树的生长。
优点：简单直接；
缺点：对于不回溯的贪婪算法，缺乏后效性考虑，可能导致树提前停止。

过拟合问题
后剪枝（post-pruning）：
减少分类错误修剪法。使用独立的剪枝集估计剪枝前后的分类错误率，基于此进行剪枝。
最小代价与复杂性折中的剪枝。对剪枝后的树综合评价错误率和复杂性，决定是否剪枝。
最小描述长度准则。最简单的树就是最好的树。对决策树进行编码，通过剪枝得到编码最小的树。
规则后剪枝。将训练完的决策树转换成规则，通过删除不会降低估计精度的前件修剪每一条规则。
优点: 实际应用中有效
缺点：数据量大时，计算代价较大。
常见的后剪枝方法有：Reduced-Error Pruning(REP,错误率降低剪枝）、Pessimistic Erro

相关标签

护肤品策划方案员工期权激励方案银行党建共建活动方案家庭影院布线方案保险公司奖励方案火锅店促销方案大型活动赞助方案宝利通视频会议方案幼儿园环保方案迎广303水冷方案

最近更新

大班市公开课获奖教案省名师优质课赛课一等奖.. 4页

大班市公开课获奖教案省名师优质课赛课一等奖.. 6页

配送app商业计划书 6页

通信工程实验室商业计划书 8页

成长路上作文 11页

2024年今天的风作文 3页

轻质砖代销商业计划书 8页

大班小客人市公开课获奖教案省名师优质课赛课.. 5页

国际结算练习及答案 (1) 7页

爸爸的童年故事作文 22页

安全作文 8页

大班古诗市公开课获奖教案省名师优质课赛课一.. 4页

大班别碰我市公开课获奖教案省名师优质课赛课.. 4页

地理七年级课后答案 3页

大班优秀体育市公开课获奖教案省名师优质课赛.. 5页

大班《踢毽子》市公开课获奖教案省名师优质课.. 4页

市值管理方案 26页

2024届北京各区高三二模语文试题分类汇编(诗歌.. 13页

电气柜改造方案 17页

产品开发各阶段质量控制评审流程 5页

六年级下册音乐教案－3.2.1羊肠小道｜人教版.. 3页

小儿外科急腹症-ppt课件 62页

完整版教你看立博赔率 9页

基层人民武装部的历史沿革 24页

村志编写倡议书 6页

军事+民兵爆破地雷教材.pdf 77页

猜你喜欢

机械零件优质课教学设计 5页

木质涂色挂饰教学设计 5页

收到请柬后主动回复的结婚礼仪（3篇） 2页

敬业与乐业优质教学设计 6页

教案和教学设计的不同之处 3页

教学过程写不写设计意图 4页

教学设计系统理论基础 3页

教学设计方案思想道德评析 3页

有关文明礼仪演讲稿1000字（32篇） 54页

校长教学质量提升座谈会发言稿 20页

教学比赛表彰会设计 4页

教学楼结构抗震设计论文 4页

操场上教学设计 3页

扑朔迷离玩法教学设计 5页

感受音乐教学设计博客网 3页