1 / 13
文档名称:

决策树C4.5算法课件.pptx

格式:pptx   大小:952KB   页数:13页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树C4.5算法课件.pptx

上传人:燕燕盛会 2022/3/16 文件大小:952 KB

下载得到文件列表

决策树C4.5算法课件.pptx

文档介绍

文档介绍:数据挖掘

决策树算法
(对ID3的改进)
:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)
数据挖掘

决策树算法
(对ID3的改进)
:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。
:产生的分类规则易于理解,准确率较高。
:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。


信息熵
1948年,香农提出了“信息熵”的概念,解决了对系统信息的量化度量问题。
香农认为信息的准确信息量可以用下面的信息熵公式计算:
一个系统越是有序,信息熵就越低;反之,一个系统越乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个衡量。
信息增益率

与ID3不同,(information Gain Ratio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。
GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)
设样本集S按离散属性F的V个不同的取值划分为,共V个子集
定义分割信息量Split(S, F):
那么信息增益率为:

离散化处理:将连续型的属性变量进行离散化处理,形成决策树的训练集
把需要处理的样本(对应根节点)或样本子集(对应子树)按照连续变量的大小从小到大进行排序
假设该属性对应的不同的属性值一共有N个,那么总共有N-1个可能的候选分割阈值点,每个候选的分割阈值点的值为上述排序后的属性值中两两前后连续元素的中点
用信息增益率选择最佳划分
连续型属性

缺缺失值:在某些情况下,可供使用的数据可能缺少某些属性的值。例如(X, y)是样本集S中的一个训练实例,X=(F1_v, F2_v, …Fn_v)。但是其属性Fi的值Fi_v未知。
处理策略:
处理缺少属性值的一种策略是赋给它结点t所对应的训练实例中该属性的最常见值
另外一种更复杂的策略是为Fi的每个可能值赋予一个概率。例如,给定一个布尔属性Fi,如果结点t包含6个已知Fi_v=1和4个Fi_v=0的实例,那么Fi_v=,而Fi_v=。于是,实例x的60%被分配到Fi_v=1的分支,40%被分配到另一个分支。这些片断样例(fractional examples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。()
简单处理策略就是丢弃这些样本
属性值缺失

过拟合问题
过拟合:有监督的算法需要考虑泛化能力,在有限样本的条件下,决策树超过一定规模后,训练错误率减小,但测试错误率会增加。
为了避免过拟合,采用剪枝技术。
剪枝:控制决策树规模的方法称为剪枝,一种是预剪枝,一种是后剪枝。所谓先剪枝,实际上是控制决策树的生长;后剪枝是指,对完全生成的决策树进行修剪。
预剪枝(pre-pruning):
1) 数据划分法。划分数据成训练样本和测试样本,使用用训练样本进行训练,使用测试样本进行树生长检验。
2) 阈值法。当某节点的信息增益小于某阈值时,停止树生长。
3) 信息增益的统计显著性分析。从已有节点获得的所有信息增益统计其分布,如果继续生长得到的信息增 益与该分布相比不显著,则停止树的生长。
优点:简单直接;
缺点:对于不回溯的贪婪算法,缺乏后效性考虑,可能导致树提前停止。

过拟合问题
后剪枝(post-pruning):
减少分类错误修剪法。使用独立的剪枝集估计剪枝前后的分类错误率,基于此进行剪枝。
最小代价与复杂性折中的剪枝。对剪枝后的树综合评价错误率和复杂性,决定是否剪枝。
最小描述长度准则。最简单的树就是最好的树。对决策树进行编码,通过剪枝得到编码最小的树。
规则后剪枝。将训练完的决策树转换成规则,通过删除不会降低估计精度的前件修剪每一条规则。
优点: 实际应用中有效
缺点:数据量大时,计算代价较大。
常见的后剪枝方法有:Reduced-Error Pruning(REP,错误率降低剪枝)、Pessimistic Erro