1 / 42
文档名称:

决策树C4.5算法总结.ppt

格式:ppt   大小:2,164KB   页数:42页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树C4.5算法总结.ppt

上传人:小落意心冢 2022/6/26 文件大小:2.11 MB

下载得到文件列表

决策树C4.5算法总结.ppt

相关文档

文档介绍

文档介绍:

SPSS Clementine

Weka J48

决策树方法:利用一定的训练样本,从数据中学****出决策规则自动构造出决策树。
data mining》 M Mehta, R Agrawal, J Rissanen - Advances in Database Technology— …, 2019 ),SPRINT(《SPRINT: A scalable parallel classi er for data mining》J Shafer, R Agrawal, M Mehta - Proc. 2019 Int. Conf. Very Large Data …, 2019 - Citeseer),PUBLIC( 《PUBLIC: A decision tree classifier that integrates building and pruning》R Rastogi, K Shim - VLDB, 2019 -
)等。
斜决策树:
斜决策树适用于处理连续型数据,决策准则使用属性的线性组合。采用属性的线性组合策略的一个典型的决策树分类器是OC1(《A system for induction of oblique decision trees》SK Murthy, S Kasif, S Salzberg - arXiv preprint cs/9408103, 1994 - )
)。
集成方法:装袋法和推举法。(《Popular ensemble methods: An empirical study》R Maclin, D Opitz - arXiv preprint arXiv:, 2019 -
算法流程:
1)选择哪个属性进行节点分裂?
2)何时停止树生长?
3)怎么处理连续型属性?
4)怎么处理缺失值?
5)怎么处理过拟合问题?
问题:
1)选择节点分裂属性
2)建立新节点,划分数据集
3)判断节点是否到生长停止条件,如果是,终止生长,如果不是,转到1)
选择节点分裂属性的问题
熵(Entropy):我们把一个事件的不确定程度叫做“熵”,熵越大表明这个事件的结果越难以预测,同时事件的发生将给我们带来越多的信息。
增益(Information Gain):在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。系统原先的熵是H(X),在条件Y已知的情况下系统的熵(条件熵)为H(X|Y),信息增益就是这两个熵的差值。
处理缺失值
ID3算法:不能处理缺失值。
:可以处理缺失值。
《Unknown attribute values in induction.》
JR Quinlan - ML, 1989 - Citeseer
三种情况:
1)在具有缺失值的属性上如何计算信息增益率?
解决方案:
a) 忽略该类样本。
b) 选择常用值或均值填充。
c ) 依据缺失比例,折算信息增益/信息增益率。
d) 对缺失值赋予独特的值,参与训练。
2)具有缺失值的样本在进行数据分裂时,分配给哪个子数据集?
解决方案:
a) 忽略该类样本。
b) 选择常用值或均值填充。
c ) 根据其他非缺失属性的比例,分配到子数据集中。
d) 为缺失值建立单独分支。
f) 确定最可能的取值,按比例仅分配给一个子数据集。
3)对新样本进行分类时,缺失值导致样本到达叶子节点,怎么处理?
解决方案:
a) 有缺失值单独分支,走单独分支。
b) 走最常见的值的分支。
c ) 确定最可能取值,走相应分支。
d) 走所有分支,根据不同输出结果的概率进行组合。
f) 不进行分类,直接赋给最有可能的值。
过拟合问题
过拟合:有监督的算法需要考虑泛化能力,在有限样本的条件下,决策树超过一定规模后,训练错误率减小,但测试错误率会增加。
剪枝:控制决策树规模的方法称为剪枝,一种是先剪枝,一种是后剪枝。所谓先剪枝,实际上是控制决策树的生长;后剪枝是指,对完全生成的决策树进行修剪。
先剪枝:
1) 数据划分法。划分数据成训练样本和测试样本,使用用训练样本进行训练,使用测试样本进行树生长检验。
2) 阈值法。当某节点的信息增益小于某阈值时,停止树生长。
3) 信息增益的统计显著性分析。从已有节点获得的所有信息增益统计