文档名称：

决策树C4.5算法总结.ppt

格式：ppt 大小：2,164KB 页数：42页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

决策树C4.5算法总结.ppt

上传人:小落意心冢 2022/6/26 文件大小：2.11 MB

下载得到文件列表

决策树C4.5算法总结.ppt

相关文档

文档介绍

文档介绍：

SPSS Clementine

Weka J48

决策树方法：利用一定的训练样本，从数据中学****出决策规则自动构造出决策树。
data mining》 M Mehta, R Agrawal, J Rissanen - Advances in Database Technology— …, 2019 ），SPRINT（《SPRINT: A scalable parallel classi er for data mining》J Shafer, R Agrawal, M Mehta - Proc. 2019 Int. Conf. Very Large Data …, 2019 - Citeseer），PUBLIC（ 《PUBLIC: A decision tree classifier that integrates building and pruning》R Rastogi, K Shim - VLDB, 2019 -
）等。
斜决策树：
斜决策树适用于处理连续型数据，决策准则使用属性的线性组合。采用属性的线性组合策略的一个典型的决策树分类器是OC1（《A system for induction of oblique decision trees》SK Murthy, S Kasif, S Salzberg - arXiv preprint cs/9408103, 1994 - ）
）。
集成方法：装袋法和推举法。（《Popular ensemble methods: An empirical study》R Maclin, D Opitz - arXiv preprint arXiv:, 2019 -
算法流程：
1）选择哪个属性进行节点分裂？
2）何时停止树生长？
3）怎么处理连续型属性？
4）怎么处理缺失值？
5）怎么处理过拟合问题？
问题：
1）选择节点分裂属性
2）建立新节点，划分数据集
3）判断节点是否到生长停止条件，如果是，终止生长，如果不是，转到1）
选择节点分裂属性的问题
熵（Entropy）：我们把一个事件的不确定程度叫做“熵”，熵越大表明这个事件的结果越难以预测，同时事件的发生将给我们带来越多的信息。
增益（Information Gain）：在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，就是熵。系统原先的熵是H(X)，在条件Y已知的情况下系统的熵（条件熵）为H(X|Y)，信息增益就是这两个熵的差值。
处理缺失值
ID3算法：不能处理缺失值。
：可以处理缺失值。
《Unknown attribute values in induction.》
JR Quinlan - ML, 1989 - Citeseer
三种情况：
1）在具有缺失值的属性上如何计算信息增益率？
解决方案：
a) 忽略该类样本。
b) 选择常用值或均值填充。
c ) 依据缺失比例，折算信息增益/信息增益率。
d) 对缺失值赋予独特的值，参与训练。
2）具有缺失值的样本在进行数据分裂时，分配给哪个子数据集？
解决方案：
a) 忽略该类样本。
b) 选择常用值或均值填充。
c ) 根据其他非缺失属性的比例，分配到子数据集中。
d) 为缺失值建立单独分支。
f) 确定最可能的取值，按比例仅分配给一个子数据集。
3）对新样本进行分类时，缺失值导致样本到达叶子节点，怎么处理？
解决方案：
a) 有缺失值单独分支，走单独分支。
b) 走最常见的值的分支。
c ) 确定最可能取值，走相应分支。
d) 走所有分支，根据不同输出结果的概率进行组合。
f) 不进行分类，直接赋给最有可能的值。
过拟合问题
过拟合：有监督的算法需要考虑泛化能力，在有限样本的条件下，决策树超过一定规模后，训练错误率减小，但测试错误率会增加。
剪枝：控制决策树规模的方法称为剪枝，一种是先剪枝，一种是后剪枝。所谓先剪枝，实际上是控制决策树的生长；后剪枝是指，对完全生成的决策树进行修剪。
先剪枝：
1) 数据划分法。划分数据成训练样本和测试样本，使用用训练样本进行训练，使用测试样本进行树生长检验。
2) 阈值法。当某节点的信息增益小于某阈值时，停止树生长。
3) 信息增益的统计显著性分析。从已有节点获得的所有信息增益统计