1 / 2
文档名称:

决策树分类算法介绍.doc

格式:doc   大小:13KB   页数:2页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树分类算法介绍.doc

上传人:学习的一点 2022/6/24 文件大小:13 KB

下载得到文件列表

决策树分类算法介绍.doc

相关文档

文档介绍

文档介绍:决策树分类算法介绍
胡林林 【摘要】分类挖掘是数据挖掘中最重要的技术之一,是数据挖掘中的一个重要课题,而分类技术中的决策树方法又是重点研究的方向。本文就几种常用的决策树算法进行介绍,比较分析。
【关键词】决策树 信息增益决策树分类算法介绍
胡林林 【摘要】分类挖掘是数据挖掘中最重要的技术之一,是数据挖掘中的一个重要课题,而分类技术中的决策树方法又是重点研究的方向。本文就几种常用的决策树算法进行介绍,比较分析。
【关键词】决策树 信息增益 剪枝
一、决策树
三、树剪枝
当决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常。同时对最终的决策树来说,在建立过程中让其生长的枝繁叶茂是没有必要的,这样既降低了树的可理解性和可用性,同时也使决策树对历史数据的依赖性增大,也就是说,这棵树对当前的样例数据可能非常准确,一旦用到新的数据时准确性急剧下降,称这种情况为训练过度。为了使得到的决策树所蕴涵的规则具有普遍意义,必须防止训练过度,这样也减少了训练时间,因此必须对决策树进行剪枝。剪枝是一种克服噪声的基本技术,同时它也能使决策树得到简化而变得更容易理解。
剪枝有两种常用的方法:先剪枝和后剪枝。先剪枝通过提前停止树的构造而对树剪枝。常用诸如统计显著性、信息增益、Gini指标等度量评估分裂的优劣。如果划分一个节点的元祖导致低于预定义阀值的分裂,则给定子集的进一步划分将停止。后剪枝由完全生长的树剪去子树,通过删除节点的分枝并用树叶替换它而剪掉给定节点的子树。树叶用被替换的子树中最频繁的类标记。
四、结束语
针对ID3算法的不足进行改进。其思想简单,结果可靠。但其本身也存在达不到全局最优的结果、评价决策树主要依据错误率等不足。CART算法计算量相对来说不是很大,并且可以处理连续和种类字段,结果清晰的显示哪些字段比较重要。但当类别太多时,错误增加较快。通过分析,每种算法各有优势和适用范围,因此需要根据特定问题和特定的数据选择适合的算法。24094889