1 / 8
文档名称:

决策树典型算法研究综述.docx

格式:docx   大小:1,025KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树典型算法研究综述.docx

上传人:科技星球 2022/2/9 文件大小:1 MB

下载得到文件列表

决策树典型算法研究综述.docx

相关文档

文档介绍

文档介绍:决策树典型算法研究综述
 
 
 
 
 
   
 
 
 
邵晏晖
摘要:决策树算法是数据挖掘领域的一个研究热点,通常用于提取描述重要数据类的模型或预测未来的数据趋势。   
 
   
决策树典型算法研究综述
 
 
 
 
 
   
 
 
 
邵晏晖
摘要:决策树算法是数据挖掘领域的一个研究热点,通常用于提取描述重要数据类的模型或预测未来的数据趋势。该文介绍了决策树及其发展过程,重点阐述了三种典型的决策树算法,分析了它们的优缺点,并对三种算法进行了比较,最后探讨了决策树算法的改进方向。
关键词:数据挖掘;决策树;分类
TP311 :A :1009-3044(2018)08-0175-03
1引言
数据挖掘(Data Mining)技术是一个非常热门的、重要的、具有广阔应用前景的研究领域。数据挖掘的两个目标是预测和描述。分类算法是属于预测式数据挖掘的一种[-]数据分析方法。其中,决策树算法是目前经常被使用的数据分类方法之一,已经成功应用在医疗、交通、金融等领域。
决策树是机器学****中的一个树状预测模型,其内部结点表示在一个属性上的测试,而叶子结点代表最终的类别结果。决策树模型很自然地还原了做决策的过程,将复杂的决策过程拆分成了一系列简单的选择,因而能直观地解释决策的整个过程。
本文对三种典型的决策树分类算法进行了介绍,分析了不同算法的优缺点,并讨论了决策树算法今后的改进方向。
2典型决策树分类算法
决策树是一种常用的数据挖掘方法,是一个类似流程图的树型结构。决策树包含三个元素:根结点、内部结点和叶子结点。若要对未知的数据对象进行分类,可以按照决策树的数据结构对数据集中的属性(取值)进行测试,从决策树的根结点到叶结点的一条路径就代表了对相应数据对象的类别预测。决策树是一种分而治之(
divide-and-conquer)的决策过程,形成决策树的决策规则有许多,如信息增益,信息增益比,基尼指数等。下面介绍三种典型的决策树分类算法:ID3算法、。
ID3算法
决策树分类方法的核心算法是由Ross Quinlan在1986年提出的ID3算法。ID3算法的思想是:首先在决策树的各级结点上,选择信息增益最大的属性作为分类结点,根据该属性的不同取值分裂出各个子结点,随后采用递归的方法建立决策树的分支,直到样本集中只含有一种类别时停止,得到最终的决策树。
基尼指数与熵有类似的性质。Gini(D)、Cini(D,A)分别表示集合D的不确定性以及通过A=a分割后集合的不确定性。基尼指数值越大,样本集合的不確定性也就越大。
CART算法的优点:1)自动处理缺失值,无需进行缺失值替换,能够处理孤立点。2)可使用自动的成本复杂性剪枝来得到归纳性更强的树。3)变量数多时,可判断属性变量的重要性,自动忽略对目标变量没有贡献的属性。
CART算法的缺点:1)CART算法本身是一种大样本的统计分析方法,样本量较小时模型不稳定。2)CART算法的要求是被选择的属[-]性要是连续且有序的,并且只能产生两个子结点。