1 / 15
文档名称:

决策树技术研究综述.doc

格式:doc   大小:24KB   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树技术研究综述.doc

上传人:好用的文档 2021/4/11 文件大小:24 KB

下载得到文件列表

决策树技术研究综述.doc

文档介绍

文档介绍:决策树技术研究综述
  摘要:决策树是一种重要的数据挖掘技术,广泛应用于电子商务、医学、天文学和决策分析等多个领域。针对决策树技术研究越来越受到重视的现实情况,通过介绍决策树技术相关概念、理论及其发展过程,阐述决策树技术的国内外研究现状,指出决策树技术面临的困难和挑战,并展望其研究方向。
  关键词:决策树;数据挖掘;现状;研究方向
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)24-0001-04
  Review on Decision Tree Technology Research
  LI Hong-bo1, BAI Jin-bo2*, YANG Gao-ming3, HUANG Shao-wei1
  ( of Computer/School of Software, Zhaoqing University, Zhaoqing 526161, China; of Economics & Management, Zhaoqing University, Zhaoqing 526161, China; of Computer Science and Engineering, Anhui University of Science & Technology, Huainan 232001, China)
  Abstract: Decision tree is an important data mining technology
, widely used in electronic commerce, medicine, astronomy, and decision analysis, and other fields. Aiming at the reality that the decision tree technology is paid more and more attention, this article points out the difficulties and challenges that the decision tree technology is facing, and prospects the research orientations by introducing the related concept, theory and its development process, elaborating its research status at home and abroad.
  Keywords: decision tree; data mining; status; research orientation
  1研究现状
  决策树是一种重要的数据挖掘技术,常用于分类预测以及规则提取等诸多领域[1-8]。决策树采用贪婪策略,通过递归方式自顶向下进行构造。从发展脉络上看,目前丰富的决策树算法均起源于Hunt,Marin和Stone在1966年提出的单概念学****系统[9]。
  1979年,Quinlan 提出ID3算法,并于1983年和1986年对其进行进一步的完善和发展。通过不懈的努力,Quinlan不但使ID3成为经典的决策树算法,还通过开办公司的方式使之成功走向应用。1986年,Schlimmer 和Fisher 在ID3的基础上,通过创建缓冲区,提出可伸缩的递增式决策树算法ID4。1988年,Utgoff 在ID4基础上又提出效率更高的ID5
算法。1993年,Quinlan ,突破了ID3算法只能处理布尔函数样例的束缚。
  为进一步提高缩效率,研究者在ID4的基础上又提出了一批可伸缩的决策树算法,代表性的有SLIQ、SPRINT、RainForest、BOAT算法。目前来看,综合指标最佳的算法是BOAT,不但可伸缩而且效率更高(仅需扫描训练样例集两遍),并且是增量式学****算法[10]。
  目前对决策树技术的研究主要集中在已下几个方面[11]:1)与其他技术相结合,如与神经网络[12-13]、模糊集[14-15]、遗传算法及遗传编程 [16-20]、多智能体[21-23]等原理和技术相结合;2)寻找可视化的交互式决策树构造方法[24];3)寻找更好的剪枝算法[25];4)寻找训练样本集、检验样本集特性与生成树特性之间的联系[26-27];5)包括半监督学****在内的非确定环境下的决策树研究[28];6)时间复杂度与分类准确性的折衷研究[29]。
  相对而言,国内对决策树技术的研究尚不够