文档介绍：数据挖掘中决策树算法的最新进展
摘要:概述了传统决策树方法的基本原理和优越性,指出了该方法应用于超大数据集的数据挖掘环境时的局限性;着重分五个方面概括了近年来决策树方法在数据挖掘中的主要进展,并讨论了决策树方法面临的挑战及其发展趋势。
关键词:决策树;分类;数据挖掘
1 决策树方法概述
决策树学****过程
决策树算法的分类学****过程包括两个阶段[1]:树构造(tree building)和树剪枝(tree pruning)。

决策树采用自顶向下的递归方式:从根节点开始在每个节点上按照给定标准选择测试属性,然后按照相应属性的所有可能取值向下建立分枝、划分训练样本,直到一个节点上的所有样本都被划分到同一个类,或者某一节点中的样本数量低于给定值时为止。

构造过程得到的并不是最简单、紧凑的决策树,因为许多分枝反映的可能是训练数据中的噪声或孤立点。树剪枝过程试图检测和去掉这种分枝,以提高对未知数据集进行分类时的准确性。
决策树方法的主要优点
生成一棵决策树是从数据中生成分类模型的一个非常有效的方法。相对于其他分类方法决策树算法应用最为广泛,其独特的优点包括
[2]:
学****过程中使用者不需要了解很多背景知识,只要训练事例能够用属性—结论的方式表达出来,就能用该算法进行学****br/>决策树的训练时间相对较少,其它的分类方法如神经网络,即使对小数据集也要花费很多的训练时间;
决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式;
可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。
2 数据挖掘中决策树算法的主要进展
数据概化与约简
数据挖掘处理的是海量数据集,不仅样本容量大、含有的属性集大,而且数据中往往含有一些与挖掘任务不相关和无意义的部分。
抽样方法
在进行数据挖掘的分类任务时利用抽样方法也可以提高决策树的效率,当我们对算法的效率要求很高时这种方法特别有效。在构建决策树时可以对数据集进行抽样,也可以在产生节点的过程中对节点进行抽样。
对数据进行重新构造
前面提到的数据概化、约简和抽样方法都可以简化数据集,从而提高决策树算法的效率。但是,以上操作也可能会漏掉数据中有价值的信息。因此,研究能够直接对大型数据集进行处理并且运行时间不会太长的
决策树算法是必要的。
结合其它算法提高树的精度
遗传算法是模拟自然界进化过程中优胜劣汰原则的计算模型,它是一种全局最优化算法。在求解过程中,通过选择、交叉和变异等操作使群体不断优化,从而找到最优解。传统的决策树算法在树构造过程中并不一定能得到最优的决策树,而将两者相结合可能会得到精度更高的决策树。

在数据挖掘应用中,有很多情况对结果的实时性要求很高,如果算法运行时滞后太多,则挖掘出的知识对决策毫无帮助。然而,对于非常大的数据集(数据库或者数据仓库)来说,从中挖掘有用的知识必定会消耗大量的时间和内存。所以,在决策树的研究中,除了以上所述的对算法本身的改进之外,对决策树算法的并行性研究也是一个热点。
3面临