1 / 6
文档名称:

决策树基本算法综述.docx

格式:docx   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树基本算法综述.docx

上传人:pk5235 2015/6/26 文件大小:0 KB

下载得到文件列表

决策树基本算法综述.docx

相关文档

文档介绍

文档介绍:决策树基本算法综述
作者:
专业:软件工程
学号:2012110
日期:
摘要:不同算法产生的决策树,在测试数据上的准确率、树的繁简程度等方面都有所不同。本文针对几种决策树算法,从分类准确率、树的复杂程度等方面进行了描述和比较。
关键词:决策树 ID3 统计算法并行决策树算法


数据挖掘的研究方向有很多:数据的分类、聚类、分析与预测、关联规则挖掘、序列模式挖掘等。决策树、神经网络、人工智能、贝叶斯网络、关联分析和统计方法等是数据挖掘中常用的算法。在数据分类中,决策树是一种使用广泛的分类方法,它可以对已知的历史数据进行学****和训练,从而得到一颗具有高信息价值、揭示数据内部信息和关联规则的树,实现数据的分类。

对于相同数据集的分类准确率高、速度快;
生成的树形象清晰、简单直观,从根节点向树的叶子节点,每一条分支能够唯一确定一条分类的规则;
可伸缩性强,既可以用于小数据集,也可以用于海量数据集;
应用领域广泛:目前决策树已应用于金融分析预测、网络金融交易、医疗诊断、天气预测、零售业务及反恐等多个领域。
因此,不难看出,通过决策树提取出内部潜在的规则信息,对于整个市场的控制、公司的运营和个人的投资都有着良好的决策辅助作用,所以基于决策树算法的数据挖掘技术有很高的研究价值。
由于不同的决策树算法应用于不同的数据集后,生成树的繁简程度、叶子节点的个数及分类准确率都大不相同,因此我们有必要对不同决策树分类进行归纳与比较,了解各种算法的特点和特性,针对不同规模的数据集选择适当的决策树算法,进而得到高的准确率及较好的可理解性。
决策树的表示
决策树通过把实例从根节点排列(sort)到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个节点指定了对实例的某个属性(attribute)的测试,并且该节点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个节点指定的属性,然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新节点为根的子树上重复。
。这颗决策树根据天气情况分类“星期六上午是否适合打网球”。例如,下面的实例将被沿着这颗决策树的最左分支向下排列,因而被判定为反例(也就是这棵树预测这个实例PlayTenis=No)。
实例:<Outlook=Sunny,Temperature=Hot,Humidity=High,Wind=Strong>
( 概念PlayTennis的决策树)
通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的吸取。:
(Outlook=Sunny Humidity=Normal) (Outlook=Overcast)
(Outlook=Rain Wind=Weak)
决策树的剪枝
在决策树学****过程中,如果决策树过于复杂,则存储所要花费的代价也就越大;而如果节点个数过多,则每个节点所包含的实例个数就越小,支持每个叶节点假设的实例个