1 / 26
文档名称:

数据挖掘决策树算法概述.doc

格式:doc   大小:490KB   页数:26页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘决策树算法概述.doc

上传人:3315469786 2020/11/20 文件大小:490 KB

下载得到文件列表

数据挖掘决策树算法概述.doc

文档介绍

文档介绍:决策树是分类应用中采用最广泛的模型之一。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范围的关键技术。 本文以决策树为研究对象,主要研究内容有:首先介绍了数据挖掘的历史、现状、理论和过程,然后详细介绍了三种决策树算法,包括其概念、形式模型和优略性,并通过实例对其进行了分析研究
目 录
一、引言 1
二、数据挖掘 2
(一)概念 2
(二)数据挖掘的起源 3
(三)数据挖掘的对象 3
(四)数据挖掘的任务 3
(五)数据挖掘的过程 4
(六)数据挖掘的常用方法 5
(七)数据挖掘的应用 6
三、决策树算法介绍 6
(一)归纳学****7
(二)分类算法概述 7
(三)决策树学****算法 8
1、决策树描述 8
2、决策树的类型 9
3、递归方式 10
4、决策树的构造算法 10
5、决策树的简化方法 11
6、决策树算法的讨论 12
四、ID3、 12
(一)ID3学****算法 13
1、基本原理 13
2、ID3算法的形式化模型 14
(二) 16
(三)CART算法 19
1、CART算法理论 19
2、CART树的分支过程 19
(四)算法比较 21
五、结论 26
参考文献 27
致谢 28
数据挖掘中决策树算法的研究
一、引言
在激烈的市场竞争中,信息对于企业的生存和发展越来越起到至关重要的作用,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据库中表达信息的数据亦随着时间和业务的发展而急剧膨胀,人们需要对数据进行更高层次的处理,从中找出规律和模式,以帮助人们更好的利用数据进行决策和研究。目前的数据库系统虽然可以实现高效的数据录入、查询、统计等功能,却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘的核心部分是为数据集建立模型的过程,不同的数据挖掘方法构造数据模型的方式也不相同,在进行数据挖掘时可采用许多不同的方法,例如神经网络、决策树、遗传算法和可视化技术等,同时同一方法下又有数以百计的派生方法。决策树算法是数据挖掘常用的方法之一,但它一直未受到人们重视,直到1984年Breiman等人合著出版了《分类和回归树》一书,决策树方法才开始被统计学界接受并获得了信赖,并很快得到推广应用。现在很多公司的数据挖掘产品中都采用了决策树数据挖掘算法,,是1986年由Quinlan提出的一种基于信息墒的决策树算法,近年来在很多知识发现领域得到应用,很多学者针对ID3算法进行研究。本课题主要研究了ID3算法
、,比较了各算法在实际应用中的好处和不足。
二、数据挖掘
(一)概念
图 1-1
数据挖掘,在人工智能领域****惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
(二)数据挖掘的起源
要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
(三)数据挖掘的对象
数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不