1 / 47
文档名称:

决策树分类算法研究与改进.pdf

格式:pdf   页数:47页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树分类算法研究与改进.pdf

上传人:2024678321 2014/7/29 文件大小:0 KB

下载得到文件列表

决策树分类算法研究与改进.pdf

文档介绍

文档介绍:郑州大学
硕士学位论文
决策树分类算法的研究与改进
姓名:张青
申请学位级别:硕士
专业:计算机软件与理论
指导教师:范明

一——易转换成规则,而且具有与其他分类模型同样的,有时甚至更好的分类准确性。/“。摘要萃诰蛴殖剖菘庵械闹J斗⑾郑鞘菘庋芯孔罨钤镜牧煊蛑弧Mü本文主要对达筮挝筮差篁鎏展开研究,主要包含两个内容:盗茎塑坌耋竺婆竺塑塞量堕垄芯苛恕霯篡鎏和;箕法,因为这两个算法可以说是目前决策树算法中据挖掘可以从数据库中提取出可信、新颖、有效并易于理解的知识、规律或高层信息。发现的知识可用于决策、过程控制、信息管理、查询处理等方面,因此数据挖数据分类是数据挖掘中一个重要的内容。分类的方法很多,其中决策树是一种常用的算法。与其他分类算法相比,它能够较快的建立简单、易于理解的模型,容最有效的。其中主要对两个算法分别在串行、并行情况下的执行时间进行了分析、小的训练集。将增量式学****的方法与建树算法相结合,使其能够处理不断生长的掘的技术和应用有了飞快的发展,正日益引起国内外学术界和产业界的,“泛关注。比较,得出了一些建设性的结论。許惴ê蚐惴ń辛烁慕D壳罢饬街炙惴ㄋ淼亩际枪潭ㄈ训练集,提高算法的实时、有效性。本文还证明了改进算法的正确性。
瑆甒,琲,,,.·瑀瑆,,.
第一章数据挖掘及其分类算法数据挖掘一切新事物的产生都是由需求而驱动的。随着数据库技术和数据库系统在各行业的广泛应用,当今的人们生活在数据和信息的海洋中。有些公司经过长年累月积累下来的商业数据目前已经超过几百万条记录,而象气象部门每天的数据量就达到了。几乎每一项事务都会生成一条计算机记录,这些大量数据中包含了富有价值的信息,如趋势和模式,可以用于改进和优化事务决策。决策者们发现要想获得竞争的优势,需要从大量的数据中ㄒ滴袷荨⒗肥莸提取出关于自身业务的运作以及整个市场相关行业态势的数据进行分析,从而作出有利的决策。例如:超级市场的经理可以从历年的销售记录中找到顾客的消费****惯和爱好,可能的积压。目前的数据库技术虽可以高效地实现数据的查询、统计等功能,但却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。因此,重要的决定常常不是基于数据库中信息丰富的数据,而是凭决策者的直觉,但这样往往容易出现偏差和错误。因此,快速、准确、高效地收集和分析信息是企业们自动、智能地分析数据、理解数据,从而进一步帮助我们作出决策。止是这种自然的需求成为数据挖掘研究蓬勃发展的强大动力。.ㄒ搴痛斫锥数据挖掘也称为数据库中的知识发现V傅氖谴哟娣旁谑菘狻⑹仓库或其他信息库中的大量数据中挖掘出人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。数据挖掘技术能从中自动分析数据,进行归纳性推理,从中发掘出潜在的模式,或产生联想,建立新的业务模型,这是一个高级的处理过程。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式上升过程。这个过程与人类问题求解的过程是存在巨大相似性的。具体比较见图。.而且通过对商品的销售情况分析,可以得到影响销售的因素,从而指导上货,减少提高决策水平和增强企业竞争力的重要的手段,于是人们更希望让计算机能帮助我
辧挖掘过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,。见图面的步骤,重新调整,重新执行。图萃诰蛳低辰峁图甋决策树分类算法的研究与改进猣数据规范和鼻
一——、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。.数据库或数据仓库服务器:根据用户的数据挖掘请求负责提取相关数据。.知识库:这是领域知识,用于指导、搜索或评估结果模式的兴趣度。.数据挖掘引擎:这是数据挖掘系统的基本部分。由一组功能模块组成,用丁·模式评估模块:通常,此模块使用兴趣度度量,并与数据挖掘模块交互,以·图形用户界面:本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘的中模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。数据挖掘的功能用于指定数据挖掘任务中要找的模式类型,其任务一般可分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性,预测性挖掘任务在当前数据上进行推断,以进行预测。在实际应用中,往往根据模式的实际应用时间序列模式序列模式在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用最普遍的模式。分类