文档介绍：独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名: 日期: 年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定) 签名: 导师签名: 日期: 年月日摘要 I 摘要数据挖掘是利用分析工具从大量的、有噪声的、模糊的、不完全的、随机的数据中,提取出隐含在其中、事先未知、但又潜在有用的知识和信息的过程,建立数据间关系模型,并用其做出预测。分类挖掘是数据挖掘中最重要的技术之一, 是数据挖掘中的一个重要课题,而分类技术中的决策树方法又是重点研究的方向。它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。目前,很多学者已经提出了许多利用决策树对大规模数据集进行分类的算法, 其中以Quinlan于1986年提出的ID3算法最为典型。该算法有两大主要缺点:1、算法往往偏向于选择取值较多的属性,而属性较多的属性却不总是最优的属性。2、 ID3算法只能处理离散属性,对于连续型的属性,在分类前需要对其进行离散化。为了解决这些问题,本文使用增益比率的概念和将连续属性的取值分区成两个区间的方法,在ID3算法的基础上提出了改进算法,并用Java这种完全面向对象的高级语言实现ID3算法及改进算法,通过仿真实验进行比较,得出改进算法比ID3算法所得的决策树更为理想。另外采用XML存储待挖掘数据,鉴于XML “可以表达各种类型的数据,并且能够与不同的数据源进行交互,解决了数据的统一接口问题”的优点,尝试并应用在ID3算法的改进与实现中,为任意数据库转换成XML格式的数据挖掘提供了思路。关键词:数据挖掘,决策树,ID3算法 ABSTRACT II ABSTRACT Data mining is a processof using analytic tools from the datas, which are massive, noisy, fuzzy, pleteand random. Using this method, we canfind thelatent useful knowledge and information which used to be concealed and unknown wecanestablish thedatarelationalmodeltoforecast the future. Classificationminingis oneofthemostimportanttechniquesindatamining, as well as an important topic in the study. And the decision tree method is the focus intheresearch ofthe can directlyreflectthe characteristic of the data besidestobeeasilyunderstood. Moreover, the decision tree modelhasthe good ability to classifyand we can drawthe decision rule conveniently by using it. At present, manyscholars have put forwarda large numberof algorithms using decision tree to assort for cosmical data collections, of which ID3 algorithm is the most typicalone advancedby Quinlan in 1986. But this algorithm has two major ings:one is that it is biased in favor ofthose attribu