文档介绍:基于遗传算法的知识发现算法研究及应用要摘业:管理科学与工程硕士生:赵玉秀指导教师:云庆夏教授随着数据在日常决策中的重要性越来越显著,人们对数据处理技术的要求也不断提高,需要对数据进行更深层次的处理,以得到关于数据的总体特征以及对发展趋势的预测。然而数据量爆炸性的增长使得现有的知识发现算法存在着一定的局限性,因此必须对现有的算法进行改进或创建新的算法以适应时代之需。遗传算法是模拟自然进化的通用全局搜索算法,它具有简单、通用、鲁棒性强和适于并行处理的特点,为其他科学技术无法解决或难以解决的复杂问题提供了新的计算模型。而今,交易数据库在不断地增大,花费在扫描整个数据库的时问会越来越长,效率的低下促使我们必须寻找新的关联规则挖掘算法。因此,本文提出了狦惴ǎ并针对矿山事故数据库进行了简单的计算和分析,取得了很好的效果。大家普遍认可:在数据挖掘技术中,决策树是在数据集上发现有价值模式的最高效的方法之一。然而,当需要在大规模数据集上进行规则挖掘时,可比例缩放性和准确率问题却无时不困扰着决策树算法,使它力不从心。为了在有限的计算能力内构建出高质量的决策树、挖掘出实用的规则,本文提出了—算法,它是将随机采样技术、遗传算法和标准的决策树算法集成在一起而生成的。该算法是使传统决策树算法的质量得到提高的一种有力方法。本文分别对交叉和变异算予给出了新的定义,并取决策树在测试集上的分类准确度作为种群中各树个体的适应值。通过在矿山数据集上进行试验研究,主要对平均计算时间和分类准确度这两个指标进行了考察和分析,发现惴ǎ杭词乖诮系偷牟裳平上也能获得标准决策树算法一样的分类准确度;无论初始种群质量如何,该算法都能产生高准确度的决策规则,且结果具有一致性;该算法具有很好的比例缩放性,对大型数据集的挖掘很有效。为更加适应实际的需求,本文还提出了惴ǹ勺龅母慕并给出了改造后的Ⅲ算法的大致描述。关键词:西安建筑科技大学硕士学位论文专知识发现,遗传算法,关联规则,决策树,采样技术
,—西安建筑科技大学硕士学位论文,、、,甇:篜甕琾,.瓽.,.甀甌..猻,
簁.、Ⅳ.西安建筑科技大学硕士学位论文琌瑃—琯琣,.琣.
论文作者签名:起玉季导师签名:侈么了日期:翮,论文作者签名:起玉秀声明作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本人郑重声明我所呈交的论文是我个人在导师指导下进行的研究工论文中不包含其他人已经发表或撰写过的研究成果:也不包含本人或其他人在其它单位已申请学位或为其它用途使用过的成果。与我一同工作的同志对本研究所做的所有贡献均已在论文中作了明确的说明并表示了致谢。申请学位论文与资料若有不实之处,本人承担一切相关责任。关于论文使用授权的说明本人完全了解西安建筑科技大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布日期:粤取⑸稀论文的全部或部分内容,可以采用影印、缩印或者其它复制手段保存论文。C艿穆畚脑诼畚慕饷芎笥ψ袷卮斯娑注:请将此页附在论文首页。
窒耋至丝墼苎盔兰至圭茎堡篁圣髀课题研究的目的和意义断提高,需要能够对数据进行更深层次的处理,以得到关于数据的总体特征以及对随着数据在日常决策中的重要·眭越来越显著,人们对数据处理技术的要求也不发展趋势的预测。过去,人们依靠经验、大量的计算和人脑的智慧来处理这些深层法逐渐变得不切实际了,现在的用户很难再像从前那样,自己根据数据的分布找出规律,并根据此规律进行分析决策。而且对于象超市商品的销售记录、保险公司的客户记录、医学上的成于上万份病历等等的这些天体数据来说,如果由手工处理的话需要几十个人年,而且由于数据的繁杂,在由人工对数据进行处理过程中,很难找出关于数据较为全面的信息,这样许多有用的信息仍然隐含在数据中而不能被发现和利用,造成数据资源的浪费,更无法体现出信息的时间效应。由此便迫切需要采用自动化程度高、效率好的数据处理方法来帮助人们更高效地进行数据分析,自动发现数据中隐藏的规律或模式,为决策提供支持。知识发现虺芀褪俏S险庵忠G蠖⒀杆俜⒄蛊鹄吹囊幻偶际酰它是用于开发信息资源的一种新的数据处理技术。数据挖掘技术是解决机器学习、模式识别、数据库技术等各种领域中的大型实际应用问题而提出的一些工程性方法的集合,是知识发现过程中最重要的一环,主要是为了从大型数据库中高效地发现隐含在其中的知识或规律,并为人类专家的决策提供支持。其中关联规则发现、决策树分类和遗传算法是三种重要的数据挖掘技术,本文主要是对这三种算法进行研究、构造新的混合算法。在国外,一些专家开启了知识发现领域研究的先河,使得数据挖掘技术虽然起步较晚,但是其发展速度却非常惊人,而近些年的研究就更加火热,可以说是硕果累累、层出不穷,这引起了全世界科研界的注意,