文档介绍:山东大学
硕士学位论文
基于图和矩阵的关联规则挖掘算法
姓名:汪曦曦
申请学位级别:硕士
专业:计算机软件与理论
指导教师:张世栋
20090405
山东大学硕士学位论文摘要为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信罴募匣茫琇糜谘罢襜,如此下去直到不能找到频繁尼项集厶,找出每个础上提出了改进乃惴āK惴ǖ幕舅枷胧鞘紫冉罴硎境删卣蟮男数据库中的知识发现琄抢眉扑机自动地从海量信息中提取有用的知识,是一种有效利用信息的新方法,目前已成为数据库领域的研究热点之一。难芯拷沟阍谟谑萃诰颉I缁岬姆⒄进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。息分析技术,这种技术称为数据挖掘。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。目前,数据挖掘的主要技术为关联规则、聚类、粗糙集、神经网络和遗传算法等方面。关联规则是反映一个事务与其他事务之间的相互依存性和关联性,关联规则在数据挖掘领域应用很广泛。关联规则是发现交易数据库中不同商品之间的联系,这些规则找出顾客购买行为模式,、∩咸岢龅母慕惴ā算法使用一种称作“逐层搜索的迭代方法”,核心思想是基于频集理论的一种递推方法,目的是从数据库中挖掘出那些支持度和信任度都不低于给定的最小支持度阈值和最小信任度阈值的关联规则。惴ㄍǔ7治A讲剑谥С侄龋捣毕罴基于可信度,产生强关联规则。首先,找出频繁罴希眉霞俏!辍慧蹋齁用于寻找频繁厶需要扫描数据库一次。但惴ù嬖诠逃械娜钡悖由频繁项集进行自连接生成的候选频繁罴烤薮蟆在验证候选频繁罴氖焙蛐枰6哉鍪菘饨猩描,非常耗时。因此,为了解决以上问题,本文分析了惴ǖ挠τ檬纠⒃诖嘶‘
山东大学硕士学位论文式,对矩阵进行编码,然后利用编码后的项集生成所需的图,达到剪枝效率提高的目的。寻求频繁项目的有效产生算法是问题的关键。本文通过对所给数据库进行矩阵表示,根据矩阵中项集之间的关系形成图,有效的降低了频繁集的个数,减少了扫描数据库的次数,提高了惴ǖ效率。关键词:数据库的知识发现;数据挖掘;惴ǎ痪卣蟊硎荆肌
,瑅瑃琤甀瑆瑃..甋琺,瓵琧瑀,.,,瓼,瓵””,瓵
山东大学硕士学位论文.;厶籨,琯瓼瑃瑃,,,簂.—琲,.疭甌,:;籱籫.
论文作者签名:蕉越:导师签论文作者签名:莲睦遗期:塑里苎日期:塑兰三:监原创性声明关于学位论文使用授权的声明原创性声明和关于论文使用授权的说明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑日
第一章绪论山东大学硕士学位论文研究背景与研究现状需求也变得更加复杂,这使信息的组织存储和选择利用比以往任何时代都更为复理和科研的各种信息,全球范围内数据存储量正急剧增加。然而于此形成鲜明对、统计学、,信息数量急剧增长,信息来源渠道也更加多样,物质载体变得日益繁多,信息内涵更加精深,与之相应的利用杂。近年来,以数据库和信息技术的发展为技术保障,以网络技术的迅速普及为发展通道,以计算机硬件、数据收集设备和存储介质的大量供应为物质基础,人们的数据收集能力得到了大幅的提高,社会各行业都存储了大量的有关生产、管比的是,人们对大规模数据的理解能力并没有得到有效的提高,仅仅依靠传统的数据检索和统计分析等方法已远远不能满足需要,以致出现了“数据丰富,但信息J贫乏”的局面。快速增长的海量数据收集、存放在大量的大型数据库中,如果没有强有力的分析工具,人们无法有效地理解和利用它们。这些海量数据的利用率很低,有的甚至成为了“数据坟墓”一难得再访问的数据,此外,世纪下半叶发展起来的专家系统,也遇到“知识获取”这一瓶颈问题。为从海量数据存储中抽取模式、找出数据变化的规律和数据之间的关系,充分发掘数据的潜力,以指导决策和科学