文档介绍:国防科学技术大学
硕士学位论文
关联规则挖掘算法的研究
姓名:吴昊天
申请学位级别:硕士
专业:软件工程
指导教师:何鸿君
20070501
摘要集。在众多挖掘关联规则的算法中,衞算法是引起最多讨论的经典算法,它含的、事先未知的、潜在有用的信息,表示为概念、规则、规律、模式等形式。随着信息技术的发展,数据挖掘的应用领域将越来越广泛。取中占据着主导位置。目前,对关联规则的研究也集中在如何高效地发现频繁项能够有效地进行关联规则的挖掘。但是基于惴ㄋ枷氲拇乘惴ù蠖啻嬖再根据权值计算函数给挖掘关联规则过程中产生的候选项集赋以权值。该算法充所有重要关联规则而导致出现的“项集生成瓶颈”问题。实验证明,在相同最小支持惴ǖ男室1然谏⒘屑际跛惴ǖ男矢撸虼耍珹的扫描而动态减少。实验证明,在相同的最小支持度的情况下,该算法比联规则的挖掘算法,下一步的工作重点将是如何把这两个算法用于多层关联规则数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐关联规则是数据挖掘中的一项重要内容,而频繁项集的发现在关联规则的提着“项集生成瓶颈”的问题,同时也没有考虑数据集的不同项具有不同的重要性这一重要事实。有鉴于此,本文首先提出了算法。该算法首先给事务数据库每个项赋以权值,为了使该算法具有灾剩ㄖ档拇笮〗缬和洹H缓分考虑了不同的项在数据集合中具有不同的重要性,同时,也避免了为了挖掘出度的情况下,该算法比算法生成的项集的数目要少,同时,一些在算法中末出现的重要频繁项集也出现在该算法寻找到的频繁项集中。在关联规则挖掘初期,利用散列技术可以有效地减少候选项集的个数。本文提出了垣算法,在减小候选项集的同时,也减少了数据库的扫描次数。特别是,该算法通过一次数据库扫描同时找出了频繁罴推捣项集。另外,利用统计学规律,。研究表明,在关联规则挖掘过程的后期,算法在关联规则挖掘后期采用的是改进过的惴āV饕8慕谟冢涸诮械趉次扫描时,充分利用第次对数据库扫描的结果,使得候选罴母鍪孀攀菘算法生成的候选项集的规模要小很多,从而具有比惴ǜ叩闹葱行省本文的算法和遁算法都是针对单层、单维、布尔型的关和多维关联规则的挖掘。关键词:数据挖掘,关联规则,ㄖ担⒘校罴国防科学技术大学研究生院工程硕士学位论文第
蔵甌琻瓵甌..瓻....砌甀琫瑂誂..瓵:...’.,甌琣
国防科学技术大学研究生院工程硕士学位论文..,,瑆琱琲第:
表目录表样本事务数据库⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表执行过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表执行过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表商品销售对比表表事务数据库示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..表候选罴纳⒘斜鞨国防科学技术大学研究生院工程硕士学位论文第
图目录算法流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。算法执行结果图瓸图算法执行结果图图不同尤支持度阈值条件下频繁幸庖项集的个数⋯⋯⋯⋯⋯⋯⋯⋯惴ㄖ葱薪峁⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。算法执行结果图算法与惴ǖ谋冉稀图数据库规模增长时算法的执行时间⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯. 图执行结果图第Ⅳ页国防科学技术大学研究生院工程硕士学位论文
作昔指导教师签名:‘鹏易羞壁拯型蕉擅錾生盟盟址一学位敞作者签名::羞丞基日期:少差珐拯则揎握篡洼鲍盈塞日期:三年拢日/月,午拢日本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文题目:本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存,汇编学位论文。C苎宦畚脑诮饷芎笫视帽臼谌ㄊ閘年,口,、·’
第一章绪论背景我们现在生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类社会,最明显的是在这些技术的帮助下人们产生和收集数据的能力迅速提高。随着人们获取数据手段的多样化,人们积累的数据越来越多。数据的背后隐藏着许多重要信息,人们希望能够对其进行更高层次的分析,