文档介绍:中南大学
硕士学位论文
关联规则算法的研究
姓名:文拯
申请学位级别:硕士
专业:计算机科学与技术
指导教师:梁建武
20090601
摘要关联规则是由热颂岢鍪荎数据研究的重要内容,也是当前比较热门的研究课题,关联规则挖掘算法的性能好坏直接决定了数据挖掘在现实世界中的应用。本文首先对经典关联规则挖掘算法进行分析,讨论其优缺点,包括惴ā惴ㄊ餒惴ǖ龋缓笳攵跃渌法采用水平数据布局事务数据库数据压缩不足的问题,给出了事务数据库垂直数据布局形式的娲⒔峁梗⒀芯炕赥存储结构的亓9嬖蛲诰蛩惴ḿ癟关联规则并行挖掘算法。接着针对当前经典算法存在的项目公平性问题,提出了加权关联规则算法,其中包括垂直加权关联规则、水平加权关联规则以及混合加权关联规则。最后,使用亓9嬖蚍抡媸笛橄低常訟、⒁及权算法的效率以及用户关注度进行了比较。关键词:数据挖掘,关联规则,⑿兴惴ǎ尤
琲瑆篸瑃琓,,,琲瑃獁,瑆.,産,瓸瑄琓,,.
:盟年』月上作者签名:竺日期:盟年』月上日学位论文版权使用授权书原创性声明本人了解中南大学有关保留、使用学位论文的规定,即:学校本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。作者签名:
第一章绪论与综述课题的研究背景及意义近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何,简称际醯牟头伤俜⒄埂数据挖掘是一种能够智能地、自动地把数据转换成有用信息和知识的技术,它不但可以帮助人们从数据库,特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息,而且也可以帮助人们从不同角度上去分析它们,从而更有效地利用数据Ⅲ。它不仅可以用于描述过去数据的发展过程,而且还能进一步预测未来的发展趋势。因此,数据挖掘正在成为一个崭新的、日益受到重视的热点研究领域。关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,是知识发现,简称技术研究的重要内容。随着数据的积累,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。关联规则挖掘算法是关联规则挖掘研究的主要内容。典型的关联规则挖掘算法是瓵热颂岢龅腁算法瞳溆嗨惴ù蠖嗍且訟为核心,或是其变体,或是其扩展。惴ㄔ谕诰蚬讨行枰6啻紊柙际菘猓并产生大量候选项集,因此存在挖掘效率低,占用内存空间大等不足。针对惴ǖ牟蛔悖矶嘧ḿ已д咄ü罅康难芯抗ぷ鳎嗉烫岢隽艘恍┯呕的产生过程;等人提出的惴℉捎没诨值募际酰咽据库分割处理有效地减少了挖掘过程中扫描数据库的次数,减轻了母旱#甌捎没诔檠的优化方法畸么邮挛袷菘庵谐槿〕来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果,显著地减少了输入输出的代价。这些算法的提出不同程度地改进了关联规则的挖掘效率,但没有完全克轆算法中固有的缺陷,因此有待进一步研究。在实际应用中,用于挖掘的数据常发生增加、减少和修改等数和最小可信度这两个阈值。这样原来挖掘出的关联规则在变化后的数据库中,前没有挖掘出的关联规则,因此必须进行关联规则的更新。传统的做法是用更从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘的方法。例如,等人提出的惴ā[苁褂霉<际跤行У馗慕撕蜓∠罴据更新的情况,同时,用户为了得到感兴趣的关联规则,经常调整最小支持度或在新的最小支持度、最小置信度下不一定仍然是强规则,同时还可能存在以硕士学位论文
数据挖掘的任务掘结果就白白浪费了,因此这种挖掘算法是不可取的。可取的做法是充分利用以前的挖掘结果来高效地获得理想的关联规则。目前,已有一些学者对关联规本课题通过对关联规则挖掘算法的研究,在第三章提出亓9嬖蛲诰蛩法,较好地改善类算法的不足,提高了频繁项集的挖掘效率,并在关联规则挖掘算法的基础上提出⑿泄亓9嬖蛲诰蛩惴ǎ徊教岣吖亓9则算法的效率。在第四章,本文针对目前关联规则经典算法的一些不足,提出关注的规则。因此本课题的研究具有较大的理论意义和应用价值。在实际应用中,数据挖掘大多按照任务进行分类。下面,先来介绍几种主若两个或多个数据项的取值之间重复出现且概率很高时,它们就存在某种关联,可被发现的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多样物品摆放在一起销售,将会