文档介绍:摘要
关联规则是由热颂岢鍪荎数据研究的重要内容,也是
当前比较热门的研究课题,关联规则挖掘算法的性能好坏直接决定了
数据挖掘在现实世界中的应用。
本文首先对经典关联规则挖掘算法进行分析,讨论其优缺点,包
括惴ā惴ㄊ餒惴ǖ龋缓笳攵跃渌
法采用水平数据布局事务数据库数据压缩不足的问题,给出了事务数
据库垂直数据布局形式的娲⒔峁梗⒀芯炕赥存储结构的
亓9嬖蛲诰蛩惴ḿ癟关联规则并行挖掘算法。接着针对当前经
典算法存在的项目公平性问题,提出了加权关联规则算法,其中包括
垂直加权关联规则、水平加权关联规则以及混合加权关联规则。
最后,使用亓9嬖蚍抡媸笛橄低常訟、⒁
及权算法的效率以及用户关注度进行了比较。
关键词:数据挖掘,关联规则,⑿兴惴ǎ尤
,
.,
,
産,
瓸琲
瑆
琲
瑃
瑄瑃
琓, 獁,
.
篸, 琓,
瑆
硕士学位论文第一章绪论与综述
第一章绪论与综述
课题的研究背景及意义
近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何
从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由
此带动了数据挖掘,简称际醯牟头伤俜⒄埂
数据挖掘是一种能够智能地、自动地把数据转换成有用信息和知识的技术,
它不但可以帮助人们从数据库,特别是数据仓库的相关数据中提取出感兴趣的
知识、规律或更高层次的信息,而且也可以帮助人们从不同角度上去分析它们,
从而更有效地利用数据Ⅲ。它不仅可以用于描述过去数据的发展过程,而且还能
进一步预测未来的发展趋势。因此,数据挖掘正在成为一个崭新的、日益受到
重视的热点研究领域。
关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,是知识发现
,简称技术研究的重要内容。随着
数据的积累,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。
关联规则挖掘算法是关联规则挖掘研究的主要内容。典型的关联规则挖掘算法
是瓵热颂岢龅腁算法瞳溆嗨惴ù蠖嗍且訟为核心,或
是其变体,或是其扩展。惴ㄔ谕诰蚬讨行枰6啻紊柙际菘猓
并产生大量候选项集,因此存在挖掘效率低,占用内存空间大等不足。针对
惴ǖ牟蛔悖矶嘧ḿ已д咄ü罅康难芯抗ぷ鳎嗉烫岢隽艘恍┯呕
的方法。例如,等人提出的惴ā[苁褂霉<际跤行У馗慕撕蜓∠罴
的产生过程;等人提出的惴℉捎没诨值募际酰咽
据库分割处理有效地减少了挖掘过程中扫描数据库的次数,减轻了母旱#
甌捎没诔檠的优化方法畸么邮挛袷菘庵谐槿〕
来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分
验证这个结果,显著地减少了输入输出的代价。这些算法的提出不同程度地改
进了关联规则的挖掘效率,但没有完全克轆算法中固有的缺陷,因此有
待进一步研究。在实际应用中,用于挖掘的数据常发生增加、减少和修改等数
据更新的情况,同时,用户为了得到感兴趣的关联规则,经常调整最小支持度
和最小可信度这两个阈值。这样原来挖掘出的关联规则在变化后的数据库中,
或在新的最小支持度、最小置信度下不一定仍然是强规则,同时还可能存在以
前没有挖掘出的关联规则,因此必须进行关联规则的更新。传统的做法是用更
硕十学位论文第一章绪论与综述
新的数据集或新阈值按原来的挖掘算法重新再做一次挖掘,这样,上一次的挖
掘结果就白白浪费了,因此这种挖掘算法是不可取的。可取的做法是充分利用
以前的挖掘结果来高效地获得理想的关联规则。目前,已有一些学者对关联规
则增量式更新挖掘进行了研究,并提出了一些相关算法,但随着数据库规模的
日益增大,一些算法的执行效率需要进一步提高。
本课题通过对关联规则挖掘算法的研究,在第三章提出亓9嬖蛲诰蛩
法,较好地改善类算法的不足,提高了频繁项集的挖掘效率,并在
关联规则挖掘算法的基础上提出⑿泄亓9嬖蛲诰蛩惴ǎ徊教岣吖亓9
则算法的效率。在第四章,本文针对目前关联规则经典算法的一些不足,提出
了ü亓9嬖蛩惴ǎ盟惴ㄖ饕J谴涌突У慕嵌瘸龇ⅲ诰虺龈嘤没Ц
关注的规则。因此本课题的研究具有较大的理论意义和应用价值。
数据挖掘的任务
在实际应用中,数据挖掘大多按照任务进行分类。下面,先来介绍几种主
要的数据挖掘任务:
亓7治
关联分析,即利用关联规则进行数据挖掘,是数据挖掘中的一类重要方法。
若两个或多个数据项的取值之间重复出现且概率很高时,它们就存在某种关联,
可以建立起这些数据项的关联规则。数据关联是数据库中存在的一类重要的、
可被发现的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多
项属性之间存在关联,那么其中一项的属性值就可以依据其他