文档介绍:江苏科技大学
硕士学位论文
基于矩阵的加权关联规则挖掘算法研究
姓名:刘海蓉
申请学位级别:硕士
专业:计算机应用技术
指导教师:闫仁武
2011-03-14
江苏科技大学工学硕士学位论文
摘要
自 20 世纪 60 年代以来,数据库技术开始被广泛地应用于国家政府机构、
商业部门和科研机构等领域。随着时代的发展,特别是互联网技术的出现,这
些领域的数据库的数据呈现近乎几何爆炸式的增长,因此对海量数据集进行信
息提取的需求就变得日益迫切。传统的数据库技术的局限性在于只能针对数据
库进行查询和检索,而不能从数据库中提取知识,造成数据库中所蕴含的丰富
知识不能被有效地发掘和利用,在这样的背景下就诞生了数据挖掘技术。数据
挖掘被期望用来从历史积累的大量数据中挖掘出隐藏的规律或关联,从而为决
策的制定和执行提供有力的参考和帮助。
作为数据挖掘主要研究的方向之一的关联规则挖掘(Association Rule
Mining) ,其主要是用于从数据库中找出数据项之间的关联关系,作为决策参考
的依据。迄今为止,最有影响的布尔型挖掘关联规则算法是 R. Agrawal 等人提
出的 Apriori 算法。但是基于经典 Apriori 算法的关联规则算法存在两个问题,
需要多次扫描数据库和容易忽略出现频率小但是价值高的项目。Apriori 算法在
处理数据库中的各个项目时,是假设数据库中的每个项目具有相同的重要性,
但是这样显然不符合实际情况。为了更合理地进行数据挖掘,人们引入了权重
的概念使得挖掘的数据和潜在的模式更具有现实意义,因此需要利用现有的知
识,对加权关联规则的研究进行认真细致的研究。
本文对传统加权关联规则挖掘算法进行了改进,该改进算法采用矩阵和加
权关联规则算法相结合的方法,并做了改进算法与传统加权关联规则挖掘算法
的性能对比实验,得到的实验结果表明本文提出的改进算法在性能上优于原有
加权关联规则挖掘算法。该改进算法的创新之处在于引入了矩阵思想,只需要
扫描一次数据库来构建矩阵,给出了改进的权值定义,该定义既考虑到了权重
大的项目,也没有忽略频繁出现而权重小的项目,并引入 K-项支持期望作为减
枝的依据,解决了传统加权关联规则挖掘算法中加权频繁项集不存在普通关联
规则中频繁项集所具有的反单调性的问题。
关键词数据挖掘;Apriori 算法;加权关联规则;频繁项集;矩阵
II
Abstract
Abstract
Since the 1960s, the database technology is used widely in many fields such as
governments, business and anizations etc. With the development of
technology, the data of these fields are rising up in the type of geometric
explosion. Therefore, the requirement for information extraction of massive data is
ing increasingly urgent. The limitation of traditional database technology is that
it can only query and search the database, but it cannot extract the knowledge from
the database. As a result, plenty of knowledge cannot be explored and used effectively.
Data Mining was created for solving this issue. Data mining is expected to find out
the hidden rule or association among large amounts of accumulated data, and help the
decision making and implementation in an effective way.
The association rule mining which is one of the main research directions of
data