1 / 19
文档名称:

基于粗糙集的关联规则挖掘方法.doc

格式:doc   大小:55KB   页数:19页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于粗糙集的关联规则挖掘方法.doc

上传人:ying_xiong01 2019/5/16 文件大小:55 KB

下载得到文件列表

基于粗糙集的关联规则挖掘方法.doc

文档介绍

文档介绍:基于粗糙集的关联规则挖掘方法摘要:对粗糙集进行了相关研究,并提出一种以粗糙集理论为基础的关联规则挖掘方法,该方法首先利用粗糙集的特征属性约简算法进行属性约简,然后在构建约简决策表的基础上应用改进的Apriori算法进行关联规则挖掘。该方法的优势在于消除了不重要的属性,减少了属性数目和候选项集数量,同时只需一次扫描决策表就可产生决策规则。应用实例及实验结果分析表明该方法是一种有效而且快速的关联规则挖掘方法。关键词:数据挖掘;关联规则;粗糙集;分辨矩阵;Apriori算法中图分类号:TP392 文献标志码:A Approachforminingassociationrulesbasedonroughset HEChaobo1,CHENQimai2 ,ZhongkaiUniversityofAgricultureandEngineering,GuangzhouGuangdong510225,China??;???? ,SouthChinaNormalUniversity,GuangzhouGuangdong510631,China ) Abstract:’sfeatureattributesreductionalgorithmtoreduceattributes,,. Keywords:datamining;associationrule;roughset;discernablematrix;Apriorialgorithm 0引言关联规则的挖掘一直是数据挖掘领域研究热点之一,其目的是在大型事务数据库中发现项目之间的关联模式[1]。自1994年Agrawal等人提出传统的关联规则挖掘算法Apriori以来,针对该算法运行效率的不足,众多研究人员提出了许多新的改进算法。如Partition??[2]、频繁闭项集法[3]、FPGrowth[4]以及TBAR[5]等算法。尽管这些算法各具优点且在性能和效率上均明显高于传统的Apriori算法,但当数据集属性数目较多时,这些算法的挖掘效率仍然较低。解决该问题的根本原则是进行数据预处理时进行属性的约简,从而减少数据挖掘规模,为此已有不少相关解决方法,大致可以分为三类:1)基于代数理论的[6];2)基于信息熵理论的[7-8];3)基于粗糙集分辨矩阵和分辨函数的[9]。粗糙集(RoughSet)理论[10]主要用于处理和提取含糊性和不精确性的知识并在数据挖掘领域得到成功应用。利用粗糙集理论进行数据挖掘,其主要思想是在保持分类能力不变的前提下,利用基于粗糙集的属性约简方法减少属性的数目,进而可以归纳总结出适用于决策支持的规则。针对以上关联规则挖掘相关问题,本文以粗糙集理论为基础,提出了一种新的关联规则挖掘方法。并从减少属性数目、减少候选项集数量以及决策表扫描次数等方面对Apriori算法进行了改进。文中给出了相关算法,并通过应用实例及实验结果分析验证了该方法的有效性。 1粗糙集基本理论 ?б桓鲋?识表达系统S定义为一个五元组,S=〈U,C,D,V,f〉,其中U表示对象的集合,记为U={x??1,x??2,…,x??n};R=C∪D,是属性的集合,其中C表示条件属性集,而D表示决策属性集;V=∪r∈RV??r是属性值的集合,即属性的值域集,其中V??r是属性r∈R的值域;f是信息函数,f:U×R→V,即f(x,R)∈V??r,它指定了U中每一对象x的属性值。?オ? 定义2?б桓鼍霾弑矶ㄒ逦?DT=(U,C∪D,V,f),其中U、C、D、V、f等符号