文档介绍:关联规则Apriori算法的改进摘要:文章提岀一种改进的Apriori算法。该算法通过减少对数据库搜索的次数,从而减少数据挖掘过程中的I/O开销。实践证明,用此算法进行关联挖掘,其效率比传统的方法要高。关键词:数据挖掘关联规则频繁项集Apriori算法中图分类号::A文章编号:1007-9416(2011)12-0122-01ImprovementofAprioriAlgorithmforAssociationRulesliXiao-hui(puterScienceandTechnology,ChangchunUniversity,Changchun130022,China)Abstract:ThispaperpresentsanimprovedApriorialgorithm・ThenewalgorithmcandecreasetheI/:Datamining,Associationrule,Frequentitemset,Apriorialgorithm随着数据库技术和计算机网络的发展‘在海量数据里发现有价值的知识和信息的工作受到了越来越多的重视O数据挖掘的一个重要方向是关联规则的挖掘,而关联规则挖掘中最经典算法是Apriori算法[1]。但在实际应用中,Apriori算法还存在着很多令人不尽满意的地方。有许多文献中也针对这些缺点提出了改进的算法[2]/旦算法也大多较复杂。本文在这些基础上提出了一种Apriori算法新的改进。2、关联规则定义设I={il,i2/--,im}为项目集,D是全体事务记录的集合。I有一个子集是事务T,事务集合TUI,每个事务记录都有一个标识符TID。关联规则实际上是一个蕴涵式,形如X=>Y,其中xei,YeI同时XAY=o其中X是关联规则的条件,Y是关联规则的结果。关联规则X=>Y对D的支持度的定义是事务集合D中包含有X和丫的百分比。关联规则X=>Y对D的置信度的定义是事务集合D中同时包含X和Y的事务占X的百分比。3、,其出现的频率,同时找出那些大于或者等于最小支持度的那些项目集,这时就产生了一维频繁项目集G1。接着开始用循环结构处理,一直到不再产生维数更高的频繁项目集为止。循环过程描述如下:在第n步骤中,用第n-1个步骤产生的n-1维频繁项目集来生成n维的候选项目集,接着再用Apriori算法来检验新的n维频繁项目集中的所有n-1维项目集是否已经包含在已经计算出的n-1维频繁项目集中。再扫描数据库D中的每个事务,中的一项,那么保留该项事务,否则把该事务与数据库末端未作删除标记的事务进行对换,并且把那个移到数据库末端的事务加上一个删除标记,最后把整个扫描完成的数据库保存到另一个的事务数