文档介绍：陈晓云赵娟(兰州大学信息科学与工程学院兰州730000)摘要:本文介绍了并行频繁项集挖掘算法的研究概况,对一些经典的并行频繁项集挖掘算法进行了分析和评价,在文章的最后对并行频繁项集挖掘进行了展望。关键字:并行化;频繁项集;数据挖掘;Abstract:Thispaperintroducestheparallelfrequentitemsetminingalgorithm,:parallel;frequentitemset;datamining;1引言国内外许多的研究工作者都对频繁项集的挖掘表现出极大的兴趣,至今已经研究出许多频繁项集挖掘算法,-Growth算法。频繁项集挖掘的算法大多都是基于这两种算法的原理,被分为类Apriori算法和类FP-Growth算法。由于数据挖掘在开始被提出时就是面向海量数据的,庞大的搜索空间使得许多传统的数据挖掘算法的效率并不理想。高性能并行环境为数据挖掘的发展开辟了一条新的路径,研究并行环境下的数据挖掘并行算法成为了数据挖掘界的热点。频繁项集挖掘也不例外,经过这些年的研究,并行化的频繁项集挖掘算法已经取得了一些成果。目前已有许多工作者致力于研究并行频繁项集挖掘算法,并已有一些成绩。,DataDistribution和CandidateDistributionMethods,-tree算法,分别是基于共享内存和分布式内存的类FP-Growth并行化频繁项集挖掘算法。2频繁项集挖掘的基本概念定义2-1(支持度与置信度)设I={I1,I2,…,Im}是项的集合。设任务相关的数据库D是数据库事务的集合,其中每个事务T是项的集合,。每一个事务有一个标识符,称作TID。设A是一个项集(itemset),也称模式(pattern),事物T包含A当且仅当。关联规则是形如的蕴含式,其中,,并且。规则在事务集D中成立,是由支持度(support)sup和置信度(confidence)conf来约束的。其中sup是D中事务包含的百分比,即P(),conf是D中包含A的事务同时也包含B的百分比。即P()。即support()=P()confidence()=P()定义2-2(频繁k-项集)设I={I1,I2,…,Im}为项的集合,其中Ij(j=1,2,…,m)表示一个项。集合被称为项集,如果。如果|X|=k,则X被称为k-项集。项集X的支持度是中包含X的事务数占所有事务数的百分比,它是概率P(X),记为:sup(X)。给定事务数据库和最小支持度阈值,如果,则项集X被称