文档介绍:关联规那么挖掘的Apriori算法综述
第24卷第1期
2021年2月
四川理工学院(自然科学版)
JournalofSichuanUniversityofScience&Engineering(NaturalScienceEdition)
文章编号:1673—1549(2021)01-0066-05
关联规那么挖掘的Apriori算法综述
赵洪英,蔡乐才,李先杰
(~学院电子与信息工程学院,l~tJrl自贡643000;~学院计算机学院,FUII自贡643000)
摘要:关联规那么挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有意义的关
,从数据库中挖掘关联规那么显得越来越有必要性,关联规那么挖掘的
Apriori算法是数据库挖掘的最经典算法并得到广泛应用,在介绍关联规那么挖掘和Apriori算法的根底上,
化方法,并指出了Apriori算法在实际中的应用领域,提出了未来Apriori算法的研究方向和应用开展趋
势.
关键词:数据挖掘;关联规那么;Apriori算法;综述
中图分类号::A
引言
现在,数据挖掘作为从数据中获取信息的有效方
后,关联规那么就成为数据挖掘的重要研究方向,它是要
,设I={I,I:,
…
I}是m个不同项的项集,X∈I,Y∈I,并且x和Y
用以下三个参数描述:一是支持度,(support)定义为全
体事务集T中有s%的事务同时支持事务集X和Y,那么
称s%为关联规那么x—
频繁程度,用s(X—Y),最小支持度用Min—
(confidence),定义为全体事务集
T中支持事务集x的事务中,有c%的事务同时也支持
事务集Y,c%为关联规那么x—
规那么的强度,用C(x—Y),最小置信度用
,定义为支持度不小于最
小支持度(minsup)的事务集,称为频繁项集.
关联规那么的挖掘问题就是在事务数据库D中找出
具有用户给定的满足一定条件的最小支持度Minsup和
分为以下两个步骤:
(1)找出存在于事务数据库中的所有频繁项集.
(2)用频繁项集生成关联规那么,即对于每个频繁项
集x,假设Y∈X,Y≠,且c(Y一(X—Y))>iMinconf,构
成关联规那么Y一(x—Y).
本文分析了Apriofi算法,指出其存在的几个缺陷,提
出了针对缺陷的主要改良优化的方法,列举了Apriori算
法的几个应用领域,展望了Apfiofi算法的未来研究方向.
lApriori算法
Apriori算法是第一个关联规那么挖掘算法,也是最经
项集的关系,以形成规那么,其过程由连接(类矩阵运算)
,称
,那么称它为
收稿日期:2021-07-21
基金工程:四川省科技厅支撑方案工程(2021FZ0109);四川省教育厅科技工程(2007ZL048)
作者简介:赵洪英(1980.),女,河南驻马店人,硕士生,主要从事智能信息处理方面的研究.
第24卷第1期
频繁项集.
赵洪英等:关联规那么挖掘的Apriori算法综述鱼!
步骤如下:
(1)设定最小支持度s和最小置信度e.
项的集合,即候选项集,假设候选项集的支持度大于或等
于最小支持度,那么该候选项集为频繁项集.
(3)在Apriori算法的过程中,首先从数据库读入所
有的事务,每个项都被看作候选1一项集,得出各项的支
持度,再使用频繁1一项集集合来产生候选2一项集集
合,因为先验原理保证所有非频繁的1一项集的超集都
是非频繁的.
(4)再扫描数据库,得出候选2一项集集合,再找出
频繁2一项集,并利用这些频繁2一项集集合来产生候
选3一项集.
(5)重复扫描数据库,与最小支持度比拟,产生更高
层次的频繁项集,再从该集合里产生下一级候选项集,
直到不再产生新的候选项集为止.
在此算法中要不断地重复两个步骤:连接和剪枝.
具体内容如下:
(1),通过F与自己连接产生候选
:是
,其中F㈦的元素
F和F2是可以连接的.
(2),所有的频
,确定L中每
个候选集计数,并利用F剪掉L中的非频繁项,从而
确定F..
2分析Apri