1 / 24
文档名称:

2020年关联规则挖掘——Apriori算法.ppt

格式:ppt   大小:237KB   页数:24页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2020年关联规则挖掘——Apriori算法.ppt

上传人:梅花书斋 2021/1/11 文件大小:237 KB

下载得到文件列表

2020年关联规则挖掘——Apriori算法.ppt

文档介绍

文档介绍:概述
关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一

其目的是为了发现超市交易数据库中不同商品之间的关联关系。
一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。
经典的关联规则挖掘算法:Apriori算法和FP-growth算法
*
关联规则挖掘——Apriori算法
*
引例
假定某超市销售的商品包括:bread、bear、cake、cream、milk和tea
交易号TID
顾 客 购 买 商 品Items
T1
bread cream milk tea
T2
bread cream milk
T3
cake milk
T4
milk tea
T5
bread cake milk
T6
bread tea
T7
beer milk tea
T8
bread tea
T9
bread cream milk tea
T10
bread milk tea
*
关联规则挖掘——Apriori算法
*
引例
项目与项集
设I={i1,i2,…,im}是m个不同项目的集合,每个ik(k=1,2,……,m)称为一个项目(Item)。
项目的集合I称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。
*
关联规则挖掘——Apriori算法
*
引例
交易
每笔交易T(Transaction)是项集I上的一个子集,即TI,但通常TI。
对应每一个交易有一个唯一的标识——交易号,记作TID
交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。
交易集D中包含交易的个数记为|D|。
*
关联规则挖掘——Apriori算法
*
引例
项集的支持度
对于项集X,XI,设定count(XT)为交易集D中包含X的交易的数量
项集X的支持度support(X)就是项集X出现的概率,从而描述了X的重要性。
*
关联规则挖掘——Apriori算法
*
引例
关联规则
关联规则(Association Rule)可以表示为一个蕴含式:
R:XY
*
关联规则挖掘——Apriori算法
*
引例
关联规则的支持度
对于关联规则R:XY,其中XI,YI,并且XY=,规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。
*
关联规则挖掘——Apriori算法
*
引例
关联规则的可信度
对于关联规则R:XY,其中XI,YI,并且XY=,规则R的可信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比
*
关联规则挖掘——Apriori算法
*
引例
关联规则的最小支持度和最小可信度
关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support),记为supmin,它用于衡量规则需要满足的最低重要性。规则的最小可信度(Minimum Confidence)记为confmin,它表示关联规则需要满足的最低可靠性。
*
关联规则挖掘——Apriori算法
*
引例
强关联规则
如果规则XY满足:support(XY)supmin且confidence(XY)confmin,称关联规则XY为强关联规则,否则称关联规则XY为弱关联规则。在挖掘关联规则时,产生的关联规则要经过supmin和confmin的衡量,筛选出来的强关联规则才能用于指导商家的决策。
*
关联规则挖掘——Apriori算法
*