1 / 19
文档名称:

关联规则分析(二)教学课件.pptx

格式:pptx   大小:269KB   页数:19页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关联规则分析(二)教学课件.pptx

上传人:新起点 2021/5/3 文件大小:269 KB

下载得到文件列表

关联规则分析(二)教学课件.pptx

相关文档

文档介绍

文档介绍:第10讲 关联规则分析——FP-growth
-growth算法基本概念
2. FP-growth算法实例
3. FP-growth算法优点
1. FP-growth算法基本概念
Apriori 算法通过连接步和剪枝步找出频繁项集。
Apriori 算法的缺点:
多次扫描数据库,产生巨大数量的候选集,繁琐的支持度计算......
Frequent Pattern
FP-growth 算法不产生候选项集,而是采用分而治之的策略:
首先,压缩数据库,并将频繁项放入频繁模式树(FP- 树),它仍保留项集的关联信息。
然后,将压缩数据库分成多个条件数据库,每个条件数据库关联到一个频繁项集,并分开来对其进行挖掘。
该算法只需要扫描两次数据库。
第一次扫描,得到所有频繁项及其支持度计数,并在每个事务中将频繁项依据支持度计数进行降序排列;
第二次扫描,将每个事务的项都合并进FP- 树,对在不同事务中出现的公共项进行计数。
-growth算法实例
设最小支持度为3 第1次扫描,得到频繁项列表, 并将频繁项重新排序
TID
Items
1
f,a,c,d,g,i,m,p
2
a,b,c,f,l,m,o
3
b,f,h,j,o
4
b,c,k,s,p
5
a,f,c,e,l,p,m,n
TID
sorted
1
f,c,a,m,p
2
f,c,a,b,m
3
f,b
4
c,b,p
5
f,c,a,m,p
TID
sorted
1
f,c,a,m,p
2
f,c,a,b,m
3
f,b
4
c,b,p
5
f,c,a,m,p
Item
count
f
1
c
1
a
1
b
0
m
1
p
1
TID
sorted
1
f,c,a,m,p
2
f,c,a,b,m
3
f,b
4
c,b,p
5
f,c,a,m,p
Item
count
f
1
c
1
a
1
b
1
m
1
p
0
扫描第3个事务时,得到分支:
<(𝑓:1),(𝑏:1)>
TID
sorted
1
f,c,a,m,p
2
f,c,a,b,m
3
f,b
4
c,b,p
5
f,c,a,m,p
Item
count
f
1
c
0
a
0
b
1
m
0
p
0
扫描第4个事务时,得到分支:
<(c:1),(𝑏:1),(p:1)>
TID
sorted
1
f,c,a,m,p
2
f,c,a,b,m
3
f,b
4
c,b,p
5
f,c,a,m,p
Item
count
f
0
c
1
a
0
b
1
m
0
p
1
TID
sorted
1
f,c,a,m,p
2
f,c,a,b,m
3
f,b
4
c,b,p
5
f,c,a,m,p
Item
count
f
1
c
1
a
1
b
0
m
1
p
1
挖掘数据库中的频繁项集→挖掘FP-树:
由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基。条件模式基是一个子数据库,由FP- 树中与该后缀模式一起出现的前缀路径集组成。然后由此构造频繁模式的条件FP- 树,并递归地在该树上进行挖掘。
Item
count
f
4
c
4
a
3
b
3
m
3
p
3