1 / 35
文档名称:

第四章关联规则挖掘年.ppt

格式:ppt   大小:1,851KB   页数:35页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四章关联规则挖掘年.ppt

上传人:文库新人 2022/1/15 文件大小:1.81 MB

下载得到文件列表

第四章关联规则挖掘年.ppt

相关文档

文档介绍

文档介绍:第四章关联规则挖掘年
第一页,本课件共有35页
“尿布与啤酒”——典型关联分析案例
采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿B,C},{A,C,E},{B,C,E}}
2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:
{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;
{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E} 不是L2的元素,所以删除这个选项;
{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保留这个选项。
3.这样,剪枝后得到C3={{B,C,E}}
第十二页,本课件共有35页
由频繁项集产生关联规则
同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算:
每个关联规则可由如下过程产生:
对于每个频繁项集l,产生l的所有非空子集;
对于每个非空子集s,如果 则输出规则“ ”
第十三页,本课件共有35页
多层关联规则 (1)
数据项中经常会形成概念分层
底层的数据项,其支持度往往也较低
这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度
All
Computer
accessory
software
laptop
financial
mouse
color
printer
computer
desktop
IBM
edu.
Microsoft
b/w
HP
Sony
wrist
pad
Logitech
TID
Items
T1
{IBM D/C, Sony b/w}
T2
{Ms. edu. Sw., Ms. fin. Sw.}
T3
{Logi. mouse, Ergoway wrist pad}
T4
{IBM D/C, Ms. Fin. Sw.}
T5
{IBM D/C}
Ergoway
第十四页,本课件共有35页
多层关联规则 (2)
在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的
通常,事务数据库中的数据也是根据维和概念分层来进行储存的
这为从事务数据库中挖掘不同层次的关联规则提供了可能。
在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力
第十五页,本课件共有35页
挖掘多层关联规则的方法
通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略
请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度
由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数
每一层的关联规则挖掘可以使用Apriori等多种方法
例如:
先找高层的关联规则:computer -> printer [20%, 60%]
再找较低层的关联规则:laptop -> color printer [10%, 50%]
第十六页,本课件共有35页
多层关联——一致支持度
一致支持度:对所有层都使用一致的最小支持度
优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索
缺点:最小支持度值设置困难
太高:将丢掉出现在较低抽象层中有意义的关联规则
太低:会在较高层产生太多的无兴趣的规则
第十七页,本课件共有35页
多层关联——递减支持度
使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难
递减支持度:在较低层使用递减的最小支持度
每一层都有自己的一个独立的最小支持度
抽象层越低,对应的最小支持度越小
min_sup = 5%
min_sup = 5%
min_sup = 3%
Computer
[support=10%]
Laptop
[support=6%]
Desktop
[support=4%]
第十八页,本课件共有35页
多层关联——搜索策略 (1)
具有递减支持度的多层关联规则的搜索策略
逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝
层交叉单项过滤:一