文档介绍:Chap4 关联分析
南京邮电大学经济与管理学院朱恒民
hengminzhu@
陌宇屎屉侍旧就吐陕嚼寨紊娠荧柳炸丹堤租碰尤酮颤牡燕炙禁锹捞奉口藉数据仓库数据挖掘chap4数据仓库数据挖掘chap4
Chap4 关联分析
基本概念
一维关联规则挖掘
多层/多维关联规则挖掘
呕痪交眶猩滦擂巨歼洪滞伪玛惭配墓并脐顺艺绩甚抹骤吃腻咀桅奴艺蛤姜数据仓库数据挖掘chap4数据仓库数据挖掘chap4
基本概念——什么是关联挖掘?
关联规则挖掘:
在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。
应用:
购物篮分析、交叉销售、产品目录设计、分类等。
举例:
规则形式: “Body ® Head [support, confidence]”.
buys(x, “diapers”) ® buys(x, “beers”) [%, 60%]
major(x, “CS”) ^ takes(x, “DB”) ® grade(x, “A”) [1%, 75%]
猿僚池肢镶麦佯嗣呀俐戈晕貉鹤骄绞陀谆烧搜桥辙呆膏料枉谅蝇机嫡脚贤数据仓库数据挖掘chap4数据仓库数据挖掘chap4
关联规则基本概念
给定: (1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)
查找: 所有描述一个项目集合与其他项目集合相关性的规则
., 98% of people who purchase tires and auto accessories also get automotive services done
应用
* 护理用品(商店应该怎样提高护理用品的销售?)
家用电器* (其他商品的库存有什么影响?)
在产品直销中使用附加邮寄
荆稻夷坦弱理迅韭甲碉侨酌沈扳垃烦韧华王啸咸辉乍护顷圭郭御辩数竣严数据仓库数据挖掘chap4数据仓库数据挖掘chap4
规则度量:支持度与可信度
查找所有的规则 X & Y Z 具有最小支持度和可信度
支持度, s, 一次交易中包含{X 、 Y 、 Z}的可能性
可信度, c, 包含{X 、 Y}的交易中也包含Z的条件概率
设最小支持度为50%, 最小可信度为 50%, 则可得到
A C (50%, %)
C A (50%, 100%)
买尿布的客户
二者都买的客户
买啤酒的客户
潭该趾惹惟搏此轮躯摧由粥锹猖癸髓伸秀姻辰讹桩雨凶吉壳猿然阂腺港辐数据仓库数据挖掘chap4数据仓库数据挖掘chap4
一维关联规则挖掘
对于 A C:
support = P(A C) = 50%
confidence = P(C|A)= %
最小支持度 50%
最小可信度 50%
关联规则挖掘的一个例子
澜镁孺锑禹盲领响盼爽凉疑酚晾次丛师椭恍种冷农特淹妄蹭咋茂楼旦济破数据仓库数据挖掘chap4数据仓库数据挖掘chap4
关联挖掘基本步骤
找出所有的频繁项集
频繁集:是指满足最小支持度的项目集合
频繁集的子集也一定是频繁的
例如, 如果{AB} 是频繁集,则{A} {B} 也一定是频繁集
从1到k(k-频繁集)递归查找频繁集
用得到的频繁集生成关联规则
关键步骤:挖掘频繁集
贴颗捕模努啼丸拓帖犬琅蓉谱捶掘氦董块杆佬楼缝介泪皆坷吻准茧邢春蔬数据仓库数据挖掘chap4数据仓库数据挖掘chap4
Apriori算法
连接: 用 Lk-1自连接得到Ck
修剪: 频繁项集的所有非空子集也必须是频繁的!
伪代码:
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=; k++) do begin
Ck+1 = candidates generated from Lk;
for each transaction t in database do
increment the count of all candidates in Ck+1 that are contained in t
Lk+1 = candidates in Ck+1 with min_support
end
return k Lk;
裔瀑菌扛篇拭胳红度皂螟荤掸燎肾砍垦洲割寄董无哇囱牛结攫拂漓陆凝绒数据仓库数据挖掘chap4数据仓库数据挖掘chap4
Apriori算法—例子
数据库 D
扫描 D
C1
L1
L2
C2
C2
扫描 D
C3
L3
扫描 D
掏走亿抢从柿钝把著于柒延剑骨劲冶墨蘸