文档介绍:会计学
1
关联规则CARMA
关联规则算法简介
关联分析的目的是寻找数据项间的相关性.常用技术:
关联规则:即寻找在同一个事件中出现的不同项目的相关性
例如:找出顾客经常同
时购买哪些商品。网民
浏览的网页之间有没有
什么关联性。
第1页/共43页
CARMA算法简介
CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的Christian Hidber教授提出来的。
1
2
3
4
能够处理在线连续交易流数据
仅需一次,最多两次对数据的扫描就可以构造出结果集
允许在算法执行过程中按需要重新设置支持度
占用内存少
CARMA
On-line
第2页/共43页
CARMA模块中的基本概念
Antecedent&Consequent
它们指的是规则的前项和后项。
Instances
对于每一条规则,它的
Instances值指的是所有
记录中包含该规则的
antecedent的记录的数量。
面包
牛奶
前项
Antecedent
后项
Consequent
ID
P1
P2
P3
P4
1
bread
cheese
butter
water
2
water
milk
bread
noodle
3
orange
noodle
meat
beer
4
fish
softdrink
frozenmeal
bread
总共4条购买数据,其中有三条都包含bread,那么该条规则的instances等于3
第3页/共43页
CARMA模块中的基本概念
Support
它的定义和instances很接
近,不同的是support描述
的不是数量,而是比例。
Rule Support
它在Support定义的基础
上更进一步,它指的是
所有记录中既包含某规
则的antecedent,又包含
consequent的记录所占
的比例。
ID
P1
P2
P3
P4
1
bread
cheese
butter
water
2
water
milk
bread
noodle
3
orange
noodle
meat
beer
4
fish
softdrink
frozenmeal
bread
Support=3/4×100%=75%
四条记录中只有一条既包含了前项bread,又包含了后向milk,所以
Rule Support=1/4×100%=25%
第4页/共43页
CARMA模块中的基本概念
Confidence
Confidence
= Rule Support / Support
该指标反映的是规则预测的
准确程度。
Deployability
Deployability
= Support – Rule Support
它的作用与confidence类似。
ID
P1
P2
P3
P4
1
bread
cheese
butter
water
2
water
milk
bread
noodle
3
orange
noodle
meat
beer
4
fish
softdrink
frozenmeal
bread
根据规则“面包=》牛奶”,那么购买了面包的第一、二及四行都会被预测购买了牛奶,但事实上这三个预测只有第二个是正确的,所以confidence=1/3×100%=%
第5页/共43页
CARMA模块中的基本概念
Lift
在已知某规则的
consequent发生
的先验概率的情况
下,某规则的Lift
被定义为Confidence
和该先验概率的比
率值。
ID
P1
P2
P3
P4
1
bread
cheese
butter
water
2
water
milk
bread
noodle
3
milk
noodle
meat
beer
4
fish
softdrink
frozenmeal
bread
那么对于一条记录,那么不采用任何规则进行预测,随便猜测该顾客是否该买牛奶的正确率是50%
已知有50%的人购买了牛奶:)
如