1 / 6
文档名称:

数据挖掘算法(1).docx

格式:docx   大小:70KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘算法(1).docx

上传人:xiaobaizhua 2022/5/25 文件大小:70 KB

下载得到文件列表

数据挖掘算法(1).docx

相关文档

文档介绍

文档介绍:A 什么是关联规则 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进 行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的 知识。若两个或多个变量的取值之间存在 = lift(Y -> X) = conf(X -> Y)/supp(Y) = conf(Y
-> X)/supp(X) = P(X and Y)/(P(X)P(Y))
经过关联规则分析后,针对某些人推销(根据某规则)比盲目推销(一般来说是整个数 据)的比率,这个比率越高越好,我们称这个规则为强规则;
剪枝步 只有当子集都是频繁集的候选集才是频繁集,这个筛选的过程就是剪枝步;
概念和定义的案例说明
先看一个简单的例子,假如有下面数据集,每一组数据ti表示不同的顾客一次在商场 购买的商品的集合:
tl:牛肉i鸡肉i牛奶」
说:牛肉、奶酪」
t3=奶酪、靴子」
牛肉、鸡肉、奶酪」
15:牛肉'鸡肉i衣朋、奶酪i牛奶卩
询鸡肉、衣朋、牛奶」
苗:鸭肉、牛奶,衣朋
假如有一条规则:牛肉—>鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7(支持度), 而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4 (置信度)。这两个比例参数是很重 要的衡量指标,它们在关联规则中称作支持度(support)和置信度(confidence) o
对于规则:牛肉—>鸡肉,它的支持度为3/7,表示在所有顾客当中有3/7 同时购买牛 肉和鸡肉,其反应了同时购买牛肉和鸡肉的顾客在所有顾客当中的覆盖范围;它的臵信度为 3/4,表示在买了牛肉的顾客当中有3/4 的人买了鸡肉,其反应了可预测的程度,即顾客 买了牛肉的话有多大可能性买鸡肉。
从集合角度去看这个问题,假如看作是概率问题,则可以把“顾客买了牛肉之后又多 大可能性买鸡肉”看作是条件概率事件,而从集合的角度去看,可以看下面这幅图:
S表示所有的顾客,而A表示买了牛肉的 顾客,B表示买了鸡肉的顾客,C表示既买了 牛肉又买了鸡肉的顾客。那么
C. /S. =3/7, C. /A. =3/4。
count count count count
合,詐位顾客一次购买的商品集合ti称为一 集合,并且满足ti是I的真子集。一条关联:
上述例子中的所有商品集合I={牛肉, 鸡肉,牛奶,奶酪,靴子,衣服}称作项目集 个事务,所有的事务T={t1,t2,....t7}称作事务 规则是形如下面的蕴含式:
X—>Y, X,Y满足:X,Y是I的真子集,并且X和Y的交集为空集
其中X称为前件,Y称为后件。
对于规则X—>Y,上面例子可以知道它的支持度(support)=(X,Y).count/,置 信度(confidence)=(X,Y).count/。其中(X,Y).count 表示T 中同时包含X 和 Y 的 事务的个数,。
关联规则挖掘则是从事务集合中挖掘岀满足支持度和置信度最低阈值要求的所有关联 规则,这样的关联规则也称强关联规则。
对于支持度和置信度,我们需要正确地去看待这两个衡量指标。一条规则的支持度表示 这条规则的可能性大小,如果一个规则的支持度很小,则表明它在事务集合中覆盖范围很小, 很有可能