文档介绍:关联规则 Apriori 挖掘 概述?关联规则(Association Rule Mining) 挖掘是数据挖掘中最活跃的研究方法之一?最早是由 等人提出的?其目的是为了发现超市交易数据库中不同商品之间的关联关系。?一个典型的关联规则的例子是: 70% 购买了牛奶的顾客将倾向于同时购买面包。?经典的关联规则挖掘算法: Apriori 算法和 FP-growth 算法 引例?假定某超市销售的商品包括: bread 、 bear 、 cake 、 cream 、 milk 和 tea 交易号 TID 顾客购买商品 Items T1 bread cream milk tea T2 bread cream milk T3 cake milk T4 milk tea T5 bread cake milk T6 bread tea T7 beer milk tea T8 bread tea T9 bread cream milk tea T10 bread milk tea 引例?定义 项目与项集?设 I={i1,i2, …,im} 是m 个不同项目的集合,每个 ik(k=1 ,2,……, m) 称为一个项目(Item) 。?项目的集合 I 称为项目集合(Itemset) ,简称为项集。其元素个数称为项集的长度, 长度为 k的项集称为 k-项集(k-Itemset) 。 引例?定义 交易?每笔交易 T(Transaction) 是项集 I上的一个子集, 即T?I,但通常 T?I。?对应每一个交易有一个唯一的标识——交易号, 记作 TID ?交易的全体构成了交易数据库 D ,或称交易记录集D,简称交易集 D。?交易集 D中包含交易的个数记为|D| 。 引例?定义 项集的支持度?对于项集 X,X?I ,设定 count(X ? T) 为交易集 D中包含 X的交易的数量?项集 X 的支持度 support(X) 就是项集 X出现的概率,从而描述了 X的重要性。|D| T) count(X support(X) ?? 引例?定义 关联规则?关联规则(Association Rule) 可以表示为一个蕴含式: ?R:X? Y 引例?定义 关联规则的支持度?对于关联规则 R:X?Y ,其中 X? I,Y ?I, 并且 X? Y= ?,规则 R 的的支持度(Support) 是交易集中同时包含 X和Y 的交易数与所有交易数之比。|D| Y) count(X Y) support(X ??? 引例?定义 关联规则的可信度?对于关联规则 R:X?Y ,其中 X? I,Y ?I, 并且 X? Y= ?, 规则 R 的可信度(Confidence) 是指包含 X和Y 的交易数与包含 X的交易数之比 support(X) Y) support(X Y) (X confidence ??? 引例?定义 关联规则的最小支持度和最小可信度?关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support) ,记为 supmin , 它用于衡量规则需要满足的最低重要性。规则的最小可信度(Minimum Confidence) 记为 confmin ,它表示关联规则需要满足的最低可靠性。