1 / 73
文档名称:

知识发现与关联规则挖掘(二)课件.ppt

格式:ppt   大小:2,359KB   页数:73页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

知识发现与关联规则挖掘(二)课件.ppt

上传人:xinyala 2024/5/5 文件大小:2.30 MB

下载得到文件列表

知识发现与关联规则挖掘(二)课件.ppt

相关文档

文档介绍

文档介绍:该【知识发现与关联规则挖掘(二)课件 】是由【xinyala】上传分享,文档一共【73】页,该文档可以免费在线阅读,需要了解更多关于【知识发现与关联规则挖掘(二)课件 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。**知识发现与关联规则挖掘(二) 内容提要基本概念与解决方法经典的频繁项目集生成算法分析Apriori算法的性能瓶颈问题Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法**什么是关联挖掘?关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、聚集、分类等。举例:规则形式:“Body?Head[support,confidence]”.buys(x,“diapers”)?buys(x,“beers”)[%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]**关联规则:基本概念给定:(1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)查找:.,98%essoriesalsogetautomotiveservicesdone应用*?护理用品(商店应该怎样提高护理用品的销售?)家用电器?*(其他商品的库存有什么影响?)在产品直销中使用附加邮寄**规则度量:支持度与可信度查找所有的规则X&Y?Z具有最小支持度和可信度支持度,s,一次交易中包含{X、Y、Z}的可能性可信度,c,包含{X、Y}的交易中也包含Z的条件概率设最小支持度为50%,最小可信度为50%,则可得到A?C(50%,%)C?A(50%,100%)买尿布的客户二者都买的客户买啤酒的客户**关联规则挖掘是数据挖掘研究的基础关联规则挖掘(AssociationRuleMining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(BasketAnalysis)问题提出的,其目的是为了发现交易数据库(TransactionDatabase)中不同商品之间的联系规则。关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘(ParallelAssociationRuleMining)以及数量关联规则挖掘(QuantitiveAssociationRuleMining)等。关联规则挖掘是数据挖掘的其他研究分支的基础。**事务数据库设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tn}是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。一个事务数据库可以用来刻画:购物记录:I是全部物品集合,D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。**支持度与频繁项目集定义(项目集的支持度).给定一个全局项目集I和数据库D,一个项目集I1?I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support(I1)=||{t?D|I1?t}||/||D||。定义(频繁项目集).给定全局项目集I和数据库D,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:FrequentItemsets)或者大项目集(LargeIitemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集:MaximumFrequentItemsets)或最大大项目集(MaximumLargeIitemsets)。**关联规则挖掘基本过程关联规则挖掘问题可以划分成两个子问题::通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。第1个子问题是近年来关联规则挖掘算法研究的重点。**第3章知识发现与关联规则挖掘(二) 内容提要基本概念与解决方法经典的频繁项目集生成算法分析Apriori算法的性能瓶颈问题Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法**经典的发现频繁项目集算法1994年,Agrawal等人提出了著名的Apriori算法。算法3-1Apriori(发现频繁项目集)(1)L1={large1-itemsets};//所有1-项目频集(2)FOR(k=2;Lk-1??;k++)DOBEGIN(3)Ck=apriori-gen(Lk-1);//Ck是k-候选集(4)FORalltransactionst?DDOBEGIN(5)Ct=subset(Ck,t);//Ct是所有t包含的候选集元素(6)FORallcandidatesc?CtDO(7)++;(8)END(9)Lk={c?Ck|?minsup_count}(10)END(11)L=?Lk;