文档介绍:该【关联规则简介和Apriori算法PPT课件 】是由【读书之乐】上传分享,文档一共【35】页,该文档可以免费在线阅读,需要了解更多关于【关联规则简介和Apriori算法PPT课件 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。关联规则简介
关联规则(Association Rules)反应一种事物与其他事物之间的互相依存性和关联性。假如两个或者多种事物之间存在一定的关联关系,那么,其中一种事物就可以通过其他事物预测到。首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出.
关联规则挖掘是数据挖掘中最活跃的研究措施之一。经典的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不一样商品之间的关系来分析顾客的购置习惯。
关联规则
“尿布与啤酒”的故事。
美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一种意外发现:与尿布一起被购置最多的商品居然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们常常会叮嘱她们的丈夫下班后来要为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购置自已爱喝的啤酒。有了这个发现后,超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增长了销售额。
案例
70%购置了牛奶的顾客将倾向于同步购置面包。
某网上书店向顾客推荐有关书籍。
案例
在买了一台PC之后下一步会购置?
案例
在保险业务方面,假如出现了不常见的索赔规定组合,则也许为欺诈,需要作深入的调查;
在医疗方面,可找出也许的治疗组合;
在银行方面,对顾客进行分析,可以推荐感爱好的服务等等。
案例
什么是规则?
规则形如"假如…那么…(If…Then…)",前者为条件,后者为成果。例如一种顾客,假如买了可乐,那么他也会购置果汁。
怎样来度量一种规则与否够好?有两个量,置信度(Confidence)和支持度(Support)。假设有如下表的购置记录。
关联规则基本模型
关联规则基本模型_置信度
置信度表达了这条规则有多大程度上值得可信。设条件的项的集合为A,成果的集合为B。置信度计算在A中,同步也具有B的概率(即:if A ,then B的概率)。即 Confidence(AB)=P(B|A)。例如计算“假如Orange则Coke”的置信度。由于在具有“橙汁”的4条交易中,仅有2条交易具有“可乐”。。
关联规则基本模型_支持度
支持度计算在所有的交易集中,既有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。则此条规则的支持度为 2/5=,即Support(AB)=P(AB)。
目前这条规则可表述为,假如一种顾客购置了橙汁,则有50%(置信度)的也许购置可乐。而这样的状况(即买了橙汁会再买可乐)会有40%(支持度)的也许发生。
关联规则的有关概念
定义1 项目与项集
设I={i1,i2,…,im}是m个不一样项目的集合,每个ik(k=1,2,……,m)称为一种项目(Item)。
项目的集合 I 称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。