1 / 19
文档名称:

数据挖掘.ppt

格式:ppt   大小:5,284KB   页数:19页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.ppt

上传人:kisuamd347 2020/3/12 文件大小:5.16 MB

下载得到文件列表

数据挖掘.ppt

相关文档

文档介绍

文档介绍:数据挖掘Apriori算法Apriori算法频繁模式挖掘,相关性挖掘,关联规则学****Apriori算法等等,这些看似不同但本质上一样的概念一直以来被用于描述数据挖掘的相关内容。所谓的数据挖掘是指利用统计的方法从某个数据集中发现有价值的、未被人所知的规律。我们用分类或者聚类的方法,只是想挖掘数据集内各个子集的相互关系,寻找哪些事物经常同时出现,哪些事物相互依附,以及哪些事物存在联系。(或是亲密性分析)是介绍频繁模式挖掘的最佳案例,它是众所周知的频繁模式挖掘应用之一。购物篮分析试图从消费者加入购物篮的商品中挖掘出某种模式或者关联,可以是真实的购物篮,也可以是虚拟的,并且给出支持度或是置信度。这一方法在用户行为分析中存在巨大的价值。购物篮分析的目的是得到如下形式的关联规则milk=>bread[support=25%,confidence=60%]这里引入了规则的支持度和置信度作为规则兴趣度的两种度量。支持度为25%意味着分析的所有事务的25%显示牛奶和面包同时被购买。置信度Apriori算法为60%意味着购买牛奶的顾客60%也购买了面包,如果这条它满足最小支持度阈值和最小置信度阈值,那么我们说这就是一条强关联规则,超市也可以依据这条规则对日常经营进行一定调整。、支持度和关联规则支持度是度量模式或者物品成对出现的绝对次数。在上面的例子里,25%的支持度表示牛奶和面包被共同购买的次数占到所有交易次数的25%。置信度是度量模式或者物品成对出现的相对次数。在上面的例子里,60%的置信度表示购买牛奶的客户中,有60%的客户同时也购买了面包。在一个给定的场景中,通常需要置信度和支持度都大于设定的阈值,这条关联规则才能成立,这条规则才有利用价值。补充:项的集合称为项集。包含K个项的集合称为K项集,例如{milk,bread}被称为一个二项集,它在事务中出现的次数被称为频度,频度满足最小支持度阈值的项集被称为频繁项集。Apriori算法support(A=>B)=P(A∪B)注意:P(A∪B)表示事物包含集合A和B的并,即包含A和B中每一项的概率。confidence(A=>B)=P(B|A)这个式子表明规则A=>B的置信度容易从A和A∪B的支持度计数推出。只要得到A、B和A∪B的支持度计数,那么导出关联规则A=>B和B=>A,并检查它们是否是强规则就很容易了,Apriori算法关联规则挖掘:::。思路比较简单,即遍历和筛选的过程。假设总共有n个商品,Apriori算法首先生成一个候选商品列表长度是2~n-1。用组合的方式可以计算出所有可能的组合情况的个数:C(n,n-(n+2))+C(n,n-(n+3))+…+C(n,n-1))上式也可以用二项分布的系数来表示。如果数据集非常庞大,那这个计算过程会很耗时。先验性质:频繁项集的所有非空子集也一定是频繁的。Apriori算法使用先验性质由频繁K-1项集产生备选k项集Apriori算法由频繁K--1项集产生备选k项集(1)连接步(2),根据最小支持度阈值晒去不符合条件的项集,剩下的就是频繁k项集。