文档介绍:高级大数据人才培养丛书之一,大数据挖掘技术与应用
数据挖掘
王朝霞 主编 施建强 杨慧娟 陈建彪 副主编
DATA MINING
曹 洁 宁亚辉 王伟嘉 袁晓东 张卫明 编者(按姓氏首字母排序)
刘 鹏 张 燕 总主编
第六章 关联规则
of
64
高级大数据人才培养丛书之一,大数据挖掘技术与应用
关联规则是一种描述性的而非预测性的方法,经常用于发现隐藏在大型数据集背后的,项集之间的有趣关联或相互关系。20世纪60年代,Hajek等人在早期研究中介绍了许多关联规则学****的关键概念和方法,但是主要关注的是数学表达,而不是算法。20世纪90年代初,IBM公司Almaden研究中心的Agrawal等人将关联规则学****架构引入数据库社区,在超市内的销售终端系统记录的客户交易大型数据库中寻找商品之间的联系规则,这些规则刻画了客户购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。
More
应用市场:购物篮分析、交叉销售(Crossing Sale)、点击流分析、推荐系统、医疗诊断,以及通信、互联网、电子商务 ······
基本概念
第六章 关联规则
Apriori算法
FP-growth算法
数据挖掘概述
实战:个人信用关联规则挖掘<br****题
其他关联规则算法
of
64
高级大数据人才培养丛书之一,大数据挖掘技术与应用
早在20世纪80年代,沃尔玛超市就已经将关联规则应用到了商品管理之中。沃尔玛曾经对数据仓库中一年多的原始交易数据进行了详细的分析,发现许多美国家庭都是妻子在家照顾婴儿,丈夫去超市为婴儿买尿布。丈夫们在购买尿布时往往会顺便买两瓶啤酒来犒劳自己。这一现象引起了沃尔玛的重视,沃尔玛调整了货架的位置,把尿布和啤酒摆在相邻的位置,以便于年轻的爸爸们能顺利地同时找到这两种商品。这一故事中的“啤酒”与“尿布”的关系即为所谓的“关联性”,而“关联性”的发掘和利用则是本章所要讨论的“关联规则挖掘”。
购物篮分析:啤酒与尿布的经典案例
of
64
基本概念
第六章 关联规则
关联规则挖掘是指从一个大型的数据集(dataset)中发现有趣的关联或相关关系,即从数据集中识别出频繁出现的属性值集,也称为频繁项集,然后利用这些频繁项集创建描述关联关系规则的过程。关联规则相关定义如下:
(itemset)
设I={i1,i2,…,im},是m个不同的项目的集合,每个ij称为一个项目。项目的集合I称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。下表中每个商品就是一个项目,项集I={面包,牛奶,尿布,啤酒,茶},I的长度|I|= 6。
关联规则的概念
of
64
基本概念
第六章 关联规则
关联规则的概念
of
64
基本概念
第六章 关联规则