1 / 68
文档名称:

数据挖掘.ppt

格式:ppt   大小:665KB   页数:68页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘.ppt

上传人:bodkd 2018/4/4 文件大小:665 KB

下载得到文件列表

数据挖掘.ppt

相关文档

文档介绍

文档介绍:04 四月 2018
1
第三章关联规则挖掘理论和算法 内容提要
基本概念与解决方法
经典的频繁项目集生成算法分析
Apriori算法的性能瓶颈问题
Apriori的改进算法
对项目集空间理论的发展
基于项目集操作的关联规则挖掘算法
改善关联规则挖掘质量问题
约束数据挖掘问题
关联规则挖掘中的一些更深入的问题
数量关联规则挖掘方法
04 四月 2018
2
关联规则挖掘是数据挖掘研究的基础
关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。
最早是由Agrawal等人提出的(1993)。最初是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。
关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。
04 四月 2018
3
事务数据库
设I={ i1,i2,…,im }是一个项目集合,事务数据库D={ t1,t2,…,tn }是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。
一个事务数据库可以用来刻画:
购物记录: I是全部物品集合, D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。
其它应用问题
04 四月 2018
4
支持度与频繁项目集
定义(项目集的支持度). 给定一个全局项目集I和数据库D,一个项目集I1I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support( I1 )=|| {t D | I1 t}|| / || D||。
定义(频繁项目集).给定全局项目集I和数据库D ,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集: Maximum Frequent Itemsets)或最大大项目集(Maximum Large Iitemsets)。
04 四月 2018
5
可信度与关联规则
定义(关联规则与可信度).给定一个全局项目集I和数据库D,一个定义在I和D上的关联规则形如I1I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事务数与包含I1的事务数之比,即
Confidence(I1I2)= support(I1∪I2)/ support(I1),
其中I1,I2I,I1∩I2=Ф。
定义(强关联规则). D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则(Strong Association Rule)。
04 四月 2018
6
关联规则挖掘基本过程
关联规则挖掘问题可以划分成两个子问题:
1. 发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。
:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。
第1个子问题是近年来关联规则挖掘算法研究的重点。
04 四月 2018
7
第三章关联规则挖掘理论和算法 内容提要
基本概念与解决方法
经典的频繁项目集生成算法分析
Apriori算法的性能瓶颈问题
Apriori的改进算法
对项目集格空间理论的发展
基于项目序列集操作的关联规则挖掘算法
改善关联规则挖掘质量问题
约束数据挖掘问题
关联规则挖掘中的一些更深入的问题
数量关联规则挖掘方法
04 四月 2018
8
项目集空间理论
Agrawal等人建立了用于事务数据库挖掘的项目集空间理论(1993, Appriori 属性)。
定理( Appriori 属性1). 如果项目集X 是频繁项目集,那么它的所有非空子集都是频繁项目集。
证明设X是一个项目集,事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y,设T中支持Y的元组数为s1。
根据项目集支持数的定义,很容易知道支持X 的元组一定支持Y,所以s1 ≥s,即support(Y) ≥ support(X)。
按假设:项目集X 是频繁项目集,即support(X)≥ minsupport,
所以support(Y)≥

最近更新

上海市民营企业人才问题分析 6页

一例猫感染泛白细胞减少症诊治的体会 4页

《零食多店企业人员招聘现状及问题和对策(开题.. 5页

二零二五年度智能硬件产品供货商合作协议 9页

《企业薪酬管理问题研究开题报告文献综述(含提.. 6页

二零二五年度新能源车辆运输承包协议 9页

XX企业员工福利研究[任务书] 5页

L公司知识型员工激励体系优化设计的开题报告 4页

二零二五年度房屋租赁合同租赁合同争议解决法.. 8页

A公司知识型员工激励问题研究的开题报告 4页

二零二五年度工地食堂员工培训与技能提升承包.. 9页

二零二五年度客服培训师劳动合同 8页

二零二五年度太阳能光伏电站工程安装与运营维.. 9页

2025年南京林业大学010家居与工业设计学院140.. 5页

2025年人力资源毕业论文范文大全 5页

二零二五年度商业地产购房合同转让及经营许可.. 9页

二零二五年度双方合作合同:人工智能教育平台.. 8页

(乳酸和ScvO2的关系) 5页

二零二五年度债务和解与新能源技术研发合作协.. 8页

二零二五年度交通事故责任认定及赔偿协议书 7页

二零二五年度2025年度酒店式公寓租赁合同全新.. 9页

中小学多功能厅装修协议 9页

2025年度高端酒店大堂艺术贴砖设计合同 10页

2025年度食品冷链配送承包合同 9页

2025年度蔬菜批发市场运营与管理销售合作协议.. 9页

2025年度能源项目咨询居间费未签合同纠纷解决.. 8页

2025年度网络安全服务利润分红协议 8页

2025年度篮球场设施租赁与赛事推广服务合同 9页

鉴赏中国古代诗歌的思想情感 19页

2025年度甲方乙方新能源汽车充电桩运营合作协.. 10页