1 / 67
文档名称:

3_数据挖掘.ppt

格式:ppt   页数:67页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

3_数据挖掘.ppt

上传人:yzhqw888 2016/7/13 文件大小:0 KB

下载得到文件列表

3_数据挖掘.ppt

相关文档

文档介绍

文档介绍:Data mining & Business Intelligence 数据挖掘与商务智能 2 2 课程内容预备知识 1数据挖掘( DM ) 2商业智能( BI) 3 数据挖掘的含义数据挖掘的含义& &任务任务数据质量数据质量数据预处理数据预处理汇总统计、数据可视化汇总统计、数据可视化&OLAP &OLAP 分类、分类、关联分析、聚类分析、异常检测关联分析、聚类分析、异常检测各类数据挖掘工具简介各类数据挖掘工具简介 BI BI 的含义的含义& &案例案例数据挖掘技术在数据挖掘技术在 BI BI 中的应用中的应用面向服务架构面向服务架构&BI &BI 参考书籍: 参考书籍: Introduction to Data Mining Introduction to Data Mining [ [美美]P. N. Tan ]P. N. Tan . . 参考书籍: 参考书籍: Materials from the Materials from the 商务智能与数据挖掘商务智能与数据挖掘 Microsoft Microsoft SQL server SQL server 应用, 应用, 谢邦昌课件下载邮箱: 课件下载邮箱: gdutww@ gdutww@ Psw Psw : : gdutww gdutww 3 32 数据挖掘具体方法 关联分析关联分析怎样进行关联规则挖掘基本概念 4 4 基本概念:关联规则挖掘?关联规则:关联规则是形如 X->Y 的蕴涵表达式,其中 X和Y是不相交的项集,即。?关联规则挖掘:从一个数据集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性值条件元组。 Market-Basket 事务集 Example of Association Rules {Diaper} ? {Beer}, {Milk, Bread} ? {Eggs,Coke}, {Beer, Bread} ? {Milk}, 注意:两个事务组相互关联, 只是两者经常同时发生,而并不一定是两者一定具有因果关系。??YX? 5 5 实例通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买****惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。例如,在同一次购物中,如果顾客购买牛奶的同时,也购买面包(和什么类型的面包) 的可能性有多大? 这种信息可以引导销售,可以帮助零售商有选择地经销和安排货架。例如,将牛奶和面包尽可能放近一些,可以进一步引导客户在商店里同时购买这些商品。 Customer buys diaper Customer buys both Customer buys beer “啤酒与尿布”的关联规则 6 6 一些基本定义?项集?一个或多个项的集合?如: {Milk, Bread, Diaper} ?k-项集?包含有 k个子项的项集?支持度计数(?)?一个项集在事务集中出现的频率? . ?({Milk, Bread,Diaper}) = 2 ?支持度?包含某个项集的事务数量比例? . s({Milk, Bread, Diaper}) = 2/5 ?频繁项集?支持度高于或等于阈值 minsup 的项集 为什么要使用支持度?支持度是一种重要的度量,因为支持度很低的规则只是偶然出现,从商业角度来看,低支持度的规则多半也不是令人感兴趣的,因为对顾客很少同时购买的商品进行促销可能并无益处。 7 7 一些基本定义 Example: Beer } Diaper , Milk {? 2|T| ) Beer Diaper, , Milk (????s 67 .03 2) Diaper , Milk ( ) Beer Diaper, Milk, (?????c ?关联规则?形如 X ? Y的蕴涵式,其中 X 和 Y 是项集。?例如: {Milk, Diaper} ?{Beer} ?关联规则强度的衡量指标?支持度(缩写: s) ?同时包含 X和Y的事务比例?置信度(缩写: c) ? Y 在包含 X的事务中出现的频繁程度。 8 8 怎样进行关联规则挖掘?给定事务集 T, 关联规则挖掘的任务就是寻找满足以下条件的关联规则。?支持度≥ minsup threshold ?置信度≥ minconf threshold ?一种“原始野蛮”的方法:?列出所有的规则?分别计算每条规则的置信度和支持度?剔除未达到 minsup 阈值和 minconf 阈值的规则? Computationally prohibitive !