1 / 46
文档名称:

数据挖掘基础课件.pptx

格式:pptx   大小:3,786KB   页数:46页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘基础课件.pptx

上传人:1017848967 2021/4/10 文件大小:3.70 MB

下载得到文件列表

数据挖掘基础课件.pptx

相关文档

文档介绍

文档介绍:大数据应用人才培养系列教材
数据挖掘基础
刘 鹏 张 燕 总主编
陶建辉 主编 姜才康 副主编
第三章 聚类
 聚类概述
 聚合分析方法
 聚类在实际场景中的应用案例
 聚类的实现例子<br****题
大数据应用人才培养系列教材
 聚类概述
聚类概述
第三章 聚类
聚类的过程
把相似数据归并到一类的过程,形成同类对象具有共同特征, 不同类对象之间的有显著区别,直到所有数据的归类都完成。
特征性描述:对象的共同特征
区别性描述:不同类对象之间的区别
概念描述:特征性描述和区别性描述
聚类概述
第三章 聚类
聚类的目的
通过数据间的相似性把数据归类,并根据数据的概念描述,来制定对应的策略。
电商例子
在电子商务领域,电商可以对有相似浏览行为的客户进行归类,从而找出他们的共同特征,达到充分理解客户需求的目的,并提供相适应的客户服务。
聚类概述
第三章 聚类
聚类技术
主要包括传统的模式识别方法和数学分类学
聚类的评价标准
Purity
RI
聚类概述
第三章 聚类
Purity
Ω = {ω₁,ω₂, . . . , ωk}是聚类(cluster)的集合,ωk表示第k个聚类的集合;
C = {c₁, c₂, . . . , cj}是数据对象类型(class)的集合,cj表示第j个数据对象类型集;
N表示数据对象总数。
聚类概述
第三章 聚类
Purity例子
对象类型(class) 包括x , o , □
N=17
purity=(5+4+3)/N=12/17≈
purity是简单透明的方法,它的取值在0—1之间,数值越大,表示聚类效果越好。
聚类概述
第三章 聚类
RI
TP:计算每个聚类中同类对象归类到同一类的组合次数,并累计所有的结果
TN:计算每个不同类对象归类到不同类的组合次数,并累计所有的结果
FP:计算每个聚类中不同类对象归类到同一类的组合次数,并累计所有的结果
FN:计算每个同类对象归类到不同类的组合次数,并累计所有的结果
聚类概述
第三章 聚类
RI例子
C(n,m)=在m中任选n个的组合数
Cluster1: TP= C(2,5)=10
Cluster2: TP= C(2,4)=6
Cluster3: TP= C(2,3)+ C(2,2)=4
TP=10+6+4=20
TP+FP= C(2,6)+ C(2,6)+ C(2,5)=15+15+10=40
FP= TP+FP - TP =20
x: FN= 5+5+5+2=15
o: FN= 4
□: FN= 3
FN=15+4+3=24
TN+FN= C(1,6)* C(1,6)+ C(1,6)* C(1,5)+ C(1,6)* C(1,5)=36+30+30=96
TN= TN+FN - FN =96-24=72
RI=(TP+TN)/(TP+FP+FN+TN)=(20+72)/(40+96)=92/136≈
聚类概述
第三章 聚类
聚类算法
层次聚类算法(Hierarchical Methods)
划分聚类算法(Partitioning Methods)
基于密度的聚类算法(Density-based Methods)
基于网格的聚类算法(Grid-based Methods)
基于模型的聚类算法(Model-Based Methods)