文档介绍:Chapter 8. 聚类分析
什么是聚类分析?
聚类分析中的数据类型
主要聚类分析方法分类
划分方法(Partitioning Methods)
分层方法
基于密度的方法
基于表格的方法
基于模型(Model-Based)的聚类方法
异常分析
总结
2017/11/10
1
Data Mining: Concepts and Techniques
什么是聚类分析?
簇(Cluster):一个数据对象的集合
在同一个类中,对象之间0具有相似性;
不同类的对象之间是相异的。
聚类分析
把一个给定的数据对象集合分成不同的簇;
聚类是一种无监督分类法: 没有预先指定的类别;
典型的应用
作为一个独立的分析工具,用于了解数据的分布;
作为其它算法的一个数据预处理步骤;
聚类的常规应用
模式识别
空间数据分析
在GIS中,通过聚类发现特征空间来建立主题索引;
在空间数据挖掘中,检测并解释空间中的簇;
图象处理
经济学(尤其是市场研究方面)
数据来发现相似的访问模式
2017/11/10
3
Data Mining: Concepts and Techniques
应用聚类分析的例子
市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;
土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区;
保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;
城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅;
地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;
2017/11/10
4
Data Mining: Concepts and Techniques
什么是一个好的聚类方法?
一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点:
高的簇内相似性
低的簇间相似性
聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;
聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;
2017/11/10
5
Data Mining: Concepts and Techniques
Requirements of Clustering in Data Mining
可伸缩性
能够处理不同类型的属性
能发现任意形状的簇
在决定输入参数的时候,尽量不需要特定的领域知识;
能够处理噪声和异常
对输入数据对象的顺序不敏感
能处理高维数据
能产生一个好的、能满足用户指定约束的聚类结果
结果是可解释的、可理解的和可用的
2017/11/10
6
Data Mining: Concepts and Techniques
Chapter 8. Cluster Analysis
什么是聚类分析?
聚类分析中的数据类型
主要聚类分析方法分类
划分方法(Partitioning Methods)
分层方法
基于密度的方法
基于表格的方法
基于模型(Model-Based)的聚类方法
异常分析
总结
2017/11/10
7
Data Mining: Concepts and Techniques
两种数据结构
数据矩阵
(two modes)
差异度矩阵
(one mode)
2017/11/10
8
Data Mining: Concepts and Techniques
评价聚类质量
差异度/相似度矩阵: 相似度通常用距离函数来表示;
有一个单独的质量评估函数来评判一个簇的好坏;
对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论;
根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系;
很难定义“足够相似了”或者“足够好了”
只能凭主观确定;
2017/11/10
9
Data Mining: Concepts and Techniques
聚类分析中的数据类型
区间标度变量(Interval-scaled variables):
二元变量(Binary variables):
标称型,序数型和比例型变量(Nominal, ordinal, and ratio variables):
混合类型变量(Variables of mixed types):
2017/11/10
10
Data Mining: Concepts and Techniques