文档介绍:第10章聚类分析 Cluster Analysis
1 聚类分析问题
2 相似性度量
3 类的描述
4 聚类方法
1 聚类分析的基本问题
1)聚类问题
2)聚类分析的类型
3)对象特征的描述
4)数据的预处理
1) 聚类问题
俗语说,“物以类聚、人以群分”
其含义是:具有类似特性的对象聚集成一类
聚类分析(Cluster Analysis)是研究“物以类聚”的一种多元统计分析方法。
分类学是人类认识世界的基础科学,在实际问题中经常需要分类:
古生物研究中,通过挖掘出来的一些骨骼的形状和大小将它们进行科学的分类;
地址勘探中,通过矿石标本的物探、化探指标要将样本进行分类;
1) 聚类问题
随着人们对自然、社会问题研究的不断深入,对分类的技术要求越来越高,仅凭专业知识和经验已经不能满足要求,促使人们研究更为精确的数值分类方法,多元统计分析方法被引入到分类中来,于是从数值分类学逐渐分离出一个新的分支:聚类分析。
聚类分析研究的目的
将相似的对象归并成类。
聚类分析研究的主要内容
如何度量相似性;如何构造聚类方法。
1) 聚类问题
聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类。
分类:用已知类别的样本训练集来设计分类器(监督学习)
聚类(集群):事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习)
分类与聚类的区别
1) 聚类问题
自然条件?-降水、土地、日照、湿度等特性。
发展水平?-收入、教育水准、医疗条件、基础设施等指标。
如:要将中国的县划分成若干类型,如何分?
需要考虑以下问题
1)用什么来描述对象“县”的特性?对象的特征描述问题
既可以用某一项来分类,也可以同时考虑多项指标来分类。
2)如何度量两个县类似或者相似的程度?相似度描述问题
3)类似到什么程度两个县可以聚到同一类?成类准则问题
4)如何聚类?聚类策略与方法问题
1) 聚类问题
如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。
如果还知道他们的语文成绩,这样数学和语文成绩就形成二维平面上的100个点。
100
88
75
60
0
优
良
中
差
100
0
数学
语
文
100
数学+语文≥120 合格
规定
1) 聚类问题
例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。
应聘者
1
2
3
4
5
6
7
8
9
10
X
28
18
11
21
26
20
16
14
24
22
Y
29
23
22
23
29
23
22
23
29
27
Z
28
18
16
22
26
22
22
24
24
24
聚类分析要解决的问题
需要考虑以下问题
2)相似度描述问题
3)成类准则问题
4)聚类策略与方法问题
1)对象的特征描述问题
2)聚类分析的类型
Q型聚类:对样本的聚类
R型聚类:对变量的聚类
对于一组对象,人们既可以对描述对象的变量(指标)进行分类(相当于对数据中的列分类),也可以对所有对象的观测值(样品)来分类(相当于对数据中的行分类)。
两种聚类分析的过程是类似的,这里只介绍Q型聚类分析。
如给定学生成绩数据,可以按照各科的成绩对学生(样本)进行分类,也可以按照各科的成绩对学科(变量)进行分类,如分成理科或文科。