文档介绍:1
经济预测与决策Economic Forecast and Decision Making
主讲:徐瑞
E-mail: xurui218@
2
第八章聚类分析
第1节聚类分析的原理
第2节层次聚类
第3节 K-Means聚类
教学时数:4
3
第1节聚类分析的原理
一、聚类分析的概念
1、仅仅依靠经验和专业知识常常不能进行确切的分类,有必要引入数学(统计)方法进行分类,就形成了数值分类法。数值分类一般有两种:
(1)已知研究对象的分类情况,需将某些个体正确地归于其中一类,这是一种有师分类,称为判别分析。
(2)研究对象不存在事前分类,将数据进行确切分类,这是一种无师分类,称为聚类分析。
4
2、聚类分析(Cluster Analysis):从研究对象的数量特征出发,在没有先验知识的情况下,按照性质上的亲疏程度(相似性)对个案(Case,个体或样品)或变量进行分类。
(1)聚类分析的基本思想:根据研究对象之间的相关程度进行类别的聚合。
(2)聚类分析的原则:同一类中的个体的相似性最大化,不同类中的个体差异性最大化。
5
例1:下表为同一批客户对经常光顾的五座商厦在购物环境和服务质量两方面的评分,现希望根据这些数据将五座商厦进行分类。
商厦的客户评分数据
购物环境
服务质量
A商厦
73
68
B商厦
66
64
C商厦
84
82
D商厦
91
88
E商厦
94
90
6
如果将它们分为两类,则A和B商厦是一类,C商厦、D商厦和E商厦是一类。
如果将它们分为三类,则A和B商厦是一类,C商厦是一类,D商厦和E商厦是一类。
二、聚类分析中“亲疏程度”的度量方法
1、对亲疏程度的测度一般有两个角度:
(1)个体间的相似程度:通常用简单相关系数或等级相关系数等度量。
(2)个体间的差异程度:通常用某种距离来衡量。
7
为定义个体间的距离,应先将个案数据看成k维空间上的点,基于此定义某种距离,度量彼此间的亲疏程度。
通常,点与点之间的距离越小,意味着它们越“亲密”,越有可能聚成一类;点与点之间的距离越大,意味着它们越“疏远”,越有可能分属不同的类。
个体间的距离会受变量类型的影响。
8
2、间隔尺度变量个体间距离的计算方式:欧式距离最常用。
(1)欧式距离(Euclidean distance):两个体k个对应变量值之差的平方和的平方根。
例如,A商厦和B商厦间的欧式距离为:
9
(2)平方欧式距离:两个体k个对应变量值之差的平方和。
例如,A商厦和B商厦间的平方欧式距离为
(3)切贝雪夫距离:两个体k个对应变量值之差绝对值的最大值。
10
例如,A商厦和B商厦间的切贝雪夫距离为
(4)Block距离:两个体k个对应变量值之差绝对值的总和,也称为绝对值距离。
例如,A商厦和B商厦间的Block距离为