文档介绍:z
§1 聚类分析
将认识对象进展分类是人类认识世界的一种重要方法,比方有关世界的时间进程的究,就形成了历史学,也有关世界空间地域的研究,则形成了地理学。又如在生物学中,为了研究生物的演变,需要对生物进展分类,生物学家根据各种生物的特征悬殊时,建议首先进展数据的标准化处理,然后再计
算距离。在采用Minkowski 距离时,还应尽可能地防止变量的多重相关性
〔multicollinearity〕。多重相关性所造成的信息重叠,会片面强调*些变量的重要性。
由于Minkowski 距离的这些缺点,一种改良的距离就是马氏距离,定义如下
马氏〔Mahalanobis〕距离
(4)
其中*, y为来自p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵,实际中Σ往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。
z
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
类与类间的相似性度量
如果有两个样本类1 G 和2 G ,我们可以用下面的一系列方法度量它们间的距离:
最短距离法〔nearest neighbor or single linkage method〕
(5)
它的直观意义为两个类中最近两点间的距离。
最长距离法〔farthest neighbor or plete linkage method〕
(6)
它的直观意义为两个类中最远两点间的距离。
重心法〔centroid method〕
(7)
其中*, y 分别为1 2 G,G 的重心。
类平均法〔group average method〕
(8)
它等于中两两样本点距离的平均,式中分别为中的样本点个数。
5〕离差平方和法〔sum of squares method〕
假设记
其中
则定义
z
(9)
事实上,假设部点与点距离很小,则它们能很好地各自聚为一类,并且这两类
又能够充分别离〔即很大〕,这时必然有很大。因此,按定义可
以认为,两类之间的距离很大。离差平方和法最初是由Ward 在1936 年提出,后经Orloci 等人1976 年开展起来的,故又称为Ward 方法。
系统聚类法
系统聚类法的功能与特点
系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。
例如,在平面上有7 个点1 2 7 w ,w ,􀀢,w 〔如图1〔a〕〕,可以用聚类图〔如图1〔b〕〕
来表示聚类结果。
图1 聚类方法示意图
记聚类结果如下:当距离值为5 时,分为一类
距离值为分为两类:
距离值为分为三类:
;
距离值为分为六类:
距离小于分为七类,每一个点自成一类。
:设
1)计算n个样本点两两之间的距离,记为矩阵;
2〕首先构造n 个类,每一个类中只包含一个样本点,每一类的平台高度均为零;
3〕合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高
度