1 / 58
文档名称:

聚类分析 (2)2.ppt

格式:ppt   大小:4,164KB   页数:58页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析 (2)2.ppt

上传人:石角利妹 2022/4/17 文件大小:4.07 MB

下载得到文件列表

聚类分析 (2)2.ppt

相关文档

文档介绍

文档介绍:聚类分析
*
本讲稿第一页,共五十八页
引言
地质学中有很多分类研究的问题,如沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分类等是一些直接分类的例子;油气资源评价、油源对比等研究中也有分类;地层划分属于另一种分ij]m×m 。其中: rij =rji , rii=1。rij越接近1,Xi与Xj的相似程度越大。
*
本讲稿第十三页,共五十八页
(6-5)
相关系数
矢量Xi与Xj的相关系数为:
形成相关系数矩阵[rij]m×m 。其中: rij =rji , rii=1。rij越接近1,Xi与Xj的相关程度越大。
*
本讲稿第十四页,共五十八页
在n 维直角坐标系中,2个点间的距离为:
(6-6)
距离系数
形成距离系数矩阵[dij]m×m 。dij =dji , dii=0。dij越接近0,Xi与Xj的性质越相近。
*
本讲稿第十五页,共五十八页
仅介绍分解法中的最优分割法。
n个样品m个变量的观测值构成一个数据矩阵:
分类
对象
这里的Xn×m是数据序列(数据的排列顺序不能改变)。
此处分类是指按行把数据序列分割开多个段。

*
本讲稿第十六页,共五十八页
第1段
第2段
第k段


对Xn×m的最优分割是指把Xn×m 分段后,各段内数据的离差平方和最小(各段内样品的差异最小),而各段间数据的离差平方和最大(各段之间样品的差异最大)。
如果把Xn×m分成k段(组),每段内有nl (l = 1, 2,…,k)个样品,分段结果记为:
*
本讲稿第十七页,共五十八页
总离差平方和: (常数)
把Xn×m分为k段有很多种可能的分法。对于其中的任何一种分法,都有:
段内离差平方和:
(6-7)
段间离差平方和:
*
本讲稿第十八页,共五十八页
为样品的总数;
xlj(i)为第l 段内第j个样品第 i个变量的观测值;
为第i个变量n个观测值的平均值。
其中:
为第l 段内第 i个变量nl 个观测值的平均值;
*
本讲稿第十九页,共五十八页
对于给定的数据来说,S是个常数,S1最小,S2必然最大。因此可将段内离差平方和
可以证明:
一个地质数据序列分段后满足段内离差平方和最小,则称相应的分法为最优分割。
做为分解法聚类分析的聚类统计量。
*
本讲稿第二十页,共五十八页
聚 合 法
分 解 法
相似系数
段内离差平方和
相关系数
段间离差平方和
距离系数
总离差平方和
表6-1 常用聚类分析统计量
*
本讲稿第二十一页,共五十八页
§2 聚合法聚类分析
聚合法聚类是将类由多变少、直到把全部个体合并成一类的聚类方法。它是目前对个体进行聚类的常用方法。聚类过程大致如下:
(1)原始类,即聚类以前的个体各自成类;
(2)第1级聚类,以某种统计量计算各个体间的亲疏程度,把关系密切的对象合并成1类,并构造成一个代表性个体,做为新的个体参加下一级聚类;
多个个体组成的小类
*
本讲稿第二十二页,共五十八页
(4) 按上述方法进行第3级聚类、第4级聚类、…,直到全部个体合并为1类为止。
(3) 第2级聚类,再计算个体间的亲疏程度,把关系密切的个体合并为1类(可能是个体与个体或个体与上一级已聚成的小类合并),并又构造一个代表该类的代表性个体参加下一级聚类;
在上述聚类过程中,需要不断地计算个体与个体、个体与类、类与类间的亲疏程度,下面介绍计算它们之间亲疏程度的递推公式和聚类过程。
*
本讲稿第二十三页,共五十八页
对于n维(样品点)或m维(变量点)空间的2个点来说,其距离在概念上是明确的(点间线段的长度)。但2类间的距离就有不同的定义,既可定义为2类中相距最近2点之间的距离,又可定义为2类中相距最远2点之间的距离,还可以取2类的重心距离等。
一、距离类统计量聚合法
由于距离的定义不同,因此也就产生了不同的聚合法。下面介绍四种距离度量下的聚合法。
*
本讲稿第二十四页,共五十八页

(1) 最短距离
如图,定义p类和q类间的最短距离为:
(6-8)
dij是p、q类中任意2个样品Xi与Xj之间的距离。用最短距离进行的聚合聚类叫做最短距离法。
最短距离
最长距离
图6-2 类间距离
A
B
C
D
p类
q类
聚类过程中不可避免要涉及到合并成的类与另一个类之间最短距离的计算。
*
本讲稿第二十五页,共五十八页
图6-3 类r与类f的最短距离
如果p类