1 / 264
文档名称:

第四章 聚类分析.ppt

格式:ppt   大小:3,873KB   页数:264页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四章 聚类分析.ppt

上传人:zxwziyou9 2022/8/9 文件大小:3.78 MB

下载得到文件列表

第四章 聚类分析.ppt

相关文档

文档介绍

文档介绍:第4章 聚类分析
要点
聚类分析的基本思想
推荐阅读
应用实例及SPSS实现
聚类统计量
系统聚类法
返回
第4章 聚类分析
学****目的和要求:
通过本变量聚类的实例,如:衣服型号就是根据人体各部分尺寸数据找出最有代表性的指标如身长、胸围和裤长、腰围作为上衣和裤子的代表性指标。变量聚类使批量生产成为可能。
R 型聚类是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。
更多的应用是将样品(个体)分类——Q型聚类分析。
如解剖学上依据骨骼的形状和大小等,不仅可以区别样品是人还是猿,还可以区别性别、年龄等 。
聚类分析的对象类型
Q型聚类
Q 型聚类是对样品进行分类,即对观测进行分类。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种。
这两种聚类在数学上是对称的,没有什么不同。
本章主要讨论Q型聚类分析问题。
聚类分析的对象类型
聚类分析的基本思想
返回
引 例
聚类分析的基本思想
聚类的方法
聚类分析的基本思想
聚类分析的对象类型
聚类分析的基本思想
聚类分析的基本思想
我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是:
(1)根据一批样品的多个观测指标,具体找出一些能够度量样品或变量(指标)之间相似程度的统计量;
(2)以这些统计量为划分类型的依据,建立一种分类方法,将一批样品或变量(指标),按照它们在性质上的亲疏、相似程度进行分类。
与多元分析的其它方法比,聚类分析方法较为粗糙,理论上还不够完善,但应用方便、广泛,与回归分析、判别分析一起被称为多元分析的三大方法。受到人们的青睐。
聚类分析的基本思想
聚类分析的基本思想
返回
引 例
聚类分析的基本思想
聚类的方法
聚类的方法
聚类分析的对象类型
1、系统聚类法(谱系聚类):先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。
2、动态聚类法(调优法):开始将n个元素粗糙地分成若干类,然后用某种最优准则(如分类函数尽可能小的原则)对已分类别进行调整,直到分类合理为止。
3、有序样品的聚类:n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。
4、分解法:其程序与系统聚类相反。首先所有的元素均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各自试图分裂为2类,从中选1个使目标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类方法,因聚类形式(即距离的定义方法)不同而有不同的停止规则。
其他还有加入法、图论聚类、模糊聚类等。
聚类的方法
聚类的方法
聚类统计量
返回
聚类分析的数据格式
数据的变换处理
聚类统计量
变量测量尺度的类型
聚类统计量
返回
聚类分析的数据格式
数据的变换处理
聚类统计量
聚类分析的数据格式
变量测量尺度的类型
n个样品p项指标形成的原始数据资料矩阵中,每一行表示一个样品,每一列表示一个变量, Xij表示第i个样品的第j个变量的值 。因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。
聚类分析的数据格式
聚类分析的数据格式
设有n个样品单位,每个样品测得 p 项指标(变量),原始资料阵为:
聚类分析的数据格式
聚类分析的数据格式
个指标的观测数据。第 i 个样品 X i 为矩阵 X 的第i行所描述,所以任何两个样品Xk与XL之间的相似性,可以通过矩阵X中的第K行与第 L 行的相似程度来刻划;任何两个变量xk与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。
其中