文档名称：

系统聚类分析.doc

格式：doc 大小：121KB 页数：5页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

系统聚类分析.doc

上传人:brnpnu31 2021/11/29 文件大小：121 KB

下载得到文件列表

系统聚类分析.doc

相关文档

文档介绍

文档介绍：精品文档，仅供学习与交流，如有侵权请联系网站删除
【精品文档】第 2 页
聚类分析
聚类分析是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析等。
聚类分析的基本概念
聚类分析是研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。它把分类对象按一定规则分成若干类，这些类非事先给定的，而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中趋向于不相似。它职能是建立一种能按照样品或变量的相似程度进行分类的方法。
聚类分析的基本思想是认为我们所研究的样本或指标（变量）之间存在着程度不同的相似性（亲疏关系）。于是根据一批样本的多个观测指标，具体找出一些彼此之间相似程度较大的样本（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样本（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有样本（或指标）都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图，用它把所有样本（或指标）间的亲疏关系表示出来。这种方法是最常用的、最基本的一种，称为系统聚类分析。
聚类分析有两种：一种是对样本的分类，称为Q型，另一种是对变量（指标）的分类，称为R型。
聚类分析给人们提供了丰富多彩的方法进行分类，这些方法大致可以归纳为：
（1）系统聚类法。首先将n个也样品看成n类（一个类包含一个样品），然后将性质最接近的两类合并成一个新类，我们得到n-1类，再从中找出最接近的两类加以合并成了n-2类，如此下去，最后所有的样品均在一类，将上述并类过程画成一张图（称为聚类图）便可决定分多少类，每类各有什么样品。
（2）模糊聚类法。将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定型变量的分类。
（3）K—均值法。K—均值法是一种非谱系聚类法，它是把样品聚集成k个类的集合。类的个数k可以预先给定或者在聚类过程中确定。该方法可用于比系统聚类法大得多的数据组。
精品文档，仅供学习与交流，如有侵权请联系网站删除
【精品文档】第 2 页
系统聚类分析
一、距离和相似系数
为了对样品进行分类，需要研究样品之间的关系，而目前用得最多的方法是：
：根据相似系数把相似的样品归为一类，不怎么相似的系数归为不同的类。性质接近的样品，它们相似系数的绝对值越接近于1，而彼此五官的样品，它们的相似系数接近于0。
：将所有的样本（有P项指标表示）看作P维空间中的点，距离越接近的点归为一类，距离较远的点归为不同的类。
由于指标数据表示不同的度量，有的是表示数量的定量数据，有的是表示排序的顺序数据，而有的是表示类别的定性数据。这里讨论定量数据的距离和相似系数。
⒈距离
每个样本有p个指标，因此每个样本可以看成p维空间中的一个点，n个样本就组成p维空间中的n个点，这时很自然想到用距离来度量n个样本间的接近程度。
用表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件：
对于一切，
等价于样品和样品的指标相同
对于一切，
对于一切，，
常见的距离有：
绝对值距离：
欧式距离：
精品文档，仅供学习与交流，如有侵权请联系