1 / 5
文档名称:

系统聚类分析.doc

格式:doc   大小:121KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

系统聚类分析.doc

上传人:brnpnu31 2021/11/29 文件大小:121 KB

下载得到文件列表

系统聚类分析.doc

相关文档

文档介绍

文档介绍:精品文档,仅供学****与交流,如有侵权请联系网站删除
【精品文档】第 2 页
聚类分析
聚类分析是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析等。
聚类分析的基本概念
聚类分析是研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。它把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。它职能是建立一种能按照样品或变量的相似程度进行分类的方法。
聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。
聚类分析有两种:一种是对样本的分类,称为Q型,另一种是对变量(指标)的分类,称为R型。
聚类分析给人们提供了丰富多彩的方法进行分类,这些方法大致可以归纳为:
(1)系统聚类法。首先将n个也样品看成n类(一个类包含一个样品),然后将性质最接近的两类合并成一个新类,我们得到n-1类,再从中找出最接近的两类加以合并成了n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有什么样品。
(2)模糊聚类法。将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定型变量的分类。
(3)K—均值法。K—均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k可以预先给定或者在聚类过程中确定。该方法可用于比系统聚类法大得多的数据组。
精品文档,仅供学****与交流,如有侵权请联系网站删除
【精品文档】第 2 页
系统聚类分析
一、距离和相似系数
为了对样品进行分类,需要研究样品之间的关系,而目前用得最多的方法是:
:根据相似系数把相似的样品归为一类,不怎么相似的系数归为不同的类。性质接近的样品,它们相似系数的绝对值越接近于1,而彼此五官的样品,它们的相似系数接近于0。
:将所有的样本(有P项指标表示)看作P维空间中的点,距离越接近的点归为一类,距离较远的点归为不同的类。
由于指标数据表示不同的度量,有的是表示数量的定量数据,有的是表示排序的顺序数据,而有的是表示类别的定性数据。这里讨论定量数据的距离和相似系数。
⒈距离
每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。
用表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件:
对于一切,
等价于样品和样品的指标相同
对于一切,
对于一切,,
常见的距离有:
绝对值距离:
欧式距离:
精品文档,仅供学****与交流,如有侵权请联系