1 / 5
文档名称:

多元统计论文聚类分析论文.doc

格式:doc   大小:46KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

多元统计论文聚类分析论文.doc

上传人:aibuaiwo1318 2018/2/23 文件大小:46 KB

下载得到文件列表

多元统计论文聚类分析论文.doc

文档介绍

文档介绍:多元统计论文聚类分析论文:浅析聚类分析法
【摘要】多元统计是研究多个随机变量之间相互依赖关系以及内在规律性的一门统计学科。
【关键词】多元统计;聚类分析
【中图分类号】【文章标识码】b 【文章编号】1326-3587(2011)07-0004-02
聚类分析是多元统计中研究“物以类聚”的一种方法。在经济、社会、人口等诸多方面的研究中,都需要采用聚类分析作分析研究。过去人们主要靠经验做定性分类处理,很少利用数学方法和原理。所以许多的分类往往带有主观性和任意性,不能解释客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题。
聚类分析正处于发展阶段,理论上虽然不很完善,但由于它能够解决许多实际问题,所以现在越来越来多的收到人们的重视。
一、聚类分析的基本思想
聚类分析方法认为,在所研究的统计总体中,各样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),因此可以根据一批样品的多个观测指标,找到一些能够度量其相似程度的统计量,并根据这些统计量事物的分来进行分类。
二、聚类分析的基本概念
(1)分类。
1、按照其聚类的方法可以分为以下几种:
系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度。
调优类(动态聚类法):对n个对象初步分类,然后根据分类的损失函数尽可能小的原则对其进行调整,直到分类合理为止。
最有分割法:先将n个对象看成一类,然后根据某种最有准则将它们分割为二类、三类,分割到合理的k类为止。
还有模糊聚类法,图论聚类法和聚类预报法。
2、按照对象的不同可以分为q型聚类和r型聚类。其中q型聚类是根据样品进行的分类处理,而r型聚类,则是根据变量。
(2)测量尺度:距离和相似系数。
距离和相似系数,是聚类时用来度量其接近或相似程度的统计量。通常的方法,是根据统计研究对象的特点,设置一些指标并采集一些样品,如选用n个样品,p个指标,则可得到一个n*p的数据矩阵。
矩阵的意义,可认为是p维空间中的n个点,他们分别代表代表具有p个特性和n个样品。通常可以这样理解,具有共同特性的样品在空间上的距离较近或具有较高的相似性,且它们可以用距离或相系系数去具体刻画。聚类,是根据样品聚类时,用来刻画其“靠近”程度的;相似系数是根据指标聚类时,用类刻画其相似性或相关性的。
(1)距离,用表示第i个样品与第j个样品之间的距离。最常见,最直观的距离有绝对值距离和欧氏距离,即:
绝对值距离
欧氏距离两者可以统一为“闵科夫斯基距离(minkowki)”:
在刻画距离时,数据的标准化处理往往是必要的。
还有兰氏距离,马氏距离,斜交空间距离等。
(2)相似系数,用表示第i个指标与第j个指标间的相似系数,其值从0到1,表示从疏远到密切的程度,常用的相似系数,有夹角余弦和相关系数,即:
它是指标向量之间的夹角余弦,可以证明, =1- 关系式成立。
三、聚类过程
以对指标聚类(r型聚类)为例,其聚类过程为:
(1)取=1,把每个指标各作一类,m个指标有m类。
(2)取=max{ },将具有相同的指标归并为一新类,如n={ }。
(3)构造新的m-1阶