1 / 31
文档名称:

聚类分析1.docx

格式:docx   大小:293KB   页数:31页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析1.docx

上传人:小雄 2020/1/7 文件大小:293 KB

下载得到文件列表

聚类分析1.docx

相关文档

文档介绍

文档介绍:在实际工作屮,我们经常遇到分类问题,若事先已经建立类别,则使川判别分析,若事先没有建立类别,则使用聚类分析。聚类分析主要是研究在事先没冇分类的情况下,如何将样本归类的方法。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。详见参考文献[1]。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,冇时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来玄•分类,于是数学工貝-逐渐被引进分类学中,形成了数值分类学。后來随曹多元分析的引进,聚类分析乂逐渐从数值分类学屮分离出來而形成一个相对独立的分支。在社会经济领域屮存在着人罐分类问题,比如对我国3()个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市B治区去分析,而较好地做法是选取能反映金业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得岀科学的分析。乂比如若对某些人城市的物价指数进行考察,而物价指数很多,有农用工产物价指数、服务项目价指数、食站消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学丁具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。聚类分析内容非常丰富,冇系统聚类法、冇序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。木章主要介绍常用的系统聚类法。1、聚类分析的基本知识系统聚类法的基本原理:首先将一定数屋的样品(或指标)各口看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度授高的两类合并,如此重复进行,直到所冇的样品都合成一类(即,将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类)。衡量亲疏程度的指标有两类:距离、相似系数。设冇〃个样品,每个样品测得卩项指标(变量),原始资料阵为“2X\2其小七(i=1,…J=1,…,0)为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品Xk与XlZI'可的相似性,可以通过矩阵X屮的第K行与第厶行的相似程度來刻划;任何两个变量—与池之间的相似性,可以通过第K列与第L列的相似程度來刻划。如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用P维空间中两点的距离來度量。令心表示样品Xi与Xj的距离。1常用的距离假设有两个P维样本坷=(兀1】內2,…,兀Ip),X2=(兀21丿22,…,兀2"),欧氏距离d(xl9x2)= /~X2J)2标准化欧氏距离sd(^!,x2)=(%!-x2)£)'1(%!-x2)T这里D表示n个样本的方差矩阵,b/表示第j列的方差。布洛克距离(绝对距离) 风西,兀2)=£|"-切闵夫斯基(Minkowski)距离m(Xj^2)=》兀】$-x空注:当尸1时是布洛克距离(绝对距离);当尸2时是欧氏距离。当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离。闵可夫斯基(Minkowski)距离特別是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。但闵可夫斯基(Minkowski)距离存在不足Z处,主要表面在两个方面:笫一,它与各指标的量纲冇关;第二,它没冇考虑指标Z间的相关性,欧氏距离也不例外。除此Z外,从统计的角度上看,使用欧氏距离要求一个向量的川个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的变差大小也是相同的,这时使用欧氏距离才介适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误结论。因此-个合理的做法,就是对处标加权,这就产生了“统计距离”。比如设P=(xI,x2,---,x/,)r,Q=(y】,〉'2,…,儿)',-凡Q的坐标是固定的,点p的坐标相互独立地变化。用sum,…,Spp表示P个变量小/2,…,©的料次观测的样木方差,则可以定义P到Q的统计距离为:所加的权是k.=—J2二丄,…,心二丄,即用样本方差除相应坐标。当取=儿=・・・=$11 522 Spp儿=0时,就是点P到原点O的距离。若切二$22 时,就是欧氏距离。马氏(Mahalanobis)距离马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为