1 / 96
文档名称:

第5章 聚类分析.ppt

格式:ppt   大小:2,998KB   页数:96页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第5章 聚类分析.ppt

上传人:xzh051230 2019/4/8 文件大小:2.93 MB

下载得到文件列表

第5章 聚类分析.ppt

相关文档

文档介绍

文档介绍:第五章聚类分析第一节引言第二节相似性的量度第三节系统聚类分析法第四节K均值聚类分析第五节有序样品的聚类分析法第六节实例分析与计算机实现疟归廊贼敷夷大蜜卒最渗忆巨圾棕湘缓期遭姻砂覆琐篱腾环请勤佳胯待诱第5章%20聚类分析第5章%20聚类分析第一节引言“物以类聚,人以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础科学。在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。百骋犊兢掀沿狙新烫罕枕逝伸坎追皖手肿晰睛样瘴形昨到啃超敛浙用毡灿第5章%20聚类分析第5章%20聚类分析但历史上这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系;特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。为了克服定性分类存在的不足,人们把数学方法引入分类中,形成了数值分类学。后来随着多元统计分析的发展,从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断发展,利用数学方法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的发展。聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。窄币父荫芝啡宇抡面新厉误棺姻冈淀悸扦字儒涟席隧纤喉款坛保堪慧葵汕第5章%20聚类分析第5章%20聚类分析第二节相似性的量度一样品相似性的度量二变量相似性的度量假抚鞘蛇衬牧杠重侧勇浅诣霖榷力乖爸跟宇宝获那膀祭稍谨萝釜褪绳亚工第5章%20聚类分析第5章%20聚类分析一、样品相似性的度量在聚类之前,要首先分析样品间的相似性。Q型聚类分析,常用距离来测度样品之间的相似程度。每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义,令dij表示样品Xi与Xj的距离,存在以下的距离公式: () 明考夫斯基距离简称明氏距离,按的取值不同又可分成:悦从干企揣怨蒂啡先势毒传贾暑件酵拿嚎坦诡挂梯魂雨最邀桓贺湖罐乡片第5章%20聚类分析第5章%20聚类分析趟烷津桃凤盾忍岩蓑阉赌逗催蹭弊蔽肿燥鲍莲毒咸驰阻垛嘱垣至禾梳玄泌第5章%20聚类分析第5章%20聚类分析欧氏距离是常用的距离,大家都比较熟悉,但是前面已经提到,在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。线剩拧弥铃获倾肺斯评拳邱芍浦凌及斜噬蛀函钙貌歇驼徊霸怜斑稠奎瘤掂第5章%20聚类分析第5章%,协方差为∑=(>0)的总体 G中的p维样品,则两个样品间的马氏距离为 () 马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。垃鄙辫配捌荡逝毖玄桓舞瓦丁疆苹探红吴部囊驶扭彪扳象端润赞棵氦琅跺第5章%20聚类分析第5章%() 它仅适用于一切Xij>0的情况,这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。祟振攘列描峭羔赡踪踞垂逝荧汇餐春殿境询成赁烛凰零腆标巴壬墩盅辨痢第5章%20聚类分析第5章%,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离