1 / 124
文档名称:

第5聚类分析.ppt

格式:ppt   大小:11,208KB   页数:124页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第5聚类分析.ppt

上传人:太丑很想放照片 2022/5/10 文件大小:10.95 MB

下载得到文件列表

第5聚类分析.ppt

文档介绍

文档介绍:但历史上这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系;特别是对于多因素、多指标的分类问题,定性分类的准确性不好把握。为了克服定性分类存在的不足,人们把数学方法引入分
对数变换可将具有指数特征的数据结构化为线性数据结构。显然,对数变换要求原始数据均大于零。
第十页,共一百二十四页。
三、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析,常用距离来测度样品之间的相似程度。每个样品有p个指标(变量)从不同方面描述其性质,形成一个 p维向量。如果把 n个样品看成 p维空间中的 n个点, 则两个样品间相似程度就可用 p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义,无论用什么方法定义距离,都必须遵循一定的规则。
(一)定义距离的准则
令 dij 表示样品 Xi与 Xj 的距离,则一般地 dij 应满足如下四个基本条件:
第十一页,共一百二十四页。
如果所定义的距离只满足条件(1)~(3),而不满足条件(4),则称此距离为广义距离。

(二)常用距离的算法
令 dij 表示样品 Xi与 Xj 的距离,则一般地 dij 存在以下的距离公式。
1.明考夫斯基距离
()
明考夫斯基距离简称明氏距离,按的取值不同又可分成:
第十二页,共一百二十四页。
第十三页,共一百二十四页。
欧氏距离是常用的距离,大家都比较熟悉,但是前面已经提到,在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。
第十四页,共一百二十四页。
2.马氏距离
设 Xi 与 Xj 是来自均值向量为 ,协方差阵为∑ (>0)的总体G 中的 p 维样品,则两个样品间的马氏距离为
()

马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。
第十五页,共一百二十四页。
3.兰氏距离
()
它由兰斯(Lance)和威廉姆斯(Williams)提出,仅适用于一切 Xij > 0 的情况。这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。
第十六页,共一百二十四页。
4.距离选择的原则
一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响且考虑指标相关性的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分析。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚

最近更新

2024年湖南长沙市政务服务中心招聘3人历年高频.. 60页

2024年甘肃省漳县事业单位招聘65人历年高频难.. 59页

2024年石狮市公开招聘事业单位卫生人员历年高.. 61页

2024年福建省光泽县事业单位招聘48人历年高频.. 60页

2024年福建福州新区仓山功能区管委会招聘2人历.. 58页

2024年自治区疾病预制中心修改历年高频难、易.. 89页

2024年贵州六盘水市引进人才1489人历年高频难.. 62页

及答案1套 117页

2023年南通市海安县事业单位招聘68人高频考点.. 277页

2023年天津市滨海新区茶淀街道桥沽村(社区工.. 283页

2023年重庆市渝北区兴隆镇龙寨村(社区工作人.. 279页

2024吉林省吉林市运输管理处事业单位招聘历年.. 281页

2023年海南省海口美兰区城镇内河(湖)水环境综.. 278页

2024吉林长春市南关区人民陪审员招聘240人历年.. 280页

2024年内蒙古通辽市科尔沁区事业单位卫生健康.. 278页

2023云南曲靖沾益区招聘事业单位人员高频考点.. 278页

2023国网南瑞集团春季招聘100人高频考点题库(.. 279页

2023年吉林图们市事业单位招聘(159人)高频考.. 288页

2023年四川省内江市威远县东联镇李家坪村(社.. 278页

2023年四川省泸州市江阳区通滩镇金雨滩村(社.. 278页

2023年山东省潍坊市高密市醴泉街道赫家庄村(.. 276页

2023年山西省晋城市陵川县马圪当乡卧佛庄村(.. 276页

铸石粉生产工艺 29页

个人征信报告模板(2023年) 7页

教练技术三阶段讲义全 62页

全等三角形证明过程步骤练习(共5页) 5页

新技术、新项目准入申报标准表格 4页

新版医疗器械管理制度零售单体药店 19页

雨后小故事1动态图下载 1页

真实的春天 67页