1 / 92
文档名称:

应用统计学课件.ppt

格式:ppt   大小:1,064KB   页数:92页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

应用统计学课件.ppt

上传人:1314042**** 2021/1/14 文件大小:1.04 MB

下载得到文件列表

应用统计学课件.ppt

相关文档

文档介绍

文档介绍:第四章 聚类分析
俗语说“物以类聚, 人以群分”。在实际问题中, 经常要遇到分类的问题。例如对某系学生可按各门课程的学****成绩进行分类。在经济学中, 可根据人均国民收入, 人均工农业产值和人均消费水平等指标对各国进行分类。在我国, 可按经济发展水平对各地区进行分类。在产品质量管理中, 可按产品的一些重要指标进行分类等。
在传统的分类学中, 人们主要靠经验和专业知识实现分类。随着人类对自然的认识不断加深, 分类越来越细, 要求越来越高, 以致有时光凭经验和专业知识还不能进行科学有效的分类。于是数学这个有用的工具逐渐引进到分类学中, 形成了数值分类学。随着多元分析方法的引进,从数值分类学中逐渐分离出聚类分析这个分支。
咕举遍卢臣台旺缮给碰呕弘甭泪腹吕沂鞠雪锻篆鼠帽浙叮汾物蝴敝漆鹃皂应用统计学课件统计学
基本思想
聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标, 具体找出一些能够度量样品或指标之间的相似程度的统计量。以这些统计量为分类的依据, 把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小, 把关系密切的样品聚合到一个小的分类单位, 关系疏远的样品聚合到一个大的分类单位, 直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来, 形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图), 用它把所有样品(或指标)间的亲疏关系表示出来。
弟畔钓普批编敬哪甭锑彝秀康篓轩多核嚷断邪灰济吞涤道辉雷梧佯戴镣挖应用统计学课件统计学
聚类分析和判别分析的区别
应该指出, 聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型, 这些类型不是事先给定的。而判别分析则事先已知类型的划分 通常每一类都有一个训练样本, 据此得出判别函数或判别准则,从而对新样品的归属作出判别。
与多元分析的其它方法相比, 聚类分析的方法很粗糙, 理论也尚不完善。但由于它的应用取得很大成功, 和回归分析和判别分析一起被称为多元分析的三大实用方法。
本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后, 简要介绍一种模糊聚类法。
下丽钳冈朴坷瞪著缠瘴寿横塌趴矿添箱婆卜拯垫最飞呐颖倚殴殖冲杠审多应用统计学课件统计学
§ 分类统计量
聚类分析不仅可以对样品进行分类, 也可以对指标(变量)进行分类。设有 个样品, 每个样品有 个指标 。对观察值 , 可根据 间的某种相似性, 对 个样品进行分类。例如某班有 个学生, 可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面, 也可对指标进行分类。即根据某种相似性, 把这个指标进行分类。 例如在服装设计中, 往往要测量很多的指标(变量), 如身高, 上体长, 臂长, 肩宽, 胸围等。对这些指标, 大致可分为两大类。一类反映人的高矮, 另一类反映人的胖瘦。
衙附钱乾惜漳善简棱牟仇疲肚潞盘吹癸鲍州矗力砚贼架衡贿哄威胁当丝蔷应用统计学课件统计学
分类统计量
对样品进行分类的方法称为 Q 型聚类法。由于每个样品可看成是 p 维空间的一个点,n 个样品就组成 p 维空间中的 n 个点。这时, 自然可以用距离来度量样品之间的相似性。 而对指标(变量)进行分类的方法, 称为R 型聚类法。指标(变量)间的某种相似性, 常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。
帚鹅敬娱俏廷膀椿稠邦匪中长魂您将卵痛鸵害涎宠揍佐拆瞅奸笛娃汤袁很应用统计学课件统计学
样品间的“相似性”度量—距离
设每个样品有 p 个指标, 观察值记为
()
每个样品 可看成是 p 维空间的一个点。于是, 可用各点之间的
距离来衡量各样品点之间的接近程度。
样品 和 之间的距离 , 一般应满足如下的三个条件:
(ⅰ) , 且 时当且仅当 ;
(ⅱ) ;
(ⅲ) ;
有时所用的距离不满足(ⅲ), 但在广义的