1 / 40
文档名称:

第18章聚类分析.ppt

格式:ppt   页数:40页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第18章聚类分析.ppt

上传人:企业资源 2011/12/12 文件大小:0 KB

下载得到文件列表

第18章聚类分析.ppt

文档介绍

文档介绍:第18章聚类分析
中国疾病预防控制中心
学习目标
了解聚类分析的基本思想;
了解聚类分析的一些常见统计量;
掌握聚类分析的基本方法;
通过实例练习掌握聚类分析的SAS过程步。
概述
聚类分析是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。
例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等可以划分为发达国家、发展中国家;
概述
这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。这一章主要讨论聚类分析。
聚类分析的基本思想
聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
聚类分析的基本思想
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。由此得知,聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。
聚类分析的基本思想
在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析;R型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。
聚类分析的基本思想
R型聚类分析的主要作用是:①不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个指标组合之间的亲疏程度;②根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。
Q型聚类分析的作用是:①可以综合利用多个变量的信息对样本进行分类;②分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。
聚类分析的基本思想
例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。
聚类分析的统计量
无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。
聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。