文档介绍:聚类分析方法
基于SPSS应用软件
(一) 聚类分析的一般问题
聚类分析是统计中研究物以类聚的多元统计分析方法,针对的是生活中广泛存在的聚类现象和形成的统计分析方法;
例如:市场细分和客户细分问题;
聚类分析是将一组数据(变量)按照其不同的特征(或者在样本上的不同表现)自动分成若干类,类内部有相似性,类之间有区别;
理解聚类分析的关键
(1)首先不知道数据到底是来自几个类;
(2)第二不知道每个数据到底是那一类;
(3)第三也不知道类和类的界限是什么;
(4)所谓亲疏程度就是两个数据(变量)综合考虑各指标后的接近程度;
2. 聚类分析中的“亲疏程度”的度量方法
数据中,个体之间的亲疏程度是非常重要的,因为我们正是依靠这种亲疏程度来将进行类的合并和分化;
亲疏程度的测度一般可以有两个角度:
个体间的相似程度,越相似两个体越接近,可以用相似系数来描述这种相似程度;
个体间的差异程度,即个体间的距离,距离越近则个体越接近;
首先要将数据看成空间中的一个点,以此来定义距离,距离的定义有很多,可以分为欧氏距离,明氏距离,夹角余弦等;
根据变量的类型不同,距离的定义方式也不同,比如定距型变量和计数型变量的距离就不一样;
3. 聚类分析的几点说明
所选的变量应该符合聚类的要求,一定要选取与分析的目标有关的变量,而不要选取无关的变量;
各变量的变量值不应该在数量级上有差异,数量级上的差异可能带来距离上不准确从而影响聚类效果,解决的方法是先将数据标准化;
各变量间不应该有较强的线性相关关系,否则其中一个变量就没有用了;
常见的聚类分析方法有两种:层次聚类和K-Mean聚类,这两种方法SPSS都提供菜单操作。
(二) 层次聚类
1. 层次聚类的两种类型和两种方式
层次聚类又称系统聚类,聚类过程按照一定的层次进行,即从小类到大类的层次,
有两种类型:Q型聚类和R型聚类,
聚类方式也分两种:凝聚型聚类和分解型聚类;
Q型聚类是对样本进行聚类,R型聚类是对变量进行聚类;
凝聚方式聚类的思想是首先每个样本自成一类,然后按照某种方法度量个体间的亲疏程度,将其中最亲密的个体聚成一小类,然后以此继续下去,直到最后只剩下一个类;
分解方式聚类的思想是首先所有个体都成为一个大类,然后按照某种方法度量亲疏程度,将最疏远的个体分离除去形成两个类,以此继续下去,知道每一个个体自成一类;
在SPSS中采用凝聚方式的聚类方法
2. 个体与小类,小类与小类之间的亲疏程度的度量方法
SPSS提供了很多度量小类与小类之间的亲疏程度的方法,下面分别介绍几种: