文档介绍：《应用多元统计分析》
报告
班级:
学号: 姓名:
聚类分析的案例分析
摘要
本文主要用SPSSB件对实验数据运用系统聚类法和 K均值聚类法进行聚类分
析，从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区《应用多元统计分析》
报告
班级:
学号: 姓名:
聚类分析的案例分析
摘要
本文主要用SPSSB件对实验数据运用系统聚类法和 K均值聚类法进行聚类分
析，从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区的
气体浓度的情况，从而判断出这几个地区的污染程度。
经过聚类分析可以得到，样本 6 这一地区的气体浓度值最高，污染程度是最严
重的，样本3 和样本4 气体浓度较高，污染程度也比较严重，因此要给予及时的
控制和改善。
关键词：SPS漱件聚类分析学生成绩
一、数学模型
聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的
相似性。可以根据这些相似性把相似程度较高的归为一类，从而对其总体进行分
析和总结，判断其之间的差距。
系统聚类法的基本思想是在这几个样本之间定义其之间的距离，在多个变量之
间定义其相似系数，距离或者相似系数代表着样本或者变量之间的相似程度。根
据相似程度的不同大小，将样本进行归类，将关系较为密切的归为一类，关系较
为疏远的后归为一类，用不同的方法将所有的样本都聚到合适的类中，这里我们
用的是最近距离法，形成一个聚类树形图，可据此清楚的看出样本的分类情况。
K 均值法是将每个样品分配给最近中心的类中，只产生指定类数的聚类结果。
二、数据来源
《应用多元统计分析》第一版164 页第 6 题
我国山区有一某大型化工厂，在该厂区的邻近地区中挑选其中最具有代表性的
8 个大气取样点，在固定的时间点每日4 次抽取 6 种大气样本，测定其中包含的
8 个取样点中每种气体的平均浓度，数据如下表。试用聚类分析方法对取样点及
大气污染气体进行分类。
三、建立数学模型
一、运行过程
（一）系统聚类分析
在SPS鼾面对上述数据进行系统聚类分析如图 1和图2所示，进行最近距离分类。
图2
（二）K均值聚类分析
对数据进行K 均值聚类分析，如下图所示：
二、运行结果
（一）聚类树形图
福用单曲;一不刈双快
图6
由图可以看出，将数据进行聚类分析，根据设定的分为了二类到三类。若分为两类则样本6为一类，其他为一类；若分为三类则将样本四分离出来，其他分为一类。
（二）新变量
XI
X2
X3
M
X5
XE
o_ua_i
CLUi_1
1
.0660
£640
,0310
0390
ocei
,C220
.
1
2

D55O
1000
1100
D22D
.0073
1
1
3
旗。
13皿
0790
1700
0湖
C4^Q
1
1
1
,0340
,0950
,Q6B0
1600
,2000
.0290
2
1
5
D840
0660
0290
第00
0120
G410
1
1
&
口 M
□720
1QW
2100

m
2
T
出口
0030
区即
2&00
nw
口湖
1
6
0690
,0870
：27V
DBOO
DB»
C210
1
1
该图显示将分类结果的新变量，分别为 CLU3—侪口 CLU2_1可以清楚的看到将
数据聚为2类和3类的分类情况
（三）新变量迭代过程中类中心的变化量
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
4
1
.049
.042
.000
.074
2
.000
.000
.000
.000
。任何中心
。当前迭代为2。初始中心间的最
。
从表中可以看出本次聚类过程共进行了两次迭代。由于我们在Iterate 子对话框中设置最大迭代次数为10和收敛判据为0,所以在第二次迭代后，类中心的变化为0,从而迭代停止。
（四）各观测量所属类成员表
聚类成员
案例号
聚类
距离
1
1
.049
2
1
.071
3
4
.074
4
4
.074
5
2
.042
6
3
.000
7
2
.042
8
1
.060
图9
（五）最终类中心表
最终聚类中心
聚类
1
2
3
4
X1
.0580
.066