1 / 11
文档名称:

聚类分析的案例分析.docx

格式:docx   大小:247KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析的案例分析.docx

上传人:tswng35 2018/10/24 文件大小:247 KB

下载得到文件列表

聚类分析的案例分析.docx

文档介绍

文档介绍:《应用多元统计分析》
——报告
班级:
学号:
姓名:
聚类分析的案例分析
摘要
本文主要用SPSS软件对实验数据运用系统聚类法和K均值聚类法进行聚类分析,从而实现聚类分析及其运用。利用聚类分析研究某化工厂周围的几个地区的
气体浓度的情况,从而判断出这几个地区的污染程度。
经过聚类分析可以得到,样本6这一地区的气体浓度值最高,污染程度是最严重的,样本3和样本4气体浓度较高,污染程度也比较严重,因此要给予及时的控制和改善。
关键词:SPSS软件聚类分析学生成绩
数学模型
聚类分析的基本思想是认为各个样本与所选择的指标之间存在着不同程度的相似性。可以根据这些相似性把相似程度较高的归为一类,从而对其总体进行分析和总结,判断其之间的差距。
系统聚类法的基本思想是在这几个样本之间定义其之间的距离,在多个变量之间定义其相似系数,距离或者相似系数代表着样本或者变量之间的相似程度。根据相似程度的不同大小,将样本进行归类,将关系较为密切的归为一类,关系较为疏远的后归为一类,用不同的方法将所有的样本都聚到合适的类中,这里我们用的是最近距离法,形成一个聚类树形图,可据此清楚的看出样本的分类情况。
K均值法是将每个样品分配给最近中心的类中,只产生指定类数的聚类结果。

数据来源
《应用多元统计分析》第一版164页第6题
我国山区有一某大型化工厂,在该厂区的邻近地区中挑选其中最具有代表性的8个大气取样点,在固定的时间点每日4次抽取6种大气样本,测定其中包含的8个取样点中每种气体的平均浓度,数据如下表。试用聚类分析方法对取样点及大气污染气体进行分类。
建立数学模型
运行过程
(一)系统聚类分析
在SPSS界面对上述数据进行系统聚类分析如图1和图2所示,进行最近距离分类。
图1
图2
(二)K均值聚类分析
对数据进行K均值聚类分析,如下图所示:
图3
图4
图5
运行结果
聚类树形图
图6
由图可以看出,将数据进行聚类分析,根据设定的分为了二类到三类。若分为两类则样本6为一类,其他为一类;若分为三类则将样本四分离出来,其他分为一类。
新变量
图7
该图显示将分类结果的新变量,分别为CLU3_1和CLU2_1。可以清楚的看到将数据聚为2类和3类的分类情况。
新变量迭代过程中类中心的变化量
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
4
1
.049
.042
.000
.074
2
.000
.000
.000
.000
a. 由于聚类中心内没有改动或改动较小而达到收敛。。当前迭代为 2。。
图8
从表中可以看出本次聚类过程共进行了两次迭代。由于我们在Iterate子对话框中设置最大迭代次数为10和收敛判据为0,所以在第二次迭代后,类中心的变化为0,从而迭代停止。
各观测量所属类成员表
聚类成员
案例号
聚类
距离
1
1
.049
2
1
.071
3
4
.074
4
4
.074
5
2
.042
6
3
.000
7
2
.042
8
1
.060
图9
最终类中心表
最终聚类中心
聚类
最终聚类中心
聚类
1
2
3
4
X1
.0580
.0660
.0640
.0360
X2
.0753
.0775
.0720
.1125
X3
.0527
.0455
.1000
.0685
X4
.0660
.2900
.2100
.1650
X5
.0397
.0250
.0280
.1290
1
2
3
4
X1
.0580
.0660
.0640
.0360
X2
.0753
.0775
.0720
.1125
X3
.0527
.0455
.1000
.0685
X4
.0660
.2900
.2100
.1650
X5
.0397
.0250
.0280
.1290
X6
.0168
.0385

.0360
图10
根据结果(五)和结果(六)可以看出,将8个样本聚为了4类。第一类包括样本1、样本2和样本8,根据图1中聚类1这一列可以看出,这一类为这四类中气体浓度值最低的一类,也就是说该类的环境污染不严重,属于优;第二类包括样本5和样本7,该类气体浓度也是比较低的一类,环境污染有些严重,属于良;第三类包括样本6,这一气体浓度最高,环境污染最严重,属于差;第四类包括样本3和样本4,环境污染较严重,属于中。
新变量
如图所