文档介绍:X1
x2
x3
x4
x6
x7
X0
32. 3S
6. 69
16. 16
4. 92
10. 99
11. 09
1. 65
3S. 52
6. S6
19. 23
4. 11
照分析对象不同,可以分为Q型聚类,即对样品进行 分类处理,和R型聚类,即对变量进行分类处理。
下面以2004年我国30个地区农村居民消费结构为例,来阐述聚类分析的方法和步骤。为 了全面反映我国农村居民消费结构状况,选择如下八个指标:食品支出所占比重(x1),衣着支 出所占比重(x2),居住支出所占比重(x3),家庭设备用品及其服务支出所占比重(x4),医疗保健 支出所占比重(x5),交通通讯支出所占比重(x6),文教娱乐支出所占比重(x7),其他商品和服务 支出所占比重(x8)。对数据进行Q型聚类分析,以研究我国各地区农村居民消费结构的特点。
图1
由于在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定 义域变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大差异, 另外由于样本数据受量纲和数量级的影响,因此在聚类分析处理过程中,应对原始数据矩阵
进行变换处理。常用的数据变换方法有以下几种:
中心化变换:中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始 数据中减去该变量的均值,就得到中心化后的数据。设中心化后的数据为
一则=::..--■。进行了中心化变换后的数据特点是,其每列数据之和均为0。
规格化变换:规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之 差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化
数据。规格化后的数据为:儿二一一….进行了规格化变换后数据的特点是, l£i£n —“mu 1 匚 i Aij
将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。
标准化变换:标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除
以标准差,即0昂=■其中求冯,Sj二E二(殉―會)]1/2。进行了标准化变
换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。使用标 准差处理后,在抽样样本改变时,他仍保持相对稳定性。
对数变换:对数变换主要是对原始数据取对数。即「•二上二二•:。对数变换后的数
据特点是,可将具有指数特征的数据结构化为线性数据结构。
对农村居民消费结构数据的每个变量进行标准化变换,消除量纲的影响,用excel中的函数 AVERAGE。求均值、VAR()求方差、POWER()求某数的几次方、STANDARDIZE(根据平均值和标准 差求某数标准化后的值,得到每个变量标准化后的值。如图2。
A
k2
k5
kB
北京
■
0G3
0.^12
2?2
,.4[
-0 60
-
LI74
Li 2x1
■
-Li 75
河北
-
0 7C
0 00
<
-0 50
- B
3 04
-
-
-
内藜古
■
0^
■on
0G9
\72
-0 62
辽宁
■
■
-
■
in nn
吉林
-
0 60
-
丨F
0^0
丢力丄
-
-
-□.52
n so
1左
■1 03
-nF
Z 1h
0 25
-rr
「茁
-n 37
江苏
L.-1J
-u飞
-
L.--1J
Uh
-1 11
-n ns
n?;
1 mi
-u
「苛
0 09
UbU
-U .-u
/
J
U J.|
■r 14
-n 7R
■n if
1茁
-I ■?
nr
■r 46
ilt
-
Ubb
u t
山东
-
DOS
□.93
0 13
□4B
3 10
0 50
o.<
0 37
-
0 3