1 / 14
文档名称:

农村居民消费结构.doc

格式:doc   大小:264KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

农村居民消费结构.doc

上传人:文库旗舰店 2019/9/17 文件大小:264 KB

下载得到文件列表

农村居民消费结构.doc

文档介绍

文档介绍:系统聚类分析法的应用——以2004年我国30个地区农村居民消费结构情况为例摘要:聚类分析是给我们提供了一种对于复杂问题如何分组的统计方法,系统聚类法是聚类分析中最常用的一种方法,本文介绍系统聚类法的原理及应用,并以2004年我国30个地区农村居民消费结构情况为例,比较分析我国各地去农村居民消费结构的类型、差异。关键字:系统聚类分析法  SPSS软件操作 2004年我国农村居民消费结构正文:聚类分析是将样品或变量按照他们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一个是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。聚类分析按照分组理论依据的不同,可以分为系统聚类法、动态聚类法、模糊聚类、图论聚类、聚类预报等多种聚类方法;而按照分析对象不同,可以分为Q型聚类,即对样品进行分类处理,和R型聚类,即对变量进行分类处理。下面以2004年我国30个地区农村居民消费结构为例,来阐述聚类分析的方法和步骤。为了全面反映我国农村居民消费结构状况,选择如下八个指标:食品支出所占比重(x1),衣着支出所占比重(x2),居住支出所占比重(x3),家庭设备用品及其服务支出所占比重(x4),医疗保健支出所占比重(x5),交通通讯支出所占比重(x6),文教娱乐支出所占比重(x7),其他商品和服务支出所占比重(x8)。对数据进行Q型聚类分析,以研究我国各地区农村居民消费结构的特点。图1首先,由于在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义域变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大差异,另外由于样本数据受量纲和数量级的影响,因此在聚类分析处理过程中,应对原始数据矩阵进行变换处理。常用的数据变换方法有以下几种::中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。设中心化后的数据为。进行了中心化变换后的数据特点是,其每列数据之和均为0。:规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。规格化后的数据为:进行了规格化变换后数据的特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。:标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即1/2。进行了标准化变换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。使用标准差处理后,在抽样样本改变时,他仍保持相对稳定性。:对数变换主要是对原始数据取对数。即。对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。对农村居民消费结构数据的每个变量进行标准化变换,消除量纲的影响,用excel中的函数AVERAGE()求均值、VAR()求方差、POWER()求某数的几次方、STANDARDIZE()根据平均值和标准差求某数标准化后的值,得到每个变量标准化后的值。如图2。图2然后,就可以对变换处理后的数据进行聚类分析,系统聚类分析法:系统聚类分析是在样品距离的基础上,定义类与类之间的距离,首先将n个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一个聚类谱系图。(1)定义距离及相似系数:对于p个变量,n个样品的样本数据,每个样品有p个变量,故每个样品都可以看成是p维空间上的一个点,n个样品就是p维空间上的n个点。对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。因此,需定义样品之间的距离,即第i个样品与第j个样品之间的距离,记为,所定义的距离一般满足以下条件:对于定量数据资料常用的距离有以下几种:明氏(明科夫斯基,Minkowski)距离,距离公式为。这里q为某一自然数,明氏距离是一最常见最直观的距离。当q=1时,,则称为绝对值距离。当q=2时,,则称为欧式距离。欧式距离是聚类分析中用的最广泛的距离,但该距离与各变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。当时,,则称为切比雪夫距离。由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数据进行标准化处理,然后再用标准化后的数据计算距离。兰氏(Lance和Williams)距离,当全部数据大于零时,兰氏距离公式为,可见兰氏距离是一个无量纲的量,