1 / 17
文档名称:

K主成分分析.doc

格式:doc   大小:578KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

K主成分分析.doc

上传人:w447750 2018/9/19 文件大小:578 KB

下载得到文件列表

K主成分分析.doc

相关文档

文档介绍

文档介绍:第十一章主成分分析第一节主成分分析及其基本思想地理系统是多要素的复杂系统,在地理学研究中,经常会遇到多变量问题。变量太多,会增加分析问题的难度与复杂性,而在许多实际问题中,多个变量之间是具有一定的相关关系的。能否在相关分析的基础上,通过某些线性组合使原始变量减少为有代表意义的少数几个新的变量,而且这些较少的新变量尽可能多地保留原来变量所反映的信息?解决这个问题的数学方法就是主成分分析。主成分分析的数学原理简单易懂,在地理学研究中应用较为广泛。主成分分析(ponentsAnalysis,PCA)也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量(指标)化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息。为了使这些综合变量所含的信息互不重叠,应要求它们之间互不相关。一、主成分分析的基本思想主成分分析在数学上就是将原来m个指标作线性组合,求得新的综合指标,并选取几个具有代表性的综合指标(原指标的线性组合)。下面介绍这种选择的方法原理和实现过程。如果将选取的第一个线性组合即第一个综合指标记为z1,自然希望z1尽可能多地反映原来的指标信息,这里的“信息”用什么来表示呢?最经典的方法就是用z1的方差来表示,z1的方差越大,表示z1包含的信息越多。因此,在所有的线性组合中,选取的z1应该是方差最大的,称z1为第一主成分。如果z1没有包含原来m个指标的绝大部分信息,则需要考虑选取第二个线性组合z2,且希望z1中已有的信息不出现在z2中,即z1与z2的协方差Cov(z1,z2)=0。那么z2就是第二主成分,依此可以建立第三、第四等主成分,要求这些主成分互不相关,且方差依次减小。二、主成分分析的几何意义和数学模型为了方便,下面通过一个例子在二维空间中讨论主成分的几何意义。图17-115主成分的几何意义设有n个样品,每个样品测量了两个变量x1和x2,在由x1和x2确定的样品空间中,n个样品点的分布如图所示。从图可以看到,变量x1和x2都有较大的波动(方差较大),而且二者具有明显的相关性。如果作一坐标旋转,取z1和z2为新坐标轴。在新坐标系中,n个样品点的新坐标的相关性很小,几乎为0;n个点的方差大部分归结为z1的方差,而z2的方差很小,故用z1就可以反映变量的大部分信息;z1和z2与x1和x2之间的关系为:将以上结果推广到m维的情况,设有n个样品,每个样品有m个变量,经过适当的线性组合,可以得到m个新变量:系数由下列原则决定(1)与()互相无关;(2)z1是原始变量的一切线性组合中方差最大的;z2与z1不相关且除z1外在原始变量的一切线性组合中方差最大;……;zm与不相关且除外在原始变量的一切线性组合中方差最大。= 这样确定的新变量称为原始变量的第一,第二,……,第m主成分,其中z1在总的方差中占的比例最大,其余的的方差依次递减,其重要性也依次减小,这样就可以取前面少数几个主成分对样本数据的主要性质进行分析。第二节主成分分析的计算步骤找主成分就是确定原始变量在诸主成分上的载荷。从数学上可以得到证明,它们分别是的相关矩阵中较大特征值所对应的特征向量。根据主成分分析的基本思想和基本原理,可以把主成分分析的计算步骤归纳如下:1、对地理数据进行标准化处理。由于变量的量纲的数值的差别,在做主成分分析时,需要对变量进行标准化处理,常用的标准化处理方法是标准差标准化法。设原始数据为n个样品,每个样品p个观察值组成的矩阵。2、计算相关系数矩阵R 3、计算特征值和特征向量4、计算贡献率和累计贡献率 5、计算主成分载荷6、计算主成分得分第三节主成分分析在PASWStatistics中的实现表13-1给出了某农业生态经济系统各个区域单元的有关数据,下面我们对这个农业生态经济做主成分分析,得出维度较少的几个代表性因子。表13-1某农业生态经济系统各个区域单元的有关数据样本序号人口密度x1/(人·.km-2)人均耕地面积x2/hm2)森林覆盖率x3/%农民人均纯收入x4/(元·人-1)人均粮食产量x5(kg·人-1)经济作物占农作物播面比例x6/%耕地占土地面积比率x7/%果园与林地面积之比x8/%灌溉田占耕地面积之比x9/%