1 / 23
文档名称:

主成分分析.doc

格式:doc   大小:412KB   页数:23页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:主成分分析
主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握
因子分析的原理。在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。这个例子只有两个变量(m=2):
城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。


计算步骤

5.1.1 详细的计算过程
首先,录入数据,并对数据进行适当处理(图5-1-1)。计算的详细过程如下。
第一步,将原始数据绘成散点图
主成分分析原则上要求部分变量之间具有线性相关趋势。如果所有变量彼此之间不相关
(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原
来非正交的变量。如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效
果不佳。从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测
定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的
线性趋势(图5-1-2b)。
第二步,对数据进行标准化
标准化的数学公式为

我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。根据图5-1-1
所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式


分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)
的数据,xij
*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。



对数据标准化的具体步骤如下:
(1)求出各列数据的均值。函数为average,语法为:average(起始单元格:终止单元格)。
如图5-1-1 所示,在单元格B33 中输入“=AVERAGE(B2:B32)”,确定或回车,即得第一列
数据的均值;然后抓住单元格B33 的右下角(光标的十字变细)右拖至

E33,便可自动生成
第二、三、四列数据的均值。我们需要的两个均值为x1 = 7.012, x2 =7.054 。

(2)求各列数据的标准差。函数为stdev,语法同均值,计算公式相当于

如图5-1-1 所示,在单元格B34 中输入“=STDEV(B2:B32)”,确定或回车,可得第一列数据的标准差,右拖至E34 生成第二、三、四列数据的标准差。我们需要的两个标准差数据为:stdev(x1)=0.948;stdevp(x2)=1.062。

(3)标准化计算。如图5-1-1 所示,在单元格F2 中输入“=(D2-D$33)/D$34”,回车可
得D 列第一个数据“6.977”的标准化数值-0.03721;按住单元格F2 的右下角右拖至G2,
G2 出现E 列第一个数据“5.738”的标准化数据-1.61651。然后,鼠标双击G2 单元格的右
下角,立即生成全部的标准化数据。注意,双击的时候要保证F2 和G2 两个单元格都被选

中,并且鼠标光标为细小黑十字填充柄。此时或双击,或者抓住黑十字下拖均可。
顺便说明,如果希望按数组方式进行标准化,可以借助标准化函数standardize。语法为
standardize(起始单元格:终止单元格,均值,标准差)。具体方法是,选中一个与原始数据列
长相等的单元格区域,在等号后面根据语法输入函数,例如在F 数据区域F2:F32 范围内输
入公式“=STANDARDIZE(D2:D32,D33,D34)”,同时按下“Ctrl+Shift+Enter”三键确认,
即可得到D 列数据的全部标准化数值。不过这个方法并不一定比前面的逐步计算更为快速。

(4)作标准化数据的散点图。以F 列标准化数据为横坐标,G 列数据为纵坐标,作图
(图5-1-3)。可以看出,点列的总体趋势没有变化,两种数据的相关系数与标准化以前完全相同。但回归模型的截距近似为0,即有a→0,斜率等于相关系数,即有b=R=0.7181。
利用图5-1-1 所示的数据验证标准化数据的相关系数

点击展开更多

分享好友

预览全文

主成分分析.doc

上传人:wxc6688 2021/1/22 文件大小:412 KB

下载得到文件列表

主成分分析.doc

相关文档