1 / 28
文档名称:

ch20主成分与因子分析.docx

格式:docx   大小:73KB   页数:28页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ch20主成分与因子分析.docx

上传人:小健 2021/7/3 文件大小:73 KB

下载得到文件列表

ch20主成分与因子分析.docx

相关文档

文档介绍

文档介绍:第二十章 主成分分析与因子分析
第一节主成分分析
主成分分析(principal components analysis)也称主分量分析,于 1901年由Pearson首先引入,1933年由Hotelling作了进一步的发展。 主成分分析是从多个数值变量(指标)之间的相互关系入手,利用降 维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指 标)的统计方法。本节主要介绍主成分分析的基本理论和方法,并结 合实例讨论其在医学研究中的应用。
一、主成分分析的基本思想
在医学研究中,为了客观、全面地分析问题,常要记录多个观察 指标并考虑众多的影响因素,这样的数据虽然可以提供丰富的信息, 但同时也使得数据的分析工作更趋复杂化。例如,在儿童生长发育的 评价中,收集到的数据包括每一儿童的身高、体重、胸围、头围、坐 高、肺活量等十多个指标。怎样利用这类多指标的数据对每一儿童的 生长发育水平作出正确的评价?如果仅用其中任一指标来作评价,其 结论显然是片面的,而且不能充分利用已有的数据信息。如果分别利 用每一指标进行评价,然后再综合各指标评价的结论,这样做一是可 能会出现各指标评价的结论不一致,甚至相互冲突,从而给最后的综 合评价带来困难;二是工作量明显增大,不利于进一步的统计分析。 事实上,在实际工作中,所涉及到的众多指标之间经常是有相互联系 和影响的,从这一点出发,通过对原始指标相互关系的研究,找出少 数几个综合指标,这些综合指标是原始指标的线性组合,它既保留了 原始指标的主要信息,且又互不相关。这样一种从众多原始指标之间 相互关系入手,寻找少数综合指标以概括原始指标信息的多元统计方 法称为主成分分析。
二、主成分分析的数学模型及几何意义
(一)主成分的数学模型
设有m个指标%, X2,…,,欲寻找可以概括这m个指标主要信息
的综合指标Z|,Z2,...,Z,“。从数学上讲,就是寻找一组常数 atl, ai2, = 使这彻个指标的线性组合:
Z] =4]X] +al2X2 +■■■ + almXm
Z? = + d2^X2 H F a^Xm ( 20 ])
z,„ = a,„ixi + a,„2X2 +…+ ammXm
能够概括初个原始指标Xl,X2,---,Xm的主要信息(其中,各 Z《 = l,2,...")互不相关)。为叙述方便,我们引入如下的矩阵形式:
令:
2、
。11 。12
Z =
Z2
9 A =
。21 。22
\am\ Q m2
则公式
(20-1)
可表为:
a\m '
ax
a2m
“2
V —
乂2
, A,—
^mm >
(%)
V \ mJ
Z = AX
或:
Z] =(X]X
Z2 — %x
<
ZmfX
如果Zt = ttjX满足:«!«! = 1 ,且
原始指标Xl,X2,---,Xm的第一主成分。
一般地,如果Z, =a;X满足:
(20-2)
(20-3)
Var(Z]) = Max(Var(a'X)},则称 乙 是 aa=l
aiai = 1,当Z〉1时,o;% =0 (j = 1,2,・・・,,_ 1);
Var(Z.) = Max{Var(aX)}
aa=l, aa; =0 (j=l,2,•••,/-!)
则称z,.是原始指标的第,主成分(i = 2,•••,«!)o
由上述定义可知,当时,主成分Z,.与Z,是互不相关的,并且 Z]是原始指标Xl,X2,---,Xm的一切线性组合中方差最大者,Z2是与佑不 相关的、除Z]以外的Xi,X2,...,X,“的一切线性组合中方差最大者,…, Z”是与Z\,ZaS\都不相关的、除Z1Z,…,Zgi以外的X],X2,…,X”的 一切线性组合中方差最大者。从理论上讲,求得的主成分个数最多可 有农个,这时,初个主成分就反映了全部原始指标所提供的信息。鉴 于主成分分析的目的主要是用较少个数的综合指标来反映全部原始 指标中的主要信息,因此在实际工作中,所确定的主成分个数总是小 于原始指标的个数。
(二)主成分的几何意义
为讨论方便,我们以m = 2为例来讨论主成分分析的几何意义。 设个体具有二个观测指标X|和X2,它们之间具有较强的相关性。测 量〃例这样的个体的值,将所得的〃对数据在以X|为横轴、X2为纵轴 的二维坐标平面中描点,得到如下的散点图(图20-la)。
图20-1主成分分析示意图
由图20-la可以看出,由于X|与X2具有较强的相关性,这〃个点 的分布呈现出直线化的趋势;同时,它们沿葛轴方向和为轴方向都 具有较大的变异度。我们知