文档介绍:主成分分析一、概述:在医学科学研究中经常遇到多个指标的问题,指标多了带来了统计分析的复杂性。如评价儿童生长发育,某研究者收集了一批儿童的身高、体重、胸围、肺活量等12个指标的资料,如何利用这12个指标对儿童生长发育作出评价?如果仅用其中任
图1 图2 主成分分析示意图
三、主成分的求法及性质一)求法:假设收集到的原始数据共有n例,每例测得m个指标,记录形式如下:
样品 X1 X2 ……. . Xm
X11 X12 ……. . X1m
X21 X22 ……. . X2m
.
n Xn1 Xn2 ……. . Xnm
(标准化后, 的相关矩阵即为协方差矩阵Cov( ):
二)主成分的性质1、各主成分互不相关2、主成分的贡献率和累计贡献率 可以证明各指标X1、 X2… Xm的方差和与各主成分Z1、 Z2… Zm的方差和相等: 将数据标准化后,原始指标的方差和为m,各主成分的方差和为 、 X2… Xm的总方差分解为m个互不相关的综合指标主成分Z1、 Z2…Zm的方差和,使第一主成分的方差达最大
表明第一主成分Z1的方差在全部方差中所占的比值,称为第一主成分的贡献率,这个值越大,表明Z1这个指标综合原始指标X1、 X2… Xm的能力越强。也可以说,由Z1的差异来解释X1、 X2… Xm的差异的能力越强。正因为这一点,才把Z1称为X1、 X2… Xm的第一主成分,也就是X1、 X2… Xm的主要部分。一般的称: 为第i主成分的贡献率。 而称: 为前 k个主成分的累积贡献率。
3、主成分个数的选取1)以累计贡献率来确定:当前 k个累计贡献率达到某一特定的值时(一般以大于70%为宜),则保留前k个主成分。2)以特征值大小来确定:即若主成分Zi的特征值大于等于1,则保留Zi,否则就去掉该主成分。4、因子载荷 为了解各主成分与各指标之间关系,求第 i主成分Zi的特征值的平方根与第 j个原始指标Xj的系数 aij的乘积为因子载荷即:事实上因子载荷就是第 i主成分Zi与第 j原始指标Xj间的相关系数,它反映了主成分Zi与第原始指标Xj间联系的密切程度与作用的方向。
5、样品主成分得分 对于具有原始指标测定值的任一样品,可先求出其标准化值 ,将标准化值代入各主成分的表达式:求出该样品的各主成分值。这样求得的主成分值称为该样品的主成分得分。利用样品的主成分得分,可以对样品的特性进行推断和评价。
四、实例 某医院测得20名肝病患者的4项肝功能指标,分别为SGPT(转氨酶)、肝大指数、ZnT、AFP数据见表:
病例号
转氨酶
肝大指数
硫酸锌浊度
甲胎球蛋白
1
40
5
20
2
10
5
30
3
120
13
50
4
250
18
0
5
120
9
50
6
10
12
50
7
40
19
40
8
270
13
60
9
280
11
60
10
170
9
60
11
180
14
40
12
130
30
50
13
220
17
20
14
160
35
60
15
220
14
30
16
140
20
20
17
220
14
10
18
40
10
0
19
20
12
60
20
120
20
0
五、主成分分析的应用1、对原指标进行综合 从方法学上讲,主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原始指标所提供的信息,这就为进一步的统计分析奠定了基础。如:若需将多个存在多元共线性的自变量引入回归方程,由于共线性的存在,直接建立的多元线性回归方程具有不稳定性;若采用逐步回归方程,则不得不删除一些自变量,这亦与研究初衷相悖。如将主成分分析与多元线性回归结合使用,