1 / 17
文档名称:

主成分分析.ppt

格式:ppt   大小:209KB   页数:17页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析.ppt

上传人:wxc6688 2022/6/21 文件大小:209 KB

下载得到文件列表

主成分分析.ppt

相关文档

文档介绍

文档介绍:主成分分析 一、概述:在医学科学研究中经常遇到多个指标的问题,指标多了带来了统计分析的复杂性。如评价儿童生长发育,某研究者收集了一批儿童的身高、体重、胸围、肺活量等12个指标的资料,如何利用这12个指标对儿童生长发育作出评价?如果仅用其中任
图1          图2        主成分分析示意图
三、主成分的求法及性质 一)求法:假设收集到的原始数据共有n例,每例测得m个指标,记录形式如下:
样品   X1    X2 ……. . Xm
X11    X12 ……. . X1m
X21    X22 ……. . X2m
.
n Xn1    Xn2 ……. . Xnm
(标准化后, 的相关矩阵即为协方差矩阵Cov( ):
二)主成分的性质 1、各主成分互不相关 2、主成分的贡献率和累计贡献率   可以证明各指标X1、 X2… Xm的方差和与各主成分Z1、 Z2… Zm的方差和相等:   将数据标准化后,原始指标的方差和为m,各主成分的方差和为       、 X2… Xm的总方差分解为m个互不相关的综合指标主成分Z1、 Z2…Zm的方差和,使第一主成分的方差达最大
表明第一主成分Z1的方差在全部方差中所占的比值,称为第一主成分的贡献率,这个值越大,表明Z1这个指标综合原始指标X1、 X2… Xm的能力越强。也可以说,由Z1的差异来解释X1、 X2… Xm的差异的能力越强。正因为这一点,才把Z1称为X1、 X2… Xm的第一主成分,也就是X1、 X2… Xm的主要部分。一般的称:        为第i主成分的贡献率。 而称:         为前 k个主成分的累积贡献率。
3、主成分个数的选取 1)以累计贡献率来确定:当前 k个累计贡献率达到某一特定的值时(一般以大于70%为宜),则保留前k个主成分。 2)以特征值大小来确定:即若主成分Zi的特征值大于等于1,则保留Zi,否则就去掉该主成分。 4、因子载荷  为了解各主成分与各指标之间关系,求第 i主成分Zi的特征值的平方根与第 j个原始指标Xj的系数 aij的乘积为因子载荷即: 事实上因子载荷就是第 i主成分Zi与第 j原始指标Xj间的相关系数,它反映了主成分Zi与第原始指标Xj间联系的密切程度与作用的方向。
5、样品主成分得分  对于具有原始指标测定值的任一样品,可先求出其标准化值 ,将标准化值代入各主成分的表达式: 求出该样品的各主成分值。这样求得的主成分值称为该样品的主成分得分。利用样品的主成分得分,可以对样品的特性进行推断和评价。
四、实例  某医院测得20名肝病患者的4项肝功能指标,分别为SGPT(转氨酶)、肝大指数、ZnT、AFP数据见表:
病例号
转氨酶
肝大指数
硫酸锌浊度
甲胎球蛋白
1
40

5
20
2
10

5
30
3
120

13
50
4
250

18
0
5
120

9
50
6
10

12
50
7
40

19
40
8
270

13
60
9
280

11
60
10
170

9
60
11
180

14
40
12
130

30
50
13
220

17
20
14
160

35
60
15
220

14
30
16
140

20
20
17
220

14
10
18
40

10
0
19
20

12
60
20
120

20
0
五、主成分分析的应用 1、对原指标进行综合 从方法学上讲,主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原始指标所提供的信息,这就为进一步的统计分析奠定了基础。 如:若需将多个存在多元共线性的自变量引入回归方程,由于共线性的存在,直接建立的多元线性回归方程具有不稳定性;若采用逐步回归方程,则不得不删除一些自变量,这亦与研究初衷相悖。如将主成分分析与多元线性回归结合使用,