文档介绍：主成分分析方法——基本原理和应用引言用统计分析方法研究这个多变量的课题时, 变量个数太多就会增加课题的复杂性。我们希望变量个数较少而得到的信息较多。在很多情形, 变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新量, 使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。简介主成分分析( ponents Analysis )也称主分量分析,由霍特林( Hotelling )于 1933 年首先提出。它利用降维的思想,在损失很少信息的前提下把多个指标转换为几个指标的多元统计方法。 PCA 设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。基本思想将原来众多具有一定相关性的 P个指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。数学上的处理就是将原来 P个指标作线性组合,作为新的综合指标。最经典的做法就是用 F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即 Var(F1) 越大,表示 F1包含的信息越多。因此在所有的线性组合中选取的 F1应该是方差最大的,故称 F1为第一主成分。如果第一主成分不足以代表原来 P个指标的信息,再考虑选取 F2即选第二个线性组合,为了有效地反映原来信息, F1已有的信息就不需要再出现在 F2中,用数学语言表达就是要求 Cov(F1, F2)=0 ,则称 F2为第二主成分,依此类推可以构造出第三、第四, ……,第 P个主成分。特点: 主成分数少于变量的个数主成分能够反应原变量的绝大部分信息主成分之间互不相关主成分具有命名解释性注意: 变量的方差较小,则其传递的信息量较少;所以应该用方差较大的变量来反映较多的信息量。主成分之间是在与其他主成分不相关的的前提下方差最大,一般有几个变量就有几个主成分,但只有前几个主成分才能涵盖所有变量的大部分信息。主成分的选择有两种基本方法: 1、选择方差大于 1的那些, 2、累计百分比达到要求的那些主成分。主成分的意义很难解释,应该转向因子分析。因子分析是主成分分析的扩展和推广,它通过对原始变量的相关系数矩阵的内部结构的研究, 到处能控制所有变量的少数几个不可观测的综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。应用范围医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。相关概念 ponent Matrix : 指每一个载荷量表示主成分与对应变量的相关系数。特征值(特征根) Initial Eigenvalue : 是每个主成分的方差,它的大小表示了对应主成分能够描述原来所有信息的多少(更多时候用方差贡献率来反映)。步骤进行主成分分析主要步骤如下: 1. 指标数据标准化( SPSS 软件自动行); 2. 指标之间的相关性判定; 3. 确定主成分个数 m; 4. 主成分 Fi表达式; 5. 主成分 Fi命名; 主成分分析的基本原理将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。以两个指标为例,信息总量以总方差表示: ??????????????????????????????? 222 211 222 211 222 211 2111)()( xxxxyyyy xxn xxn xxDxD iiii i i