文档介绍:页眉... 页脚. PCA 算法的原理及其示例郑琛( 北京师范大学,北京 100875 ) 摘要:主成分分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题,对于某些复杂数据就可应用主成分分析法对其进行简化。计算主成分的目的是将高维数据投影到较低维空间。文中介绍了 PCA 算法的基本概念和基本原理,利用算法在降维和特征提取方面的有效性,结合人脸识别的实例进行详细的阐述。关键字: 主成分分析;数据降维;特征提取一、 PCA 算法的基本概念 PC A是 ponent analysi s 的缩写, 中文翻译为主成分分析。主成分又称主分量、主元素。它是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差- 协方差结构, 是数据压缩和特征提取中一种多维向量的统计分析方法[1]。这种方法可以有效的找出数据中最“主要”的元素和结构, 去除噪音[2] 和冗余, 将原有的复杂数据降维, 揭示隐藏在复杂数据背后的简单结构。它的优点是简单, 而且无参数限制, 可以方便的应用与各个场合。因此应用极其广泛, 从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最有价值的结果之一。二、 PCA 算法的原理与基本思想 PCA 算法的原理是设法将原来变量重新组合成一组新的互相无关的几个综合变量, 同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计的方法, 也是数学上处理页眉... 页脚. 降维的一种方法。 PCA 算法的基本思想是设法将原来众多具有一定相关性( 比如 P 个指标) ,重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 P 个指标作线性组合, 作为新的综合指标。典型的做法就是用 F1 (选取的第一个线性组合,即第一个综合指标)的方差来表达,即 Var ( F1 )越大,表示 F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最大的,故称 F1 为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息, 再考虑选取 F2 即选第二个线性组合,为了有效地反映原来信息, F1 已有的信息就不需要再出现再 F2 中,用数学语言表达就是要求 Cov ( F1 , F2 ) =0 ,则称 F2 为第二主成分,以此类推可以构造出第三、第四, ........... ,第P 个主成分。应当注意, 主成分分析本身往往并不是目的, 而是达到目的的一种手段, 因此, 它多用在大型研究项目的某个中间环节。如把它用在多重回归, 便产生了主成分回归, 这种回归具有优良性质, 另外, 它在压缩、特征提取及分类应用中非常有用。三、 PCA 求解的一般步骤 PCA 求解:特征方程的根在线形代数中,PCA 问题可以描述成以下形式: 寻找一组正交基组成的矩阵 P,有 Y=PX, 使得 C Y? 1 n-1 YY T 是对角阵。则P 的行向量( 也就是一组正交基), 就是数据 X 的主元向量。对C Y 进行推导:C Y= 1 n-1 YY T= 1 n-1 (PX)(PX) T= 1 n-1 PXX TP T= 1 n-1 P(XX T )P T 页眉... 页脚. C Y= 1 n-1 PAP T 定义 A? XX T,则A 是一个对称阵。对 A 进行对