文档介绍:在实际工作中,往往会出现所搜集的变量间存在较强的相关关系的情况。如果直接利用数据进行分析,不仅使模型变得很复杂,而且会带来多重共线性等问题。主成分分析提供了解决这一问题的方法。其基本思想是将众多的初始变量合成少数几个相互无关的主成分变量,而这些新的变量尽可能地包含了初始变量的全部信息,然后用这些新的来代替以前的变量进行分析。主成分分析的数学模型:用原始数据矩阵X的p个变量X1,…,Xp作线性组合用矩阵表示为主成分分析的数学模型:且满足:矩阵U的每一行都是单位行向量,即与Yj(i≠j,I,j=1,2,…,p)之间不相关Yp是与Y1,Y2,…,Yp-1都不相关的X1,…,Xp的一切线性组合中方差最大的。Y1,Y2,…,Yp的方差之和等于X1,…,Xp的方差之和。主成分的求解:主成分的求解过程就是求解转换矩阵U的过程计算原始数据的协方差Σ计算协方差Σ的特征根为λ1≥…≥λp≥0,相应的单位特征向量为T1,T2,…,Tp,由这些向量构成的矩阵记为T,即有正交矩阵T=(T1,T2,…,Tp)则可以证明:所要求的转换矩阵U就是特征向量矩阵T的转置,即U=T’。也就是说,所求的矩阵U的第i行就是样本协方差阵Σ的第i大特征根对应的单位特征向量Ti。同时可以证明:第i个主成分Yi的方差就等于样本协方差阵Σ的第i大特征根λ1主成分的方差贡献率:主成分分析把p个原始变量X1,…,Xp的总方差分解成了p个相互独立的变量Y1,Y2,…,Yp的方差之和主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里称为第k个主成分Yk的方差贡献率。第一主成分的贡献第最大,而Y2,Y3,…,Yp的综合能力依次递减。主成分的方差贡献率:若只取m(m<p)个主成分,则称为主成分Y1,Y2,…,Ym的累计贡献率。累计贡献率表明Y1,Y2,…,Ym综合X1,…,Xp的能力。通常取m使得累计贡献率达到一个较高的百分数。x2x2y1y20主成分的几何意义主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x10x2中,单独看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有较大的离散性,其离散的程度可以分别用X1和X2的方差测定。如果考虑X1或X2中任何一个分量,那么包含在另一个分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。x2x2y1y20主成分的几何意义如果将该坐标系按逆时针方向旋转某个角度变成新坐标系y10y2,这里y1是椭圆的长轴方向,y2是椭圆的短轴方向。旋转公式为新变量Y1和Y2是原变量X1和X2和线性组合,它的矩阵表示形式为其中,T’为旋转变换矩阵,它是一个正交矩阵,即有T’=T-1n个点在新坐标系下的坐标Y1和Y2几乎不相关,且n个点在y1轴上的方差达到最大,即在此方向包含了有关n个榈的大部分信息。Y1被称为第一主成分,Y2为第二主成分。主成分的个数一般根据累计贡献率的大小来确定。到底多大比例合适要根据具体问题的性质而定。有些科学技术问题累计贡献率要95%以上,但对复杂的社会科学、行为科学中的数据,能达到60%就可以,有人建议取68%左右,也有人建议只取特征值大于1的那些主成分。