1 / 30
文档名称:

05主成分分析.doc

格式:doc   大小:3,811KB   页数:30页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

05主成分分析.doc

上传人:2890135236 2019/5/11 文件大小:3.72 MB

下载得到文件列表

05主成分分析.doc

相关文档

文档介绍

文档介绍:主成分分析专题§1引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如p个指标),较多的指标会带来分析问题的复杂性。然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始p个指标的某种线性组合。为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。例如,考虑p=2的情形,假设共有n个样品,每个样品都测量了两个指标(1,x)x,2它们大致分布在一个椭圆内。如图所示。显然,在坐标系x1Ox中,n个点的坐标x1和x2呈2现某种线性相关性。我们将该坐标系按逆时针方向旋转某个角度变成新坐标系y1Oy2,这里y是椭圆的长轴方向,y2是短轴方向。旋转公式为1yxcosxsin112yxsinxcos212易见,n个点在新坐标系下的坐标y和y2几乎不相关。y1和y2称为原始变量x1和x2的综1合变量,n个点在y轴上的方差达到最大,即在此方向上所含的有关n个样品间差异的信1息是最多的。因此,若欲将二维空间的点投影到某个一维方向,则选择y轴方向能使信息1的损失降低到最小。我们称y1轴为第一主成分,而与y1轴正交的y2轴,有着较小的方差,称为第二主成分。第一主成分的效果与椭圆的形状有很大关系,椭圆越是扁平,n个点在y轴上的方差1就相对越大,在y轴上的方差就相对越小。2考虑这样两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量x和x2的相关程度几乎为零,也就是1说,x1和x2所包含的信息几乎互不重叠,因此无法用一个一维的综合变量来代替它们。另一种是椭圆扁平到了极限,变成y轴上的一条线段,第一主成分包含有二维空间点的100%11信息,仅用这一个综合变量代替原始的二维变量不会有任何的信息损失,此时的主成分分析效果是非常理想的。其原因是,原始变量x和x2可以相互确定,它们所含的信息是完全相1同的,因此使用一个综合变量也就完全足够了。§2总体的主成分一、主成分的定义及导出设x(x1,x2,,xp)为一个p维随机向量,并假定二阶矩存在,备注:k设X和Y是随机变量,若E(X),k1,2,存在,称它为X的k阶原点矩,简称k阶矩。若kE[XE(X)],k1,2,存在,称它为X的k阶中心矩。若E(X),k,l1,2,存在,称它为X和Y的kl阶混合矩。kYl若E[XE(X)][()],k1,2,存在,称它为X和Y的kl阶混合中心kYEYlkYEYl矩。显然,二维随机变量(1,X)X有四个二阶中心矩(设它们都存在),分别记为2c11E{[XE(X)]112}c12E{[X1E(X1)][X2E(X2)]}c21E{[X2E(X2)][X1E(X1)]}c22E{[XE(X22)]2}将它们排成矩阵的形式:c11c12c21c22这个矩阵称为随机变量(X1,X2)的协方差矩阵。设n维随机变量(1,X,,Xn)ov(X,X)E{[XE(X)][XE(X)]},i,j1,2,,nijijiijj都存在,n为n维随机变量(X1,X2,,Xn)的协方差矩阵。由于cijc(ij,i,j1,2,,n),因ji而上述矩阵是一个对称矩阵。一般,n维随机变量的分布是不知道的,或者是太复杂,以致在数学上不易处理,因此在实际应用中协方差矩阵就显得重要了。备注完毕。记E(x),V(x)。考虑如下的线性变换y1a11x1a12x2a1pxp'ax1y2a21x1ax222a2xpp'a2x()ypaxp11axp22appxp'apx我们希望y1是x1,x2,,xp的一切线性函数中方差最大的。因为''''2'2'V(a1x)aV(x)aaa,对任意的常数k,V(ka1x)kV(ax)kaa1,所111111以如不对a1加以限制,就会使问题变得没有什么意义。于是常常限制'aiai1,i1,2,,p()故我们希望在()的条件下寻求向量'a,使得V(y1)aa1达到最大,y1就称为第11一主成分。设01p(因为非负定)为的特征值,t1,t2,,tp为相应的单位2特征向量,且相互正交。则的谱分解为:01Tp2Ttii'ti()i10p其中(,,,)Tt1ttp为正交矩阵。2对p维单位向量a,有3pppppaaaiti'taii(ati)(at)(atiii2)1(ati2)1(ati2)i1i1i1i1i1pp1atti'aia(t1'tii)aaTT1aa1a1i1i1备注:t11t12t1pt11t21tp