文档介绍:第六章主成分分析
第一节引言
第二节主成分的几何意义及数学推导
第三节主成分的性质
第四节主成分方法应用中应注意的问题
第五节实例分析与计算机实现
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
在用统计分析方法研究多变量的问题时,变量个数太多就会增加问题的复杂性。人们自然希望用尽量少的变量来得到尽量多的信息。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此问题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
第一节引言
主成分分析(ponent Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法
,。
以主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。
主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。
主成分分析的数学模型是,设p个变量构成的p维随机向量为X = (X1,…,Xp)′。对X作正交变换,令Y = T′X,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,……,等等。为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。
第二节主成分的几何意义及数学推导
一主成分的几何意义
二主成分的数学推导
一、主成分的几何意义
主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,
X2),。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独
看这n个点的分量X1和X2,它们沿着x1方向和x2方向都具有
较大的离散性,其离散的程度可以分别用X1的方差和X2的方
差测定。如果仅考虑X1或X2中的任何一个分量,那么包含在
另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。
主成分的几何意义
易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它
们为原始变量X1和X2的综合变量,n个点在y1轴上的方差达
到最大,即在此方向上包含了有关n个样品的最大量信息。
因此,欲将二维空间的点投影到某个一维方向上,则选择y1
轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2
为第二主成分。第一主成分的效果与椭圆的形状有很大的关
系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在y2
轴上的方差就相对越小,用第一主成分代替所有样品所造成
的信息损失也就越小。