1 / 16
文档名称:

05主成分分析.docx

格式:docx   大小:343KB   页数:16页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

05主成分分析.docx

上传人:漫山花海 2019/10/23 文件大小:343 KB

下载得到文件列表

05主成分分析.docx

相关文档

文档介绍

文档介绍:Forpersonaluseonlyinstudyandresearch;mercialuse主成分分析专题§1引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如个指标),较多的指标会带来分析问题的复杂性。然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始个指标的某种线性组合。为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。例如,考虑=2的情形,假设共有个样品,每个样品都测量了两个指标,它们大致分布在一个椭圆内。如图所示。显然,在坐标系中,个点的坐标和呈现某种线性相关性。我们将该坐标系按逆时针方向旋转某个角度变成新坐标系,这里是椭圆的长轴方向,是短轴方向。旋转公式为易见,个点在新坐标系下的坐标和几乎不相关。和称为原始变量和的综合变量,个点在轴上的方差达到最大,即在此方向上所含的有关个样品间差异的信息是最多的。因此,若欲将二维空间的点投影到某个一维方向,则选择轴方向能使信息的损失降低到最小。我们称轴为第一主成分,而与轴正交的轴,有着较小的方差,称为第二主成分。第一主成分的效果与椭圆的形状有很大关系,椭圆越是扁平,个点在轴上的方差就相对越大,在轴上的方差就相对越小。考虑这样两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量和的相关程度几乎为零,也就是说,和所包含的信息几乎互不重叠,因此无法用一个一维的综合变量来代替它们。另一种是椭圆扁平到了极限,变成轴上的一条线段,第一主成分包含有二维空间点的100%信息,仅用这一个综合变量代替原始的二维变量不会有任何的信息损失,此时的主成分分析效果是非常理想的。其原因是,原始变量和可以相互确定,它们所含的信息是完全相同的,因此使用一个综合变量也就完全足够了。§2总体的主成分一、主成分的定义及导出设为一个维随机向量,并假定二阶矩存在,备注:设和是随机变量,若,存在,称它为的阶原点矩,简称阶矩。若,存在,称它为的阶中心矩。若,存在,称它为和的阶混合矩。若,存在,称它为和的阶混合中心矩。显然,二维随机变量有四个二阶中心矩(设它们都存在),分别记为将它们排成矩阵的形式:这个矩阵称为随机变量的协方差矩阵。设维随机变量的二阶混合中心矩,都存在,则称矩阵为维随机变量的协方差矩阵。由于(),因而上述矩阵是一个对称矩阵。一般,维随机变量的分布是不知道的,或者是太复杂,以致在数学上不易处理,因此在实际应用中协方差矩阵就显得重要了。备注完毕。记,。考虑如下的线性变换()我们希望是的一切线性函数中方差最大的。因为,对任意的常数,,所以如不对加以限制,就会使问题变得没有什么意义。于是常常限制()故我们希望在()的条件下寻求向量,使得达到最大,就称为第一主成分。设(因为非负定)为的特征值,为相应的单位特征向量,且相互正交。则的谱分解为: ()其中为正交矩阵。对维单位向量,有备注:备注完毕。即第一主成分方差的上确界为。当取时,有()或所以,就是所求的第一主成分,它的方差具有最大值。如果第一主成分所含信息不够多,还不足以代表原始的个变量,则需考虑使用,为了使所含的信息与不重叠,应要求()于是,我们在约束条件()式和()式下寻求向量,使达到最大,所求的称为第二主成分。类似地,我们可以再定义第三主成分、…、第主成分。一般来说,的第主成分是指:在约束条件()和()下寻求,使得达到最大。现在我们来求维单位向量,使得为第二主成分。由()式知由于,所以,即与正交。从而故若取,则有()所以,就是所求的第二主成分,具有方差。一般地,我们可求得第主成分为,它具有方差,。二、,,由于()故主成分的均值为()协方差矩阵为(),备注:若,均为方阵,则。备注完毕。所以()或由此可以看出,主成分分析把个原始变量的总方差分解成了个不相关的变量的方差之和。主成分分析的目的就是为了减少变量的个数,一般是不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。我们称为主成分的贡献率;第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取()个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常取,使得累计贡献