文档名称：

第六章主成分分析.ppt

格式：ppt 大小：1,639KB 页数：100页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

第六章主成分分析.ppt

上传人:maritime_4 2018/7/11 文件大小：1.60 MB

下载得到文件列表

第六章主成分分析.ppt

相关文档

文档介绍

文档介绍：第六章主成分分析
第一节引言
第二节主成分的几何意义及数学推导
第三节主成分的性质
第四节主成分方法应用中应注意的问题
第五节实例分析与计算机实现
第一节引言
多元统计分析处理的是多变量(多指标)问题。
在实际问题中,为了尽可能完整地获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的遗漏,但增加了分析的复杂性。
同一问题所涉及到的众多变量之间会存在一定的相关性,这种相关性会使各变量的信息有所“重叠”。
人们自然希望通过克服相关性、重叠性,即对这些彼此相关的变量加以“改造”,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,从而通过对为数较少的新变量的分析达到解决问题的目的。
这实际上是一种“降维”的思想。
主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。
由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。
当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想
主成分分析着眼于考虑变量的“分散性”信息,主要目的是对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低原变量的维数,即用较少的“新变量”代替原来的各变量,即:(1)变量的降维;(2)主成分的解释。
一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;
因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。
我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。
变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。
主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。
主成分分析的数学模型是:
设p个变量构成的p维随机向量为X = (X1,…,Xp)′。对X作正交变换,令Y = T′X,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个分量的方差是最大的,第二个分量的方差次之,……,等等。
为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。
第二节主成分的几何意义及数学推导
一主成分的几何意义
二主成分的数学推导
设X=(X1,X2)且E(X)=0,n次观测数据xi=(xi1,xi2),
,即观测
数据的散点图大致是一条直线l,此时有两个变量。
作旋转变换
则在Oy1轴上, 分散性(样本方差)最大, 即选择θ使
的Var(Y1)最大,
一、主成分的几何意义
Y1基本上反映了二维信息.
主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。
假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内如图所示。
椭圆有一个长轴和一个短轴。在短轴方向上,
数据变化很少;在极端的情况,短轴如果
退化成一点,那只有在长轴的方向才能够
解释这些点的变化了;由二维到一维的降维
就完成了。