1 / 37
文档名称:

主成分分析法new.ppt

格式:ppt   页数:37
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析法new.ppt

上传人:企业资源 2011/12/12 文件大小:0 KB

下载得到文件列表

主成分分析法new.ppt

文档介绍

文档介绍:第四讲主成分分析法
主成分分析法的基本原理
主成分分析(ponents Analysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
基本思想

对原始变量相关矩阵结构关系进行研究,找出影响某一经济过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。
借助于一个正交变换T,将其分量相关的原随机向量x=(x1,x2,L,…,xp)T,转化成其分向量不相关的新随机向量u=(u1,u2,L,…,up)T ,这在代数上表现为将x的协方差阵变换成对角形阵,在几何上表现为将远坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维度变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
定义: 称为第k主成分分量的方差贡献率, 称为前k个主成分分量的累计方差贡献率。
例:儿童身高和体重两个变量之间的关系。下表表示儿童身高与体重数据:
变量
观测量
身高h
体重w
1
h1
w1
2
h2
w2
3
h3
w3



n
hn
wn
使用散点图表示儿童身高与体重
y1
y2
w
h
θ
i=1,2,┅┅,n
以该直线为一个坐标轴y1,以该轴的垂直线为另一个坐标轴y2。因为所有观测点均在坐标轴y1周围,而 y1 与 y2 是两个相互垂直的坐标轴,因此彼此不相关。

上述也可以看成是将h轴和w轴同时按逆时针方向旋转θ角度,得到新的坐标轴y1和 y2 ,y1和 y2是两个新的变量。
根据旋转公式
y1=h cosθ+ w sinθ
y2=-h sinθ+ w cosθ
我们看到新变量 y1和 y2 是原变量h和w的线性组合,它的矩阵表示形式为
y1 cosθ sinθ h
= =U’x
y2 一sinθ cosθ w
其中U’为正交矩阵,即有U’=U-1,U’ U-1=I
旋转变换的目的是为了使得n个样本点在 y1 轴方向上的离散程度最大,即 y1的方差最大。变量 y1 代表了原始数据的绝大部分信息,即把原始数据的信息集中到 y1轴上,对数据中包含的信息起到了浓缩作用。
y1和 y2 可称为原始变量h和w的综合变量。由于n个点在 y1 轴上的方差最大,因而将二维空间的点的描述用 y1这个综合变量来代替,所损失的信息最小,由此称 y1 为第一主成分,y2为第二主成分。