1 / 37
文档名称:

主成分分析ppt.ppt

格式:ppt   页数:37页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析ppt.ppt

上传人:q1188830 2015/12/18 文件大小:0 KB

下载得到文件列表

主成分分析ppt.ppt

相关文档

文档介绍

文档介绍:主成分分析
ponents Analysis,PCA
主成分的概念
在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间通常不是相互独立而是相关的。因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。
例如,一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。
假设观测指标共有p个,分别用x1, x2,…,xp,表示,将这些指标综合为一个指标的方法显然有很多,但最简单的方法是将这些指标用线性组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线性组合,即
我们希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的。
其中反映原始观测指标的变动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;……,
主成分分析( ponents Analysis )和因子分析(Factor Analysis)就是把变量维数降低以便于描述、理解和分析的方法。
主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标) ,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。
这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量(这与聚类分析不同),只是几个指标的综合。
在引入主成分分析之前,先看下面的例子。
成绩数据
53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。
从本例可能提出的问题
能不能把这个数据表中的6个变量用一两个综合变量来表示呢?
这一两个综合变量包含有多少原来的信息呢?
能不能利用找到的综合变量来对学生排序呢?
主成分分析的数学模型及几何意义
例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。
先假定只有二维,即只有两个变量,语文成绩(x1)和数学成绩(x2),分别由横坐标和纵坐标所代表;
每个学生都是二维坐标系中的一个点。
如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;
在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。





































假定语文成绩(X1) 和数学成绩(X2) 的相关系数ρ= 。
设 X1 和 X2 分别为标准化后的分数,右图为其散点图。