1 / 4
文档名称:

主成分分析90785.doc

格式:doc   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析90785.doc

上传人:yzhlya 2016/4/20 文件大小:0 KB

下载得到文件列表

主成分分析90785.doc

相关文档

文档介绍

文档介绍:基本原理首先,我们以包含两个变量的教学系统___ 两门课程的学****成绩为例设课程 x1与 x2 时两门有一定相关性的课程,如: 数学与物理。N 名学生的学****成绩为: ( xi1 , xi2 ) i=1 ~n(8— 22 ) 将这 n 组数据描在 x1-x2 平面上,则有图 (p=2 的主成分) 所示的图形。由于 x1,x2 时两门相关性的课程, 学****成绩在 x1-x2 平面上分布集中在椭圆形的范围内(图 a) 。该椭圆是一种狭长形的椭圆,数据在长轴的方向上变化较大。从图可知,为了评价学生的成绩, x1,x2 都是必需的,不能偏废某一个。由于 x1,x2 集中在一个狭长的范围内, 我们可对这些数据作某种变化, 将它变换到 z1~ z2 平面上,则有图 b 。从图 b 可知,在 z1~ z2 坐标中, z1,z2 的相关性较小, 且数据在 Z1 轴上的分散较大,在 Z2 轴上的分散较小。由于进行了这宗变幻,由 Z1 就能对学生的成绩进行综合评价,且 Z1 包含有 X1 , X2 给出的信息。这样, 经过一定的变换后, 我们将以两个变量 X1 , X2 评价学生成绩的系统,变换为主要由一个变量 Z1 对学生的成绩进行评价。此时,我们称 Z1 第一主成分。显然,若 X1 , X2 不是相关的, X1 , X2 在 X1-X2 平面上的分布将是一种随机的均匀分布的图形(图 c) 。这些数据经 Z 变换后,在 Z 平面上的分布仍是一种均匀的分布,不可能找到上述的主成分。同样,对于 P 门课程的成绩,我们进行分析。可用 P 维空间中的矢量: xi =(xi1,xi2,xip) i=1 —n (8-23) 来表示。式中, n 为学生数, p 为课程门数。若 p 门课程具有一定的相关性,通过某种变换,我们可以找到一种新的 m 维综合变量空间, 且有 m<p 。在这个空间中, 变量间的相关性较小。使用这种新的变量, 可以做到, 以较小的变量, 对学生的成绩进行综合评价。主成分分析是一种将彼此相关的 p 个变量(特性) x1,x2, … xp 所具有的信息,以满足以下两种条件: (1) Zk 与 Zk '不相关( k≠ k',k、 k'=1 、2…m)。(2) z1,z2, … zm 的分散逐次减小,即 z1 的分散>z2 的分散>…>zm 的分散的 m 个综合特征值 z1,z2, … zm(m<p) 所表示的统计分析方法。在 m 个特征值中,我们称 Zi(i=1 — m) 为第 i 主成分。主成分分析是一种进行信息压缩的方法。通过这种方法, 可以将原来相关的若干变量, 变换成不相关的变量。 主成分分析的方法详细分析设p 维空间的向量为: ( 8-24 ) 即总体中的每一个样本有 P 个指标,其平均为,方差为 u0 。我们的任务是寻找 m 个综合指标 Y1,Y2 … Ym(m p), 要求这 m 个综合指标能充分反映原来 P 个指标的信息,而且彼此间应该式不相关的。设m 个指标与 P 个指标间具有以下现行变换关系: ( 8-25 ) 式中,, 满足( k=1~m) 称为变换系数。在决定时,应满足以下要求: (1) Yi与 yj(i j, i,j=1,2, …q )相互独立; (2) Y1 的方差〉 Y2 的方差>Ym 的方差。分别称 Y1,Y1