1 / 11
文档名称:

主成分分析.docx

格式:docx   大小:34KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析.docx

上传人:森森 2022/4/26 文件大小:34 KB

下载得到文件列表

主成分分析.docx

文档介绍

文档介绍:
主成分分析


空气污染和径赛纪录问题分析

摘 要 本文运用主成分分析法,主要探讨空气污染和女子径赛纪录的数据分析问题,并说明主成分的实际意义。
针对问题一,以中 页 共 11 页










; 。

1
四、符号说明
符号
n
p
含义 样本个数 变量个数
样本方差〔i?1,2,?n〕 原始变量〔i?1,2?p〕
样本主成分 样本协方差 样本相关矩阵 样本平均值〔i?1,2?p〕
协方差矩阵 特征向量矩阵
矩阵的特征值〔i?1,2?p〕 矩阵的特征向量i?1,2?p
第一主成分得分
?ii
xi
yi
Cov?Xi,Xj?
R ?i
?
P










?i
ei
D

五、模型的建立及求解
由问题分析可知,主成分分析是常见的处理多变量生活问题的解决方法,其主要是构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息。下面将对某城市42天中午的空气污染数据和55个国家的7项女子径赛记录数据作主成分分析。 主成分分析原理及步骤 主成分定义
假定有n个样本,每个样本共有p个变量,构成n?p阶的数据矩阵
?x11?x21?X?????x?n1x12?x1p??x22?x2p????
?xn2?xnp??当p较大时,在p维空间内考虑问题比拟麻烦。为克制这一困难,就须要进展降
维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些综合指标尽量多地反映原来指标所反映的信息,这些综合指标即为主成分。主成分定义如下:记x1,x2,…,xp为原变量指标,y1,y2,…,ym(m?p)为新变量指标
2
?y1?l1TX?l11x1?l12x2???l1pxp?T?y2?l2X?l21x1?l22x2???l2pxp ????y?lTX?lx?lx???lxm11m22mpp?mm22其中li2,系数lij确实定原那么: 1?li2???lip?1(1)yi与yj(i?j;i,j?1,2,?m)相互无关










(2)y1是x1,x2,…,xp的一切线性组合中方差最大者;y2是与y1线性无关的x1,x2,…,xp的全部线性组合中方差最大者;…;ym是与y1,y1,…,ym?1都线性无关的x1,x2,…,xp的全部线性组合中方差最大者。
那么新变量指标y1,…,…,…,xp的第1,2,y2,ym分别称为原变量指标x1,x2,
m主成分。[1]
利用协方差矩阵做主成分分析

样本数据的协方差矩阵为??(sij)p?p,其中
1nsij?(xki?xi)(xkj?xj)(i,j?1,2,?,p) (1) ?n?1k?
求出?的特征值?i,前m个较大特征值为?1??2????m?0,及相应的正交单位特征向量ei。由分析可知?m分别对应前m个主成分的方差,ei为第i个主成分yi关于原变量的系数,所以zi表示为yi?ei'X,主成分yi的方差奉献率?i为
?i??i/??k (2)
k?1p用来表示第i个主成分反映信息量的大小。
y1,y2,…,ym中m确实定是通过方差累计奉献率G(m)确定
G(m)???i/??k (3)
i?1k?1mp当累计奉献率大于85%时,就认为能足够反映原来变量的信息,对应的m为抽取的前m个主成分。
第8