1 / 18
文档名称:

主成分分析及R语言案例.doc

格式:doc   大小:385KB   页数:18页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析及R语言案例.doc

上传人:小sjj 2021/12/10 文件大小:385 KB

下载得到文件列表

主成分分析及R语言案例.doc

文档介绍

文档介绍:上海大学
2013? 2014学年春季学期研究生课程考试
课程名称:
统计中的矩阵应用 课程编号:01SAQ9005
论文题目:
主成分分析及R语言案例
研究生姓名:
李腾龙 学号: 13720067
研究生班级:
理学院统计系
论文评语:
成绩:
任课教师:
日期:
主成分分析及R语言案例
摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作 中主成分分析
方法的具体步驟,并同时叙述了作者对主成分分析的一些 想法和心得。更重要的是,
通过本次论文的学****更加深入地学****了统 计中的矩阵应用的相关知识点,并通过一
个案例分析,使自己能够初步 了解并掌握R语言统计分析软件的使用方法。
关键词:主成分分析、R语言、特征值、特征向董
、引言
在用统计分析方法研究多变量的课题时?变量个数太多就会增加课题的复杂 性。
人们自然希望变量个数较少而得到的信息较多。在很多情形 .变量之间是有 一定的相关
关系的•当两个变量之间有一定相关关系时•可以解释为这两个变量 反映此课题的信息 有一定的重叠。主成分分析是对于原先提出的所有变量 •建立尽可能少的新变量,使得
这些新变量是两两不相关的,而且这些新变量在反映课 题的信息方面尽可能保持原有
的信息。
主成分分析(Principal Component Analysis. PCA)?就是将多个变量通过 线性变换
以选出较少个数重要变量的一种多元统计分析方法 •又称主分量分析•
主成分分析所关心的问题?是通过一组变量的儿个线性组合来解释这组变量 的方 差?协方差结构•它的一般目的是:(1)数据的压缩;(2)数据的解释。
虽然要求p个成分可以再现全系统的变异性?但大部分变异性常常只用少数 k个 主成分就可以说明。岀现这种情况时•这k个主成分中所包含的信息和那 p个原变量所 包含的(几乎)一样多。于是这
k个主成分就可以用來取代那初试的 P个变量•并且由对 p个变量的n次测量值所组成的原始数据•就压缩为对k个 主成分的n次测量值所组成
—、主成分分析基本原理
的数据集。
2・1主成分的定义
方法
概念:主成分分析是把原来多个变量划为少数儿个综合指标的一种统计分析
从数学角度来看,这是一种降维处理技术
思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析 问题
的难度和复杂性•利用原变量之间的相关关系,用较少的新变量代替原来较 多的变量■
并使这些少数变量尽可能多的保留原来较多的变量所反应的信息 •这样问题就简单化
了。
原理:假定有n个样本?每个样本共有 矩阵.
记原变量指标为笛X2,.?? ,Xp,设它们降维处理后的综合指标,即新变量为 丫 ,
禺,…'X/mS) ?贝U
斗=aiiXi + ai3X2 + --+aipxp
X a21A + a22X2 + ???+ hXp
<
主成分是那些不相关的线性组合•卑?使他们的方差尽可 能的大。因此我们定义:
第一主成分二线性组合a; X,在a; ai =1时,它使Var (a; X)最大;
第二主成分二线性组合a; x?在a; a2=l和Cov (a; X,a; X) =
Var (a; X)最大:
第i个主成分二线性组合a; X ,在a; ai= 1和Cov (a; X,a; X) = 0 (k<i)
使Var (a; X)最大;
2. 2基本结论
结论8山 设E是随机向量X'[X],X2 , ??? XJ的协方差矩阵,他有特征值 特征向量(人占),(儿 0),…,(% $) ?其中恥处…卒?则第 i个主成分由
i=l,2,??
? ,p
iHk
X = e; X = + ei2X2 + ? ? ?+ eXp, i = 12,-P
给出,此时:
Var(X) = e ;》e】二人
Cov(X, X) = e;
Eek=0
的了
,随机变量X=[X x X2 Xp]具有协方差矩阵其特征值-
特征向量为(人,勺),(人尼),??,(舛心),其中4泌n…込20,设第i个主成
分为 X = e; X, i=l,2,-p
p p
则总休总方差 巾+ 0J2 + ??? + <Tp =工Var(XJ二人+人+…+州=AVai(X)
i=l i=l
'总方差中属于第丿心_
、k个主成分的比例丿一人+人+
???+坷
如果总方差的相当大的部分归因于第一个、前两个或前三个主成分 .
些成分就可以“取代”原来的 p个变