1 / 17
文档名称:

PCA主成分分析法原理分析.doc

格式:doc   大小:114KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

PCA主成分分析法原理分析.doc

上传人:wxc6688 2021/1/21 文件大小:114 KB

下载得到文件列表

PCA主成分分析法原理分析.doc

相关文档

文档介绍

文档介绍:PCA主成分分析原理
一、概述
在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:
ê主成分个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
ê主成分能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
ê主成分之间应该互不相关
通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。
ê主成分具有命名解释性
总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。
二、基本原理
主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F1表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,
F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。
根据以上分析得知:
(1) Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵
(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。
F1,F2,…,Fm(m≤p)为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。
由以上分析可见,主成分分析法的主要任务有两点:
(1)确定各主成分Fi(i=1,2,…,m)关于原变量Xj(j=1,2 ,…, p)的表达式,即系数( i=1,2,…,m; j=1,2 ,…,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值(这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数,为了加以限制,系数启用的是对应的单位化的特征向量,即有= 1。
(2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度:
三、主成分分析法的计算步骤
主成分分析的具体步骤如下:
(1)计算协方差矩阵
计算样品数据的协方差矩阵:Σ=(sij)p´p,其中
i,j=1,2,…,p
(2)求出Σ的特征值及相应的正交化单位特征向量
Σ的前m个较大的特征值l1³l2³…lm>0,就是前m个主成分对应的方差,对应的单位特征向量就是主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:
Fi =X
主成分的

最近更新

中医科护理培训ppt课件 27页

一级建造师之一建工程法规题库1000道精品(历.. 330页

中医基础起居护理内容ppt课件 27页

一级建造师之一建港口与航道工程实务题库1000.. 306页

综合解析湖南张家界民族中学物理八年级下册期.. 19页

一级建造师之一建港口与航道工程实务题库1000.. 307页

一级建造师之一建港口与航道工程实务题库1000.. 306页

一级建造师之一建港口与航道工程实务题库1000.. 307页

安全员继续教育考试题库1000道及参考答案【突.. 281页

安全员继续教育考试题库1000道含答案【研优卷.. 284页

安全员继续教育考试题库1000道精品及答案 280页

演出经纪人之演出市场政策与法律法规题库400道.. 117页

演出经纪人之演出市场政策与法律法规题库400道.. 117页

演出经纪人之演出市场政策与法律法规题库400道.. 117页

演出经纪人之演出市场政策与法律法规题库400道.. 116页

演出经纪人考试题库1000道【夺分金卷】 274页

演出经纪人考试题库1000道附完整答案(有一套.. 275页

绝缘油试验规程 5页

中医护理ppt课件目录 26页

2024年天府新区航空旅游职业学院单招综合素质.. 57页

中医妇科护理学ppt课件 25页

2024年山东省潍坊市高职单招职业适应性测试题.. 73页

2024年惠州工程职业学院单招职业适应性测试题.. 55页

2024年无锡工艺职业技术学院单招综合素质考试.. 74页

2024年江西省萍乡市高职单招职业适应性测试题.. 74页

2024年河源职业技术学院单招职业适应性测试试.. 74页

竞聘书之电信班组长竞聘报告 7页

竞聘书之班组长竞聘报告范文 13页

新生儿中药药浴PPT 24页

2023年免疫规划工作总结(精选12篇) 17页