1 / 23
文档名称:

pca主成分分析原理及应用.doc

格式:doc   大小:149KB   页数:23页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

pca主成分分析原理及应用.doc

上传人:2028423509 2021/1/26 文件大小:149 KB

下载得到文件列表

pca主成分分析原理及应用.doc

相关文档

文档介绍

文档介绍:主元分析(PCA)理论分析及应用
什么是PCA?
       PCA是Principal component analysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。
       在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。
一个简单的模型
       在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。
       下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿 轴拉开一定的距离然后释放。
 
图表 1
       对于一个具有先验知识的实验者来说,这个实验是非常容易的。球的运动只是在x轴向上发生,只需要记录下 轴向上的运动序列并加以分析即可。但是,在真实世界中,对于第一次实验的探索者来说(这也是实验科学中最常遇到的一种情况),是不可能进行这样的假设的。那么,一般来说,必须记录下球的三维位置 。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设以 的频率拍摄画面,就可以得到球在空间中的运动序列。但是,由于实验的限制,这三台摄像机的角度可能比较任意,并不是正交的。事实上,在真实世界中也并没有所谓的
轴,每个摄像机记录下的都是一幅二维的图像,有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的: 。经过实验,系统产生了几分钟球的位置序列。怎样从这些数据中得到球是沿着某个 轴运动的规律呢?怎样将实验数据中的冗余变量剔除,化归到这个潜在的 轴上呢?
       这是一个真实的实验场景,数据的噪音是必须面对的因素。在这个实验中噪音可能来自空气、摩擦、摄像机的误差以及非理想化的弹簧等等。噪音使数据变得混乱,掩盖了变量间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。
       上面提出的两个问题就是PCA方法的目标。PCA主元分析方法是解决此类问题的一个有力的武器。下文将结合以上的例子提出解决方案,逐步叙述PCA方法的思想和求解过程。
线形代数:基变换
       从线形代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间。而新的基要能尽量揭示原有的数据间的关系。在这个例子中,沿着某 轴上的运动是最重要的。这个维度即最重要的“主元”。PCA的目标就是找到这样的“主元”,最大程度的去除冗余和噪音的干扰。
A.    标准正交基
为了引入推导,需要将上文的数据进行明确的定义。在上面描述的实验过程中,在每一个采样时间点上,每个摄像机记录了一组二维坐标 ,综合三台摄像机数据,在每一个时间点上得到的位置数据对应于一个六维列向量。
如果以 的频率拍摄10分钟,将得到 个这样的向量数据。
       抽象一点来说,每一个采样点数据 都是在 维向量空间(此例中 )的一个向量,这里的 是牵涉的变量个数。由线形代数我们知道,在 维向量空间中的每一个向量都是一组正交基的线形组合。最普通的一组正交基是标准正交基,实验采样的结果通常可以看作是在标准正交基下表示的。举例来说,上例中每个摄像机记录的数据坐标为 ,这样的基便是 。那为什么不取 或是其他任意的基呢?原因是,这样的标准正交基反映了数据的采集方式。假设采集数据点是 ,一般并不会记录 (在 基下),因为一般的观测者都是****惯于取摄像机的屏幕坐标,即向上和向右的方向作为观测的基准。也就是说,标准正交基表现了数据观测的一般方式。
       在线形代数中,

最近更新

2022高考志愿填报指南手册 高考志愿填报指南 6页

2023年物理中考总复习阶段测试卷三 (热学)专题.. 8页

531问效法学用5条收获 5页

HR月度工作总结报告5篇 12页

《中学生上网问题及解决办法的研究》结题报告.. 12页

《应用文写作》教学大纲 19页

《父亲名荣芳》的阅读答案 5页

《设计学概论》填空、名词解释、简答考研题型.. 10页

【实验报告】家兔动脉血压的神经体液调节影响.. 9页

一次性使用医用口罩(非无菌)医疗器械安全有效.. 16页

三年级语文下册《阅读理解》练习题(含答案) 10页

专题03 句子排序-2022-2023学年三年级英语上册.. 6页

中华人民共和国招标投标法解读 6页

中学生心理健康访谈记录 12页

中西文化差异对我国跨文化传播的影响及相关策.. 5页

书籍《城南旧事》读书心得体会10篇 12页

五年级科学上生物与环境第7课 设计和制作生态.. 8页

人工智能应用技术基础期末试卷及答案AB卷2套 6页

人教版六年级下册数学小升初模拟试卷二(含答案.. 8页

企业信息管理第二次形考答案 7页

传染病名词解释、简答题、病例分析(含答案) 25页

保险公司车商部工作总结 11页

免疫学基础和病原生物学《病原生物学与免疫学.. 7页

六年级作文我的心愿400字【七篇】 5页

关于施工企业项目成本管理的分析 4页

冀教版四年级数学上册第五单元综合素质达标附.. 7页

分割车间述职报告范文3篇 述职报告 7页

初中物理100个必考知识点 7页

肝功能衰竭HepaticFailure课件 36页

历史文物保护单位的规划与利用——以北海第五.. 6页