1 / 8
文档名称:

PCA(主分量分析法).docx

格式:docx   大小:225KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

PCA(主分量分析法).docx

上传人:陈潇睡不醒 2020/12/29 文件大小:225 KB

下载得到文件列表

PCA(主分量分析法).docx

文档介绍

文档介绍:PCA(主分量分析法)
协方差矩阵——PCA的关键。
   PCA的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可能小,而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先,我们得需要知道各维度间的相关性以及个维度上的方差!那有什么数据结构能同时表现不同维度间的相关性以及各个维度上的方差呢?自然是非协方差矩阵莫属。回忆下《浅谈协方差矩阵》的内容,协方差矩阵度量的是维度与维度之间的关系,而非样本与样本之间。协方差矩阵的主对角线上的元素是各个维度上的方差(即能量),其他元素是两两维度间的协方差(即相关性)。我们要的东西协方差矩阵都有了,先来看“降噪”,让保留下的不同维度间的相关性尽可能小,也就是说让协方差矩阵中非对角线元素都基本为零。达到这个目的的方式自然不用说,线代中讲的很明确——矩阵对角化。而对角化后得到的矩阵,其对角线上是协方差矩阵的特征值,它还有两个身份:首先,它还是各个维度上的新方差;其次,它是各个维度本身应该拥有的能量(能量的概念伴随特征值而来)。这也就是我们为何在前面称“方差”为“能量”的原因。也许第二点可能存在疑问,但我们应该注意到这个事实,通过对角化后,剩余维度间的相关性已经减到最弱,已经不会再受“噪声”的影响了,故此时拥有的能量应该比先前大了。看完了“降噪”,我们的“去冗余”还没完呢。对角化后的协方差矩阵,对角线上较小的新方差对应的就是那些该去掉的维度。所以我们只取那些含有较大能量(特征值)的维度,其余的就舍掉即可。PCA的本质其实就是对角化协方差矩阵.
PCA的本质是对角化协方差矩阵,目的是让维度之间的相关性最小(降噪),保留下来的维度的能量最大(去冗余)。
PCA简介以及模型
  Web的发展产生了大量的数据,尤其是现在的互联网公司,集结了大量的用户信息。,怎样从这些复杂混乱的数据中提取有用的信息才是重点。我们举一个物理模型
如图所示:
  当把一个弹簧球沿着X方向进行拉伸的时候,弹簧球会在X方向上进行来往复运动。假设我们有三个相机,用来描述弹簧球的运动轨迹,分别为CameraA(x,y,z),CameraB(x,y,z),CameraC(x,y,z),相机的摆放并不呈现正交。
  感官上,如果以小球运动的平面作为XOY平面,我们可以最大限度的描述小球的运动轨迹,毕竟小球只是在X方向上进行往返运动,可是在相机A,B,C中却会对同一时刻的小球位置产生三个不同的描述,这是因为三个相机有不同的坐标系,因此,如何从三个相机中产生的冗余数据进行去除,得到最佳的描述小球运动轨迹的信息,正是PCA的功劳。
  线性代数中对PCA这样进行描述:PCA的目标就是用另一组基去重新描述得到的数据空间,而新的基要尽可能的描述原有数据间的关系,简单总结:一方面要体现出最主要的特征,另一方面要区分开主要特征和次要特征的差距。上面的例子中,沿着X轴进行运动无疑是最主要的特征,也就是我们所说的“主元”。那么怎样才能最好的表示原数据呢?无疑是选择最好的基,那怎样的基才是最好的基呢?关于基的概念,线性代数给出这样的描述:
  在线性空间V中,如果存在n个元素a1,a2,a3,...,an,满足
  (1)a1,a2,a3,...,an线性无关
  (2)V中的任何元素都