1 / 14
文档名称:

主成分分析发明人.pdf

格式:pdf   大小:692KB   页数:14页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主成分分析发明人.pdf

上传人:3144187108 2022/7/23 文件大小:692 KB

下载得到文件列表

主成分分析发明人.pdf

相关文档

文档介绍

文档介绍:: .
。非线性降维技术相对于 PCA 来说则需要
更高的计算要求。
PCA 对变量的缩放很敏感。如果我们只有两个变量,而且它们具有相同的样本方差,并且成正相关,
那么 PCA 将涉及两个变量的主成分的旋转。但是,如果把第一个变量的所有值都乘以 100,那么第一
主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,第二主成分也将和第二个原始变量
几乎一致。这就意味着当不同的变量代表不同的单位(如温度和质量)时,PCA 是一种比较武断的分
析方法。但是在 Pearson 的题为 "On Lines and Planes of Closest Fit to Systems of Points in Space"
的原始文件里,是假设在欧几里得空里不间 考虑这些。 一种使 PCA 不那么武断是方法是使用变量缩放
以得到单位方差。
[编辑]讨论通常,为了确保第一主成分描述的是最大方差的方向,我们会使用平均减法进行主成分分析。如果不
执行平均减法,第一主成分有可能或多或少的对应于数据的平均值。另外,为了找到近似数据的最小
均方误差,我们必须选取一个零均值[5]。
假设零经验均值,数据集 X 的主成分 w 可以被定义为:
1

为了得到第 k 个主成分,必须先从 X 中减去前面的 个主成分:

然后把求得的第 k 个主成分带入数据集,得到新的数据集,继续寻找主成分。PCA 相当于在气象学中使用的经验正交函数(EOF),同时也类似于一个线性隐层神经网络。
隐含层 K 个神经元的权重向量收敛后,将形成一个由前 K 个主成分跨越空间的基础。但是与
PCA 不同的是,这种技术并不一定会产生正交向量。
PCA 是一种很流行且主要的的模式识别技术。然而,它并不能最优化类别可分离性[6] 。另一
种不考虑这一点的方法是线性判别分析。
[编辑]符号和缩写表
Dimensions 尺
Symbol 符号 Meaning 意义 Indices 指数


由所有数据向量集组成的数据矩阵,一列代表一个向量
数据集中列向量的个数 标量
每个列向量的元素个数 标量
子空间的维数, 标量
经验均值向量
经验标准方差向量
所有的单位向量对均值的偏离向量

Z-分数,利用均值和标准差计算得到

协方差矩阵