文档介绍:第11章主成分分析与因子
X的方差(方差—协方差矩阵)为
由于通过这一表达式计算得到的矩阵不仅包括方差也包括协方差,所以常称它为方差—协方差矩阵,记为Var-Cov(X)(在不引起混淆的情况下也称为方差矩阵或协方差矩阵,记为Var(方差大部分都归结在Yl轴上,而Y2轴上的方差很小。Yl和Y2称为原始变量X1和X2的综合变量。Y简化了系统结构,抓住了主要矛盾。
为什么要根据方差确定主成分?
情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息
有关矩阵知识的回顾
一、两个线性代数的结论
其中 是A的特征根。
1、若A是k阶实对称阵,则一定可以找到正交阵U,使
2、若上述矩阵A的各特征根所对应的单位特征向量为
则实对称阵 属于不同特征根所对应的特征向量构成的矩阵是正交的,即有
令
即
主成分的计算结论
(一) 第一主成分
设X的协方差阵为
由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得
或
其中1, 2,…, k为Σx的特征根,不妨假设1 2 … k 。而U恰好是由特征根相对应的单位特征向量所组成的正交阵。
下面我们来看,是否由U的第一列元素为组合系数所构成的原始变量的线性组合是否有最大的方差。
设有k维单位向量
即
当且仅当a1 =u1时,即 时,
有最大的方差1。因为 。
如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
在约束条件 下,寻找第二主成分,取
因为
所以约束条件 满足。
而,对k维单位向量 ,若 且 则有
所以如果取线性变换:
则 的方差就可达到第二大。
第一主成分
第二主成分
…
第 k 主成分
依此类推
写为矩阵形式:
是协方差矩阵Cov(X)的单位特征根构成的矩阵
主成分的性质
一、均值
二、方差为所有特征根之和
说明主成分分析把k个随机变量的总方差分解成为k个不相关的随机变量的方差之和。
协方差矩阵的对角线上的元素之和等于特征根之和。
其中
精度分析
1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为它的贡献率。贡献率说明该主成分反映了原来k个指标多大的信息,有多大的综合能力 。
2)累积贡献率:前s个主成分共有多大的综合能力,用这s个主成分的方差和在全部方差中所占比重
来描述,称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能少的主成分Y1,Y2,…,Ys(s≤k)代替原来的k个指标。到底应该选择多少个主成分,在实际工作中,采用的主成分个数s的多少取决于它们是否能够反映原来变量85%以上的信息量,即当累积贡献率≥85%时, 主成分的个数就足够了。一些常见的问题中主成分为2到3个。
一个简单的等价算法
1. 数据的标准化
对样本数据矩阵Xkn中的数据Xij进行标准化处理:
处理后的数据构成的矩阵记为x
2. 两个重要结论
x的协方差矩阵Cov(x)的特征根和单位特征向量与原来数据X的协方差矩阵Cov(X)的特征根和单位特征向量相同.
由X的原来数据所求得的相关系数矩阵Rk k = 标准化后的协方差矩阵Cov(x)
3. 主成分的简化算法
(1)由X的原始数据求出相关系数矩阵Rk k;
(2)求R的特征根1, 2,…, k(从大到小排列)及一组相互正交的单位特征向量b1,b2,…,bk;
(3)取1, 2,…, q,使得累积贡献率满足
则 即为所求。
对于步骤(3),也可以按如下方式进行:
取所有特征根大于1的特征向量(设有s个)来计算主成分,即
注:这种方法计算得到的主成分个数,可能与(3)中不同,因而有可能累积贡献率达不到85%以上。
例 在企业经济效益的评价中,,抓住经济效益评价中的主要问题,,市,自治区独立核算的工业企业的经济效益评价中,涉及到