1 / 58
文档名称:

第04章主成分分析.ppt

格式:ppt   大小:2,129KB   页数:58页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第04章主成分分析.ppt

上传人:落意心冢 2022/6/17 文件大小:2.08 MB

下载得到文件列表

第04章主成分分析.ppt

相关文档

文档介绍

文档介绍:第04章主成分分析
综合得分:
引言
变量太多会增加计算的复杂性
变量太多给分析问题和解释问题带来困难
变量提供的信息在一定程度上会有所重叠
用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息
引言
。这时,第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 , 与 的相关系数为

设 的协方差矩阵为
相应的相关矩阵为
分别从 和 出发,作主成分分析。

解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为
的两个主成分分别为
第一主成分的贡献率为

与 , 的相关系数分别是
我们可以看到,由于 的方差很大,%的第一主成分( 在 ),淹没了变量 的作用。
如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为

的两个主成分分别为
此时,第一个主成分的贡献率有所下降,为
注:当涉及的各变量的变化范围差异较大时,从 出发求主成分比较合理。
样本主成分

为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为
其中
样本主成分
设 是样本协方差矩阵,其特征值为
相应的正交单位化特征向量为 ,这里
。则第 个样本主成分为
其中 为X的任一观测值。当依次代入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分。有
样本主成分
第 个样本主成分的贡献率定义为 ,
前 个样本主成分的累计贡献率定义为 。
样本主成分
同样,为了消除量纲的影响,我们可以对样本进行标准化,即令
则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵 。由 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。
样本主成分
实际应用中,将样本 代入各主成分
中,可得到各样本主成分的观测值
原变量
主成分
1
2
序号
PROC PRINCOMP
可对输入资料文件做主成分分析
输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等
输出包括相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值等
PROC PRINCOMP
Proc princomp 选项串;
var 变量名称串;
partial 变量名称串;
freq 变量名称串;
weight 变量名称串;
by 变量名称串;
PROC PRINCOMP
Proc princomp options;
data=sas data set:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(type=corr)或协方差矩阵(type=cov)。若省略数据集选项,则自动使用最新建立的sas数据集。
PROC PRINCOMP
Proc princomp options;
out=sas data set:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。
outstat=sas data set:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出s