文档介绍:华东理工大学 East China University of Science And Technology 主成分分析及其在回归分析中的应用 ponent Analysis ( PCA ) And Its Application in Regression 主成分分析的直观譬喻?小学各科成绩的总体评估: ?a1×語文+ a2×数学+ a3×自然+ a4×社会科学?确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相当于新的综合变量——主成分什么是主成分分析? ?推而广之, 当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是 PCA 。?这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。什么是主成分分析? ?主成分分析(ponent Analysis, 简称 PCA) 是一种常用的基于变量协方差矩阵(相关矩阵) 对信息进行处理、压缩和抽提的多元统计方法。为什么要进行主成分分析? 有时这些信息往往是重叠与冗余的: 即数据矩阵中存在相关的行或列测试数据矩阵表示信息的载体 PCA 能将许多相关性很高的变量转化成彼此互相独立的变量:即用个数较少的、能解释大部分原始数据方差的变量去替代大部分原始变量一个例子?例6-1 :亮氨酸和异亮氨酸是同分异构体,在合成亮氨酸的反应中副产物异亮氨酸的的分离十分困难,希望采用紫外分光光度法分析反应产物中目标化合物亮氨酸的含量。亮氨酸、异亮氨酸溶液在适当条件下可与茚三酮反应, 生成有色络合物。以试剂空白作参比,采用口径为 1cm 的比色皿、在 530nm 到 590nm 间每隔 4nm 可测得亮氨酸和异亮氨酸溶液的紫外光谱如下图所示。 530 550 570 590 异亮氨酸亮氨酸步骤 1—构造建模样品、采集其光谱?配制不同浓度的亮氨酸、异亮氨酸组成的 16 个混合样品(设其浓度矩阵为),测得其在 546-594nm 间12个波长点下的紫外吸光度(记其吸光度矩阵为)。根据多组分、多通道 Lamber -beer 定律 2-4(b) 有( 6-2 ) 216?X 12 16?Y 12 22 16 12 16????BXY 步骤 2—求吸光度系数矩阵?由( 4-14 )可得上式的最小二乘多元线性回归解为: ( 6-3 ) ?将 16 个建模样品的浓度矩阵 X与吸光度矩阵 Y代入上式可得: 12 16 16 2 12 16 16 2 12 2)( ???????YXXXB T????????0477 .00498 .00476 .0 0622 .00634 .00595 .0 12 2?? B 步骤 3—模型的检验?配制 3个混合样本(记其浓度矩阵为,测定这 3个样本在对应波长下的吸光度矩阵?则?求解上式,有: ( 6-5 ) ?将B矩阵及代入上式可得 3个检验集样本的浓度矩阵如下表 uY 12 3? 12 223 12 3????BXY uu 2 3 uX ?-1212 12 2212 12 32 3)( T TuuBBBYX ?????? uY 12 3?