文档名称：

偏最小二乘方法.ppt

格式：ppt 大小：414KB 页数：47页

该资料是网友上传，本站提供全文预览，预览什么样，下载就什么样，请放心下载。

点击预览全文

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

偏最小二乘方法.ppt

上传人:相惜 2021/7/28 文件大小：414 KB

下载得到文件列表

偏最小二乘方法.ppt

相关文档

文档介绍

文档介绍：第六章偏最小二乘方法
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法，在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中，数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量，其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数，所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下，亦可运用主成分回归方法，但不能够运用一般的多元回归分析，因为一般多元回归分析要求试样的个数必须多于自变量的个数。
1
精选可编辑ppt
§ 多元线性回归（MLR）
若自变量为m个，xj (j=1,2,…,m)，因变量为y，在y与xj间，我们可以建立一线性模型，即
()
()
()
在式中，bj为回归系数。
在式（）中仅有一个试样，若有n个试样，即为yi (i=1,2,…,n)，它的列向量形式为y ，b与原来相同，矢量xj’为矩阵X的行，则：
y = Xb + e
2
精选可编辑ppt
若用图形表示，则为：
y = X B + e
1
m
1
1
n
n
n
m
在此情况下，n为试样数，m为自变量数。有如下三种情况：
(1) m>n，即变量数多于试样数，对于b来说，则有无穷多个解。
(2) m=n，变量数与试样数相等，若矩阵X满秩时，则矢量b有唯一解。但是，在实际工作中，这种情况是极少能碰到的。此时我们有：
e = y –Xb =0
3
精选可编辑ppt
(3)m<n，变量数小于试样数，尽管我们得不到准确解b，但是可以使残差矢量e尽可能小而得到解，
e = y – Xb
这就是我们所熟知的最小二乘法。其解为：
()
在上边的叙述中，因变量为1个，而事实上可以有多个因变量。如有两个因变量y1和y2，我们可以简单地写成两个线性方程：
y1=Xb1+ e ; y2=Xb2+ e
4
精选可编辑ppt
若用矩阵标表示，则：
由此得到
Y = XB + E
5
精选可编辑ppt
对于2-P 个因变量的图形表示为：
Y = X B + E
2-p
2-p
2-p
n
m
n
m
n
最小二乘的解为：
()
多元线性回归应用很广泛，因为在许多情况下该种方法具有良好的性能。但是，此种方法也有固有的缺点。假若体系的响应（即因变量）呈现线性，无干扰，无溶液间的相互作用，低噪声无共线性，则多元线性回归是一种非常好的方法。
6
精选可编辑ppt
事实上，完全满足上述条件比较困难。当噪声较强，或干扰较严重时，有可能导致所得数学模型失真，如下例：
运用式()则可得B矩阵：
所用数学模型有效性的量度可用Err：
7
精选可编辑ppt
式中，yik 为矩阵Y中第i行第k列的矩阵元，为由矩阵B所得的计算值，ik为前面所介绍的矩阵E的矩阵元。此例中，Err = 。
若由于噪音使得X增广一列（注意：对于试样浓度的测定，它并不包含有用信息），即：
由此得到的B矩阵为：
8
精选可编辑ppt
对于此模型，Err=。它比前者为小，这就意味着对于矩阵Y，第二个数学模型比第个要更有效，这是一种假象。由于X中引入最后一列，使得B2中上部3*3部分与前边所提B不相等（B为真实模型）。由B2计算所得Y尽管误差要小，但其数学模型所描述的自变量与因变量间的关系并不真实。其原因主要为多元线性回归方法是采用整个X矩阵来建立数学模型，而并不顾及在X中的信息与真实模型相关与否。很显然，若所得结果偏离了其实际数学模型，则对于未知试样的预测也是错误的。
为了克服多元线性回归的不足，在数学方法上引进了主成分回归方法（PCR）。
9
精选可编辑ppt
§ 主成分回归
主成分回归可分为两步：测定主成分数，并由主成分分析将X矩阵降维；对于降维的X矩阵再进行线性回归分析。
主成分分析的概念在前一章已经作了介绍。所谓主成分，它为一新的变量，而该新变量是原变量xij的线性组合。第一个主成分所能解释原变量的方差量最大，第二个次之，第三个再次之，等等。也就是说，主成分是一种线性组合，用它来表征原来变量时所产生的平方误差最小。运用主成分