文档介绍:第六章 偏最小二乘方法
偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。
1
精选可编辑ppt
§ 多元线性回归(MLR)
若自变量为m个,xj (j=1,2,…,m),因变量为y,在y与xj间,我们可以建立一线性模型,即
()
()
()
在式中,bj为回归系数。
在式()中仅有一个试样,若有n个试样,即为yi (i=1,2,…,n),它的列向量形式为y ,b与原来相同,矢量xj’为矩阵X的行,则:
y = Xb + e
2
精选可编辑ppt
若用图形表示,则为:
y = X B + e
1
m
1
1
n
n
n
m
在此情况下,n为试样数,m为自变量数。有如下三种情况:
(1) m>n,即变量数多于试样数,对于b来说,则有无穷多个解。
(2) m=n,变量数与试样数相等,若矩阵X满秩时,则矢量b有唯一解。但是,在实际工作中,这种情况是极少能碰到的。此时我们有:
e = y –Xb =0
3
精选可编辑ppt
(3)m<n,变量数小于试样数,尽管我们得不到准确解b,但是可以使残差矢量e尽可能小而得到解,
e = y – Xb
这就是我们所熟知的最小二乘法。其解为:
()
在上边的叙述中,因变量为1个,而事实上可以有多个因变量。如有两个因变量y1和y2,我们可以简单地写成两个线性方程:
y1=Xb1+ e ; y2=Xb2+ e
4
精选可编辑ppt
若用矩阵标表示,则:
由此得到
Y = XB + E
5
精选可编辑ppt
对于2-P 个因变量的图形表示为:
Y = X B + E
2-p
2-p
2-p
n
m
n
m
n
最小二乘的解为:
()
多元线性回归应用很广泛,因为在许多情况下该种方法具有良好的性能。但是,此种方法也有固有的缺点。假若体系的响应(即因变量)呈现线性,无干扰,无溶液间的相互作用,低噪声无共线性,则多元线性回归是一种非常好的方法。
6
精选可编辑ppt
事实上,完全满足上述条件比较困难。当噪声较强,或干扰较严重时,有可能导致所得数学模型失真,如下例:
运用式()则可得B矩阵:
所用数学模型有效性的量度可用Err:
7
精选可编辑ppt
式中,yik 为矩阵Y中第i行第k列的矩阵元,为由矩阵B所得的计算值,ik为前面所介绍的矩阵E的矩阵元。此例中,Err = 。
若由于噪音使得X增广一列(注意:对于试样浓度的测定,它并不包含有用信息),即:
由此得到的B矩阵为:
8
精选可编辑ppt
对于此模型,Err=。它比前者为小,这就意味着对于矩阵Y,第二个数学模型比第个要更有效,这是一种假象。由于X中引入最后一列,使得B2中上部3*3部分与前边所提B不相等(B为真实模型)。由B2计算所得Y尽管误差要小,但其数学模型所描述的自变量与因变量间的关系并不真实。其原因主要为多元线性回归方法是采用整个X矩阵来建立数学模型,而并不顾及在X中的信息与真实模型相关与否。很显然,若所得结果偏离了其实际数学模型,则对于未知试样的预测也是错误的。
为了克服多元线性回归的不足,在数学方法上引进了主成分回归方法(PCR)。
9
精选可编辑ppt
§ 主成分回归
主成分回归可分为两步: 测定主成分数,并由主成分分析将X矩阵降维; 对于降维的X矩阵再进行线性回归分析。
主成分分析的概念在前一章已经作了介绍。所谓主成分,它为一新的变量,而该新变量是原变量xij的线性组合。第一个主成分所能解释原变量的方差量最大,第二个次之,第三个再次之,等等。也就是说,主成分是一种线性组合,用它来表征原来变量时所产生的平方误差最小。运用主成分