文档介绍:第九章线性代数模型的回归分析
在生产、科研和试验过程中,总涉及到许多因素或变量,这些变量之间相互联系和相互制约,在一定的条件下可以相互转化。为了了解和掌握这些关系,往往需要找出表示这些变量间内在关系的定量表达式,前几章讨论了最小二乘法求表达式模型的方法,本章的回归分析就是用数理统计方法处理变量相关关系。一般变量之间的关系有两种类型:确定性关系和相关关系。
若两个变量具有确定性关系,是指可以唯一地由一个量来确定另一个量。在数学分析中以完全确定的函数关系为研究对象。如匀速运动中,路程S和时间t的关系为:
S=v×t
所谓相关关系是指两个或两个以上的变量间,当一个量唯一地确定后,另一个量并不唯一确定,但它又不是毫无规律地任意取值,而是按一定的概率分布取各种可能值,当其中的一个变量改变时,另一个的分布也按一定的规律改变。
确定性关系与相关关系之间并无严格的界限,在许多实际问题中,由于变量间的复杂性,或由于测试过程中的误差,致使变量间的关系具有不确定性。另一方面,当掌握了其内部规律后,相关关系又可能转化为确定性关系。
在实际应用中,人们为了方便往往把容易控制或测量的量,当作确定性的自变量,而把不易控制或测量的量当作随机性的因变量。
自变量和因变量按其确定性划分为三类;
;
;
,而另一个是随机性的变量。
第一种情况属于数学分析中研究的对象。
第二、三种情况则统称为回归分析或相关分析。
回归分析研究的数学模型是线性模型与多项式回归模型,以及可以化为线性的模型。回归分析在生产中也得到广泛地应用。如在煤加工过程中,煤焦油产率x,粗苯产率y和焦炉煤气产率Z均取决于装炉煤的种类和其干燥无灰基挥发份Vdaf的含量,统计模型为:
与其类似的应用如焦炭中灰份,硫份的含量同煤中灰份、硫份含量呈一元线性关系。
Ad煤=K·A焦十b Sd煤=K/·s焦+b/
用于生产控制的还有;
式中G一粘结指数;Vdaf-挥发价:M40和M10分别表示焦,炭的两种强度指标。
以上都是从大量生产数据中统计回归得到的。回归分析主要解决以下几个方面的问题:
,如果是相关的,则求出相关关系的模型表达式。
,以确定此关系的相关程度;
;
,进行预测或预报等。
一元回归线性分析是回归分析中最简单的一种,它研究的对象是两个变量(x,y)之间的相关关系。其数学模型为:
其中a、b为模型参数,待定。
一元回归分析模型参数的求解是通过n对实验数据(xi,yi)(i=1,2,…,n),依照最小二乘法原理求解模型中的定系数。
已知n对实验数据(xi,yi)(i=1,2,…,n),假设变量xi,yi之间存在线性关系,则描述
yi=a+bxi+εi 其中εi是测试样本的误差。
根据一元线性模型,回归值
的偏离程度。
对所有的xi而言,εi的愈小愈好。或对下式:
取极小值。
根据最小二乘法的求极小值原理:
解其正规方程得:
式中
定义
称为x的平方和
则上式又可写为:
称为xy的交叉平方和
确定a、b参数后确定。其置信区间可用T分布建立,
回归方程的显著性检验
如果当x与y之间没有函数关系而有相关关系时,用所有测得的y值中最优概值代替。这些y值分布得越“紧密”,它们越接近于最优概值,x与y的关系也就越确定,表征这种确定程度称之为显著性检验。
由于误差或变量波动所引起的总的差异
叫作离差平方和。
可以证明
Lyy= Q+U
U是由于x的变化而引起的,称为回归平方和。
Q是总离差平方和中,除掉回归平方和后的剩余部分,叫做剩余平方和。为误差等因素引起的y值波动。
一般定义回归平方和U在总离差平方和Lyy中所占的比例为x、y两个变量间线性关系的相关程度。
称做线性回归方程的相关系数。
相关系数R是绝对值介于0~1之间的无量纲数。
|R|=1时,表示两个变量间有确定性的线性函数关系。
|R|=0时,表示两个变量间无线性关系。一般没有关系,二是有非线性关系。
应该指出R往往并不完全说明x与y间线性关系的接近程度。使相关系数R达到显著的值与抽样个数n有关。
附录I给出了不同的n值,在两种信度α()上相关系数达到显著的最小值,超过此值时,就说x与y的相关关系在(1—α)置信度上显著。(1—α)愈大,显著程度愈高。
相反,计算的R值如果小于查表值,则说明x与y间不存在线性关系。
一元回归线性回归方程的方差检验
用统计检验中的F检验对回归方