文档介绍:§ 多元线性回归模型的统计检验
一、拟合优度检验
在多变量问题中,总变差也可以分解为回归平方和
与残差平方和两部分,即
TSS=ESS+RSS
当模型参数估计量已经得到后,可以很方便地计算R2。在应用过程中发现,如果在模型中增加一个解释变量,模型的解释功能增强了,回归平方和增大,相应地, R2就增大了。
由正规方程
可得
因此
拟合优度定义为:
设解释变量为X2 ,X3,…, Xk时,残差平方和为
如果观测值Yi 不变,再增加一个解释变量Xk+1 ,相应的残差平方和为
由于在利用最小二乘法求参数估计值的过程中,残差平方和和都分别达到极小值,
而达到极小值,相当于最后引入的解释变量
Xk+1的系数等于零的条件下的极小值。
而是不要求等于零这个条件就可以达到的极小值,即无条件极小值。
即是条件极小值。
所以
因为无条件极小值不大于条件极小值,即
其中, 是解释变量为X2 ,X3,…, Xk时的拟合优度,
而是增加了解释变量Xk+1以后的拟合优度。
因此,随着解释变量数目的增加,残差平方和不断减小,拟合优度不断增加。
错觉:要使模型拟合得好,必须增加解释变量。
但是,在样本容量一定的情况下,增加解释变量必定使得自由度减少。
∴检验拟合优度的统计量必须能够防止这种倾向。
引入的解释变量数目越多,k越大。
由于ee减小不明显,那么u2的无偏估计值S 2将增大。
S 2增大无论对推测总体参数B的置信区间,
还是对预测区间的估计,都意味着预测精确度降低。
因此,不重要的解释变量不应该引入。不应该根据拟合优度R 2是否增大来决定是否引入某个解释变量。
k
n
S
-
¢
=
e
e
2
由
可知,
实际中应用的统计量是在对R 2进行调整后的。
称为修正的拟合优度,具体表达式为
如果增加一个对被解释变量Y没有多大影响的解释变量时,RSS的减小没有(n-k)减小明显, 会减小。
残差平方和RSS的减小比(n-k)减小更显著,修正的拟合优度就增加。
(n-k):残差平方和的自由度,(n-1):总体平方和的自由度。
当增加一个对被解释变量Y 有较大影响的解释变量时,
表明不应该引入这个不重要的解释变量。
可见修正的拟合优度比一般的拟合优度更准确地反映了解释变量对被解释变量的影响程度。
通常,修正的拟合优度比应用更广泛。
由于
因为 n-1≥n-k>0,1-R²0,所以
即修正的拟合优度不大于一般的拟合优度R ² 。
修正的拟合优度还有一个特点:它可能为负值。
从而
在这种情况下,使用修正的拟合优度将失去意义。
因此, 只适用于变量 Y 与变量 X2 ,X3,…, Xk 的整体相关程度比较高的情况。
k
O
1
二、方程的显著性检验(F检验)
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程度就高,可以推断模型总体线性关系成立;反之,就不成立。
但这只是一个模糊的推测,不能给出一个在统计上严格的结论。这就要求进行方程的显著性检验。
方程的显著性检验所应用的方法是数理统计学中的假设检验。
基本任务:根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。
基本思想:反证法。
根据:小概率事件原理。即“小概率事件在一次试验中几乎是不可能发生的”。
如果在假设H0正确的前提下,导致了不合理的结果(即小概率事件发生),则表明“假设H0正确”是错误的,因此要拒绝原假设H0 ,而接受备择假设。
反之,如果小概率事件没有发生,则应该接受原假设。
假设检验