文档介绍：一、拟合优度检验
二、方程的显著性检验(F检验)
三、变量的显著性检验(t检验)
四、参数的置信区间
§ 多元线性回归模型的统计检验
一、拟合优度检验
1、可决系数与调整的可决系数
则
总离差平方和的分解
由于
=0
所以有:
注意:一个有趣的现象
ESS:由回归直线(即解释变量)所解释的部分,表示X对Y的线性影响。
RSS:未被回归直线解释的部分,由解释变量X对Y影响以外的因素造成。
该统计量越接近于1,模型的拟合优度越高。
可决系数
TSS = RSS + ESS
总离差平方和=残差平方和+回归平方和
自由度:(n-1)=(n-k-1)+ k
问题:
在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大(Why?)
这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。
但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,而且,在样本容量一定的情况下,增加解释变量使得待估参数的个数增加,从而损失自度,由估计式可知, 所以R2需调整。
调整的可决系数(adjusted coefficient of determination)
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:
其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
=
=
=
=
由此式可以看出, ,即修正的可决系数不大于未经修正的可决系数,这意味着随着解释变量的增加, 将越来越小于。
在实际应用中,我们往往希望所建模型的或越大越好,但应注意,决定系数只是对模型拟合优度的度量,决定系数越大,只说明列入模型中的解释变量对因变量整体影响程度越大,并非说明模型中各个解释变量对因变量的影响程度显著。在回归分析中,不仅要模型的拟合度高,还要得到总体回归系数的可靠估计量。因此,在选择模型时不能单纯凭决定系数的高低断定模型的优劣,有时为了通盘考虑模型的可靠度及其经济意义可以适当降低对决定系数的要求。
二、方程的显著性检验(F检验)
拟合优度检验只能说明模型对样本数据的近似情况。
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
1、方程显著性的F检验
即检验模型
Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n
中的参数j是否显著不为0。
可提出如下原假设与备择假设:
H0: 0=1=2= =k=0
H1: j不全为0
F检验的思想来自于总离差平方和的分解式:
TSS=ESS+RSS
如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
因此,可通过该比值的大小对总体线性关系进行推断。