文档介绍:多重共线性
Multi-Collinearity
由于在社会科学研究中,我们对于数据和样本的选择是被动和无奈的,因此其往往难以满足我们这样或那样的数据要求也就不足为奇了,对一个坏的设计采取就事论事的治疗方法,诸如逐步回归或岭回归,可能招致灾难性的后果。正确的做法是,宁可接受事实,我们的非试验数据有时不能对我们感兴趣的参数提供多少信息!!!
一、多重共线性的概念
二、实际经济问题中的多重共线性
三、多重共线性的后果
四、多重共线性的检验
五、克服多重共线性的方法
六、案例
*七、分部回归与多重共线性
多重共线性
一、多重共线性的概念
对于模型
Yi=0+1X1i+2X2i++kXki+i
i=1,2,…,n
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了线性相关性,则称为多重共线性(Multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n
其中: ci不全为0,则称为解释变量间存在完全共线性(perfect multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为近似共线性(approximate multicollinearity)或交互相关(intercorrelated)。
在矩阵表示的线性回归模型 Y=X+中,完全共线性指:秩(X)<k+1,即
中,至少有一列向量可由其他列向量(不包括第一列)线性表出。
如:X2= X1,则X2对Y的作用可由X1代替。
注意:
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
很多时候,相关性并不表现为线性,而是非线性相关。(参见P321)
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。
例如,消费=f(当期收入, 前期收入)
显然,两期收入间有较强的线性相关性。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。
一般经验:
时间序列数据样本:简单线性模型,往往存在多重共线性。
截面数据样本:问题不那么严重,但多重共线性仍然是存在的。