文档介绍:引子
使用简单的回归分析,可以把因变量y解释成一个自变量x的函数。然而在实际的经验研究中使用简单回归分析的主要缺陷是,它很难得到x在其他条件不变情况下对y的影响:(所有其他影响y的因素都与x不相关)通常都不现实。
很自然,如果我们在模型中多增加一些有助于解释y的因素,那么,y的变动就能更多地得到解释。因此,多元回归分析可用于建立更好的因变量预测模型。
多元回归分析(multiple regression analysis)允许我们明确地控制许多其他也同时影响因变量的因素,所以它更适合于其他条件不变情况下的分析。在使用非实验数据的情况下,这对检验经济理论和评价经济政策都很重要。多元回归模型能够容纳许多可能相关的解释变量,在简单回归分析可能误导的情况下,可以寄希望于多元回归模型来推断因果关系。
多元回归分析的另外一个优点是,它可以用以添加相当一般化的函数关系。在简单的回归模型中,方程中只能出现单一个解释变量的一个函数。如我们将看到的那样,多元回归模型的灵活性则大得多。
使用多元回归的动因
先用两个例子来说明,如何用多元回归分析来解决简单回归所不能解决的问题。
wage =β0+β1educ+β2exper+u ……()
其中exper是在劳动市场上以年计的工作经历。
则工资wage由受教育水平和工作经历这两个解释变量或自变量及那些观测不到的其他因素来决定。我们首要感兴趣的,是在保持所有其他影响工资的因素不变情况下,educ对wage的影响;即我们只对参数β1感兴趣。
与仅联系wage和educ的简单回归分析相比,方程()有效地把exper从误差项中取出并把它明确地放到方程之中。所以系数β2度量了exper在其他条件不变情况下对工资的影响,这点也有意义。
就像在简单回归中一样,我们将不得不对()中的u如何与自变量educ和exper相关做出假定。,有一点我们充满信心:因为()中明确地包含了工作经历,所以我们就能在保持工作经历不变的情况下,度量教育对工资的影响。如果将工作经历放到误差项的简单回归分析中,我们就不得不假定工作经历与受教育水平无关,显然这是一个脆弱的假定。
第二个例子
问题:解释在高中阶段对每个学生的平均开支(expend)对平均标准化考试成绩(avgscore)的影响。假设平均考试成绩取决于学校基金、平均家庭收入(avginc)及其他不可观测因素:
avgscore=β0+β1expend+β2avginc+u …………()
出于政策目的,所关心的系数是expend在其他条件不变情况下对avgscore的影响β1。通过在模型中明确包括avginc,我们就能控制其对avgscore的影响。
由于平均家庭收入与每个学生的开支趋于相关,所以加入这个变量可能很重要。简单回归中,avginc被包括在误差项中,而avginc与expend可能相关,从而导致在两变量模型中对β1的OLS估计有偏误。
前面两个例子已经说明,除主要关心的变量外,如何把其他的可观测因素也包括在回归模型中。一般地,我们可以把含有两个自变量的模型写作 y=β0+β1 x1+β2 x2+u ……()
其中,β0是截距,β1度量了在其他条件不变情况下y相对x1的变化,而β2 则度量了在其他条件不变情况下y相对x2的变化
多元回归分析对推广变量之间的函数关系也有帮助。例如:假设家庭消费(cons)是家庭收入(inc)的一个二次函数:cons=β0+β1inc+β2inc2+u ……()
其中u包括了影响消费的其他因素,在这个模型中,消费只取决于收入这一个观测变量;所以看上去,一个简单的回归分析就可以对付。但简单回归不能处理这个模型,因为它包括了收入的两个函数inc和inc2(因此就有三个参数β0、β1和β2)。尽管如此,通过令x1=inc和x2=inc2,消费函数还是可以很容易地写成一个含两个自变量的回归模型。
机械地看,用普通最小二乘法去估计方程()和() ,应该没有什么差别。每个方程都可以写成像()那样的方程。但重要的差别在于,人们对参数的解释。
()中,β1是educ在其他条件不变情况下对wage的影响。而方程()中的参数β1则没有这样的解释。换句话说,度量inc在保持inc2不变的情况下对cons的影响是毫无意义的,如果inc变化,则inc2也一定会变化!相反,相对收入变化的消费变化——即边际消费倾向——可近似为:
换句话说,收入对消费的边际效应取决于β2、β1和收入水平。这个例子表明,在任何一个特定应用中,对自变量的定义都是至关重要的
在含有两个自变量的模型中,u与x1和x2如何相关的关键假定是,E(u