文档介绍:chap11受限被解释变量
主要内容
断尾回归模型
截取回归模型
样本选择模型
实验11-1:断尾回归模型
实验基本原理
实验内容及数据来源
本书附带光盘data文件夹下的“”工作文件机的。只有当雇主提供的工资高于妇女的保留工资(reservation wage)时,该妇女才会决定去工作。
当存在样本选择问题时,我们需要找到至少一个这样的变量,它能影响被解释变量能否被观测到,却对观测到的因变量没有影响。在妇女工资问题中,家中儿童数量就是一个合适的选择。显然,家中儿童数量能够影响妇女的保留工资,从而影响其是否工作;但对于工作中的妇女,家中儿童数量并不会影响雇主提供的工资。
我们利用本书附带光盘data文件夹下的“”工作文件,来进行妇女工资决定模型的研究。主要变量包括:wage=妇女的工资收入,education=教育水平,age=年龄,married=是否结婚,children=家中儿童数量,county=居住地。
利用这些数据,我们会讲解样本选择问题的heckman回归的操作以及相关的预测。
实验操作指导
1 heckman回归的操作
下面,我们利用“”的数据进行样本选择模型的回归分析。我们认为,妇女的工资是教育程度和年龄的函数,而妇女是否选择工作的影响因素是其保留工资(受婚姻状况、家中儿童数量影响)以及雇主提供的工资(受教育程度和年龄的影响)。
(1)基本的heckman回归
我们首先使用默认的极大似然函数法进行估计。命令为:
heckman wage educ age, select(married children educ age)
这里,被解释变量为wage,解释变量为educ和age。选项select()表明,选择方程的解释变量为married、children、educ和age。
(2)两步法的heckman回归
当数据集比较大时,极大似然估计非常耗时,两步法就提供了一种很好的替代。键入命令:
heckman wage educ age, select(married children educ age) twostep mills(m)
其中,选项twostep表明使用两步法的heckman回归。选项mills()会生成一个新变量,计算出各样本的逆米尔斯比率,即样本不被选择的可能性。我们这里给该变量命名为m。
此外,需要说明的一点是,选项nshazard(newvar)具有和选项mills(newvar)完全相同的作用。
(3)稳健的heckman回归
我们可以使用vce(robust)获得稳健标准差,或利用vce(cluster varname)获得聚类稳健标准差。例如,我们认为工资的方差可能随居住地(county)的不同而不同,可以键入命令:
heckman wage educ age, select(married children educ age) vce(cluster county)
这里,选项vce(cluster county)设定了标准差按变量county聚类。
(4)设定选择方程的因变量
我们可以对选择方程设定因变量。键入命令:
gen dwage=(wage<.)
heckman wage educ age, select(dwage = married children educ age)
这里,第一句命令表示产生变量dwage,当wage<.时,dwage=1;当wage为缺失值时,dwage=0。第二句命令中,select()选项设定了dwage为选择方程的因变量。
2 heckman回归的预测
对heckman回归进行预测的基本命令为:
predict [type] newvar [if] [in] [, statistic nooffset]
其中,predict代表预测的基本命令语句,newvar代表生成的新变量的名称,type代表新变量的类型,if代表条件语句,in代表范围语句,statistic代表进行预测的统计量。。
对于妇女工资决定的模型,默认的预测将给出各妇女的工资的线性预测值。如果我们想知道参加工作的妇女的期望工资,我们可以利用ycond选项。
quietly heckman wage educ age, select(married children educ age)
predict yc, ycond
summarize wage yc if wage!= .
其中,第一步为进行heckman回归,且命令quietly表明不显示该回归的结果;第二步是对参加工作的妇