文档介绍:【香樟推文1068】DID、回归还是合成控制其实它们有一个统一估计框架
推文信息
原文信息:Doudchenko N, Imbens G W. Balancing, Regression, Difference-In-Differences and Synthetic Control Methods: A Synthesis[J]. Nber Working Papers, 2016.
一、文章的贡献
把DID、合成控制以及约束回归纳入一个统一的分析框架,同时作者还提出了一个新的估计方法。
二、背景介绍
估计因果效应,一般拥有的数据都是一个面板数据结构,总的个体N+1个,包含处理个体1个(方便阐述)和控制个体N个;总的时期T期,包含处理前时期T0期和处理后时期T1期。数据安排,类似于这样的,
其中,表示可观测的结果变量数据,是处理前控制个体的结果数据,是维的,是处理后控制个体的结果变量数据,维,分别是处理后和处理前处理个体的结果变量数据,维度分别是。是相应的潜在结果表述。
因果效应实际上依赖于,不过前者可观测,后者不可观测。若先不考虑协变量,那么一般的因果推断方法都是根据矩阵中的其他部分来建
模,即,第一,若是控制个体较多,而处理前时期较少,即 ,数据呈现如下结构,
那么,最好是对和建模(即矩阵竖线右边的部分,一行作为一个变量而建模)而不是和(即矩阵横线下面的部分),然后假设的关系和的关系是一样的,这样就可以得到反事实结果。第二,若是控制个体较少,而处理前时期较多,即,数据呈现如下结构,
那么最好是对和建模(即竖线右边的部分,一列作为一个变量而建模),一些时序方法估计方法就是这么做的。第三,若是,这就比较困难,此时就需要一些正则方法来限制控制个体进入模型。作者就根据这个思路,提出了一个新的方法。三、统一的估计框架与作者的新方法
因果效应,本质上就是要估计下式,
但是不可观测,所以对其如下建模,
通俗地说,就是用控制个体的结果变量的线性组合来模拟处理个体。关键就是截距项和斜率项如何选取。一般通过最小化如下平方和来得到相应的,并将下式记作式(1)。
但该法只有在时才有用,如果则估计根本不可行,或者时即便可行,估计精度也很差,实际上,我们经常碰到的是后面两种情况,因此要得到可靠的估计,需要施加一些其他的约束。先来看五个这样的常用约束:第一个无截距约束:第二个和为1约束:
第三个非负约束:第四个精确均衡约束:第五个常数权重约束:如果,即便施加前面四个约束也不会得到的唯一解。作者建议使用如下目标函数进行优化即可,
这就是作者提出的新方法。该式与式(1)的区别在于多了对权重系数的惩罚项,而且这个惩罚项是一个类似于lasso和岭回归的惩罚项的一个加权。至于调和参数的选择,作者提供了一个类似于合成控制中后续推断的循环检验程序。要不要加其他约束,取决于手边的具体应用。四、统一估计框架下的其他已有方法
作者提出的上述估计框架,在某些条件下,就可以转变为我们比较熟悉的估计方法,如:(一)DID方法就是最小化(1)式,但要施加上面第二个和为1的约束,第三个非负约束以及第五个常数权重约束。实际上,这几个约束一上去,不需要数据拟合,可以立马得到 ,
这样的话,若处理前只有