文档介绍:倾向值匹配法
第1页,此课件共44页哦
Q:为什么要使用PSM?
A:解决样本选择偏误带来的内生性问题
例:上北大有助于提高收入吗?
样本选择偏误:考上北大的孩子本身就很出色(聪明、有毅力、能力强…)
解决方法:样本配对
第1页,此课件共44页哦
方法一:最邻近方法(nearest neighbor matching)
含义:最邻近匹配法是最常用的一种匹配方法,它把控制组中找到的与处理组个体倾向得分差异最小的个体,作为自己的比较对象 。
优点:按处理个体找控制个体,所有处理个体都会配对成功,处理组的信息得以充分使用。
缺点:由于不舍弃任何一个处理组,很可能有些配对组的倾向得分差距很大,也将其配对,导致配对质量不高,而处理效应ATT的结果中也会包含这一差距,使得ATT精确度下降。
第22页,此课件共44页哦
方法一:最邻近方法(nearest neighbor matching)
命令
set seed 10101(产生随机数种子)
attnd re78 treat $x,comsup boot reps($breps) dots logit
第23页,此课件共44页哦
方法一:最邻近方法(nearest neighbor matching)
第24页,此课件共44页哦
方法二:半径匹配法(radius matching)
半径匹配法是事先设定半径,找到所有设定半径范围内的单位圆中的控制样本,半径取值为正。随着半径的降低,匹配的要求越来越严。
第25页,此课件共44页哦
方法二:半径匹配法(radius matching)
命令
set seed 10101
attr re78 treat $x,comsup boot reps($breps) dots logit radius()
第26页,此课件共44页哦
方法二:半径匹配法(radius matching)
第27页,此课件共44页哦
方法三:分层匹配法(stratification matching)
内容:分层匹配法是根据估计的倾向得分将全部样本分块,使得每块的平均倾向得分在处理组和控制组中相等。
优点:Cochrane ,Chambers(1965)指出五个区就可以消除95%的与协变量相关的偏差。这个方法考虑到了样本的分层问题或聚类问题。就是假定:每一层内的个体样本具有相关性,而各层之间的样本不具有相关性。
缺点:如果在每个区内找不到对照个体,那么这类个体的信息,会丢弃不用。总体配对的数量减少。
第28页,此课件共44页哦
方法三:分层匹配法(stratification matching)
命令
set seed 10101
atts re78 treat,pscore(mypscore) blockid(myblock) comsup boot reps($breps) dots
第29页,此课件共44页哦
方法三:分层匹配法(stratification matching)
第30页,此课件共44页哦
方法四:核匹配法(kernel matching)
核匹配是构造一个虚拟对象来匹配处理组,构造的原则是对现有的控制变量做权重平均,权重的取值与处理组、控制组PS值差距呈反向相关关系。
第31页,此课件共44页哦
方法四:核匹配法(kernel matching)
命令
set seed 10101
attk re78 treat $x,comsup boot reps($breps) dots logit
第32页,此课件共44页哦
方法四:核匹配法(kernel matching)
第33页,此课件共44页哦
psmatch2
第34页,此课件共44页哦
匹配变量的筛选
设定宏变量x,表示age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black
命令:global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black
第35页,此课件共44页哦
匹配变量的筛选
logit treat $x
第36页,此课件共44页哦
匹配变量的筛选
stepwise,pr():logit treat $x
第37页,此课件共44页哦
ps值的计算
psmatch2 treat $x,out(re78)
倾向得分的含义是,在给定X的情况下,样本处理的概率值。利用logit模型估计