PSM-DID的经典方法与野路子（二）：多期PSM-DID

前期推文提及，“倾向得分匹配-双重差分法”（Propensity Score Matching Difference in Differences，简记PSM-DID）的经典方法假设数据为两期面板，其中处理前（pre-treatment）一期，而处理后（post-treatment）一期。PSM-DID有时也称为“匹配倍差法”。

PSM-DID的经典方法：单期匹配

本质上，PSM-DID的经典方法使用“单期匹配”。由于两期面板在处理前只有一期，故PSM-DID的经典方法天然地适用于两期面板；比如万海远、李实（2013，经济研究），贾俊雪、宁静（2015，管理世界），徐志刚等（2018，管理世界）。

事实上，对于一类特殊的多期面板，PSM-DID的经典方法依然适用，即处理前只有一期的多期面板。比如Fowlie et al. (2012, AER)使用排放机构的4期面板数据，研究南加州“氧化氮交易项目”（NOx trading program）的环保效应。其中，第1期为处理前，而2-4期为处理后。可将此时间结构记为 1|3（即处理前1期，而处理后3期）。

类似地，何靖（2016，中国工业经济）使用2009-2013年的银行面板数据，研究延付高管薪酬对银行风险承担的政策效应，其时间结构为1|4，即处理前1期，而处理后4期。

在Stata的具体操作方面，在进行倾向得分的单期匹配时，如果使用1对1的最近邻匹配（nearest neighbor matching），则在完成单期匹配后，只要删除未匹配的观测值，即可得到所谓“匹配样本”（matched sample）。然后，针对此匹配样本进行通常的双重差分估计（即双向固定效应模型），即可得到PSM-DID估计量。

另一方面，在进行倾向得分的单期匹配时，如果使用“核匹配”（kernel matching），则可使用Stata命令diff一步完成PSM-DID估计，详见《高级计量经济学及Stata应用》（陈强，2014，第2版）。

PSM-DID的野路子

PSM-DID的经典方法虽然有坚实的理论基础（Heckman et al., 1997, 1998）。但对于实践中经常出现的多期面板，单期匹配并不能满足实证研究者的全部需要。为此，实证研究者自行“发明”了一些其他探索性的PSM-DID方法，在某种意义上相当于“野路子”（土办法），目前均尚无严格的理论证明。当然，“野路子”未必就不对（发表论文已见诸中英文期刊），也可能是计量实践领先于计量理论（故“野路子”在本文不含贬义）。

本文将PSM-DID的野路子大致归纳为以下几类，即代表期匹配、混合匹配、逐期匹配、协变量平均匹配、倾向得分平均匹配、倾向得分二阶矩匹配，并分别进行介绍。

代表期匹配

对于处理前不止一期的多期面板数据，如果硬要进行单期匹配，一种做法就是从处理前的各期中，选取最有代表性的一期进行单期匹配。比如，盛丹、陆毅（2016，世界经济）使用1998-2007年的企业面板，在研究出口贸易是否提供劳动者工资的集体议价能力时，即以2000年作为代表期进行单期匹配。

根据该文解释，这样做的理由在于，“2001年出口进入企业数量最多，为953家。为此，我们选取2001年为匹配的基准年份，953家出口进入企业为处理组，并且以2000 年作为出口前的年份，样本中一直未出口的企业为10672家，作为对照组。”

显然，使用代表期匹配会损失一定的样本容量。在此例中，由于仅考虑2001年的出口进入企业，使得处理组仅剩下953家企业。

混合匹配

多期PSM-DID的另一匹配方式为“混合匹配”，即将面板数据视为横截面数据（类似于混合回归，即pooled regression），为处理组在处理期的每条观测值（对应于处理组的每位个体与每个处理时期），在控制组中寻找倾向得分最为接近的观测值进行匹配。

混合匹配的最大问题在于，可能发生“时间错配”，即处理组在处理期的某位个体，可能与不同期的控制组个体相匹配，这样就无法有效控制“时间固定效应”（time fixed effects）或“时间趋势”（time trend）。

在一篇最新发表的论文中，谢申祥等（2021，统计研究）指出，混合匹配还可能存在“自匹配”问题，即处理组在处理期的某位个体与处理前的同一个体相匹配。如果发生自匹配，则双重差分法即退化为“差分法”（因为只是同一个体的前后两期差分），故也无法控制时间效应，容易导致偏差。

幸运的是，自匹配现象在实践中并不容易发生，因为一般来说，一位个体要么属于处理组（只要有一期得到处理即可），要么属于控制组（始终没有处理），其组别从属关系通常不会改变。

总之，基于混合匹配的这些缺点，在进行PSM-DID估计时，应尽量避免使用混合匹配。虽然目前还难以确定文献中哪些论文使用了混合匹配，但有些中文论文在使用PSM-DID时对于匹配的细节语焉不详，故也不排除这种可能性。

逐期匹配

多期PSM-DID的另一匹配方式为逐期匹配，即在进行倾向得分匹配时，限制仅在同期的控制组个体寻找最合适的匹配。例如，Heyman et al. (2007, JIE)使用1996-2000年的瑞典企业面板数据，研究外资企业是否存在“工资溢价”（wage premium）。

又比如，Bockerman and Ilmakunnas (2009, Health Economics)使用1996-2001年的芬兰家庭面板数据，研究失业对于“自我健康评价”（self-assessed health）的影响。

在中文期刊中，孙文凯、王亿杰（2016，经济学季刊），王庶、岳希明（2017，经济研究），郝项超等（2018，经济研究）均使用了逐期匹配的方法。

显然，逐期匹配可以避免上述混合匹配所存在的“时间错配”与“自匹配”问题，故是目前多期PSM-DID的主流方法。然而，逐期匹配也存在缺陷。由于对于处理前的每期都进行匹配，而每次匹配的结果可能不尽相同，导致控制组的不稳定（即处理组的个体在不同期与控制组的不同个体相匹配），也可能引起偏差。

协变量平均匹配

为了解决控制组的不稳定问题，一种方法是“协变量平均匹配”，即将每位个体在处理前的各期协变量进行平均（类似于组间回归，即between regression）；然后，使用处理前各期协变量的平均值（已变为横截面数据）进行倾向得分匹配。例如，贾俊雪等（2018，中国工业经济）使用1981-2005年的跨国面板数据，在研究社会保障制度的经济增长效应时，即利用协变量“1981-1985年（即事前时点）的均值”进行倾向得分匹配。

虽然协变量平均匹配保证了控制组的稳定性，但先将处理前的各期协变量平均后再进行匹配，有可能使得匹配质量下降，从而导致偏差。

倾向得分平均匹配

解决控制组不稳定问题的另一种方法是“倾向得分平均匹配”，即先将处理前的各期分别估计倾向得分（比如，每期进行一个Logit回归），然后将处理前各期的倾向得分进行平均，并以此作为匹配的标准。例如，张俊（2017，经济学季刊）使用2005-2013年的县级面板数据，在研究高铁建设对于县域经济的作用时，即使用处理前的2005-2009年数据分别估计每年的倾向得分，然后将这5年倾向得分的平均值作为匹配的标准。

显然，倾向得分平均匹配可以保证控制组的稳定性，但由于将处理前的各期倾向得分进行平均，也可能使得匹配质量下降，进而导致偏差。

倾向得分二阶矩匹配

谢申祥等（2021，统计研究）提出了多期PSM-DID的一种最新方法，在此称为“倾向得分二阶矩匹配”。与倾向得分平均匹配类似，“倾向得分二阶矩匹配”也是先将处理前的各期数据分别估计倾向得分，进而得到一个倾向得分的向量（每个分量对应于处理前的一个时期），然后通过倾向得分向量的二阶矩（欧氏距离，即处理前各期倾向得分的平方和之开方），寻找最为接近的控制组个体作为最合适的匹配，参见下面的论文截图。

另外，除了使用倾向得分进行匹配外，谢申祥等（2021）还提出针对某些特殊的“分类变量”（categorical variables），应限制将处理组个体与同类别的控制组个体进行匹配；比如高中生与高中生匹配，而大学生与大学生匹配。谢申祥等（2021）的蒙特卡洛模拟表明，倾向得分二阶矩匹配的表现良好（比混合匹配与逐期匹配更为稳健），但也没有提供理论上的严格证明。

综上所述，目前文献中的多期PSM-DID可谓五花八门，各显神通，优缺点也不尽相同。在缺乏严格计量理论指导的情况下，实证研究者只能根据自己的数据特点，使用常识与直觉选择最为合适的PSM-DID“野路子”。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。