互助问答第46期：二值变量及倾向得分匹配PSM问题

尊敬的老师，我有两个问题想请教：

问题1：想咨询一下关于采用二值变量作为被解释变量研究中国企业的投资问题，我的基本想法如下：中国企业对外投资行为，当 i 企业 t 年份投资于 j 国，则因变量取1，否则取0，同时我的解释变量既包括企业微观层面的因素，也包括国家宏观层面的因素，所以按道理说数据应该这样摆，见下（我以两个企业三年内投资3个国家为例,1企业在2000-2002年期间之进行了两次投资，一次是2000年投资A国，一次是2001年投资B国，2企业是2000和2001年都投资C国），这是我理解的数据结构，不知道对不对，但是如果果真是这样的话，总的数据量直观来看就是企业数*年份*国家数，我有130个企业11年投资到105个东道国，即130*11*105条数据，而其中的取值为1的样本只有1000个左右，这样应该回归不出来结果吧，而且如果是这样的话面板的识别变量是什么呢？

id    year    country OFDI
1    2000    A             1
1    2000    B             0
1    2000    C             0
1    2001    A             0
1    2001    B             1
1    2001    C             0
1    2002    A             0
1    2002    B             0
1    2002    C             0
2    2000    A             0
2    2000    B             0
2    2000    C             1
2    2001    A             0
2    2001    B             0
2    2001    C             1
2    2002    A             0
2    2002    B             0
2    2002    C             0

答：数据结构没有问题。这是国际贸易研究中的常见数据结构——国家1与国家2在某一年的贸易行为；只不过在这个数据中，一方为企业，一方为国家。企业和国家的一个配对可以作为一个对象，这样有130*105个“个体”，再与年份一起构成面板识别变量。

问题2：关于倾向得分匹配PSM，操作时可不可以不定义结果变量？我的因变量是二值选择变量（也即企业在t年是否进行投资）。谢谢！

答：可以。Stata中psmatch2命令就不要求定义结果变量。

本期解答人：中关村大街

编辑：田人合老师杨芳博士 Hollian博士

统筹：易仰楠

技术：知我者

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。