互助问答第18期：组间系数差异检验、PSM和数据类型转换

问题1：在检验系数差异时，我对suest、chowtest、chowreg三种命令有如下疑惑，希望各位老师能够给予解答，谢谢！

（1）三种命令都可以用来检验系数差异吗？（尤其是chowtest是否可以用来检验系数差异？）

（2）我使用chowtest的命令：chowtest Y X Controls, group(M)；chowreg的命令：chowreg Y X Controls, d(M) type(3)，请问 type(1，2，3)应该如何选择？

（3）请教chowtest以及chowreg如何使用，其Stata命令如何？

答案1：

（1）suest命令和chowreg命令均可用于检验系数差异，其中，suest命令用于检验似无相关模型的组间系数差异，chowreg命令可用于结构性变化回归和邹至庄检验。对于chowtest命令，在stata13和stata14中均未找到此命令，请提问者确认命令的全称。

（2）chowreg只能在设定的点（即dum项设置），检验前后参数是否存在结构性变化，并分别给出前后回归方程参数。它分了3种情况，也就是这里的type(1,2,3),type(1)是截距项引起的方程结构变化；type(2)是所有自变量斜率引起的方程结构变化；type(3)是同时由截距和所有自变量斜率引起的方程结构变化。

（3）从第（2）问来看，提问者已经知道chowreg命令的用法了。该命令的帮助文件也有应用案例，照样操作一遍可巩固对该命令用法的了解。

问题2：我在用企业数据测算城市级别的资源错配，其中，企业生产率离散度是采用90%分位点的企业生产率与10%分位点的企业生产率的比值。现在我根据工业企业数据库整理了2001年-2009年的企业生产率数据以及企业所在城市的邮编（数据见下图）。请问怎么根据邮编计算每个城市的90%分位点企业生产率、10%分位点企业生产率以及城市的要素错配。希望老师能够提供Stata命令。

答案2：

我理解提问者是想在每个邮编码内部计算企业生产率90%分位数和10%分位数，再把两者相除计算出资源错配程度。不太清楚需要使用哪个邮政编码变量，如果以yzbm1为准，Stata代码如下。

*每个邮编内生成生产率90%分位数

bysort yzbm1: egen tfp90 = pctile(tfp), p(90)

*每个邮编内生成生产率10%分位数

bysort yzbm1: egen tfp10 = pctile(tfp), p(10)

*生成资源错配程度

gen misalloc = tfp90 / tfp10

问题3：我最近一直在学习PSM的方法，顺带模仿别人论文以验证自己所做的结果。我在学习中遇到了以下两个问题：

（1）我当前的实验组只有67家，而待匹配的控制组有2300多家，我把所有的匹配方法都试了一遍发现，除非用1：1不放回匹配，得到跟实验组同等数量的控制组，如果换成1:1可放回、核匹配、半径匹配等方法，得到匹配后的实验组有65个，但是控制组有1700多家，这样实验组和控制组样本差别太大了，是不是即使后面做出很显著的结果也不可靠，会不会被怀疑是样本差异大而造成的显著结果呢？

（2）为了解决上面那个疑问，我又看到了一篇类似的文献，他采用1:3匹配，然后把重复的公司删除（见下图，文献名称为《审计报告新准则实施对审计质量的影响研究—基于2016年A+H股上市公司审计的准自然实验证据》）。但是我使用同样的方法试了一下，并没有找到重复的公司，我的疑问是这步是如何做出来的？

答案3：

（1）匹配结果是否可信，除了匹配方法的根本前提（给定可观测特征，个体进入处理组还是控制组与潜在因变量结果无关）在多大程度上成立以外，还取决于匹配之后处理组与控制组在各特征上是否足够相似。也就是说，处理组与控制组在样本量上的差异不是判断匹配质量好坏的标准。例如，如果处理组和控制组都是60多个样本，但某个控制变量在处理组中的均值与其在控制组中的均值差异过大，匹配效果就是不好的；如果处理组60多个样本且控制组有一千多样本，但只要所有控制变量特征在两组中的统计指标（比如均值）足够相似，匹配效果就是好的——这与两组样本量的差异没有必然联系。

（2）单凭文中描述，无法完全确定原作者是如何处理样本的（比如，对于重复出现的公司，是全部删除，还是只保留一家？）。但是，重申我的观点，处理组和控制组变量匹配好即可，是否出现个体重复并不关键，无需特别关注和处理。

问题4：假如有一个国家50个省级地区1994-2017年的投资环境方面的排名面板数据，排名数据具体包括15个子指标如行政风险、经济风险、治安风险、财政潜力、基础设施潜力、旅游潜力等的排名方面的面板数据，如何分析这些排名数据呢？比如，我想利用旅游潜力指标，分析哪些因素影响这个国家的旅游潜力等信息，如何利用这个排名数据或这些个排名数据结合地区层面的开放度、经济发展水平、FDI流入水平等普通的宏观经济指标，展开有效的计量分析呢？之前我咨询过几位老师，有老师建议用panel ordered logit或probit ，我还是没弄明白。

答案4：

如果你不确定研究什么题目，我个人建议首先对手中的样本进行彻底的统计描述。比如看一看15个子指标在时间维度上、空间维度上的均值或变化，看看能否从其中发现一些值得研究的现象乃至规律。

如果你确定研究旅游潜力指标的决定因素，首先要明确相关理论逻辑——理论上，旅游潜力是由什么因素决定的？你能否建立一个理论分析框架或借助文献搭建好的框架？理论逻辑明确后，你才能知道自变量有哪一些。至于计量模型，是后面才需要考虑的问题。因为潜力指标是排名数据，所以可以用panel ordered logit或probit模型（Stata命令为xtologit或xtoprobit）。

问题5：请问怎样将表1中有codes和公司名称的截面数据填充到表2中成为面板数据？

表1

表2

答案5：

首先，清理原始数据，如下图所示：

然后将数据导入Stata，使用命令reshape long x ,i(codes) j(year)将数据转换成面板数据，最后将生成的x变量命名为“公司名称”（rename x 公司名称）。

学术指导：张晓峒老师

本期解答人：杨芳中关村大街

编辑：杨芳知我者田人合

统筹：芋头易仰楠

技术：知我者

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。