打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
互助问答第18期:组间系数差异检验、PSM和数据类型转换

问题1:在检验系数差异时,我对suest、chowtest、chowreg三种命令有如下疑惑,希望各位老师能够给予解答,谢谢!

(1)三种命令都可以用来检验系数差异吗?(尤其是chowtest是否可以用来检验系数差异?)

(2)我使用chowtest的命令:chowtest Y X Controls, group(M);chowreg的命令:chowreg Y X Controls, d(M) type(3),请问 type(1,2,3)应该如何选择?

(3)请教chowtest以及chowreg如何使用,其Stata命令如何?

答案1:

(1)suest命令和chowreg命令均可用于检验系数差异,其中,suest命令用于检验似无相关模型的组间系数差异,chowreg命令可用于结构性变化回归和邹至庄检验。对于chowtest命令,在stata13和stata14中均未找到此命令,请提问者确认命令的全称。

(2)chowreg只能在设定的点(即dum项设置),检验前后参数是否存在结构性变化,并分别给出前后回归方程参数。它分了3种情况,也就是这里的type(1,2,3),type(1)是截距项引起的方程结构变化;type(2)是所有自变量斜率引起的方程结构变化;type(3)是同时由截距和所有自变量斜率引起的方程结构变化。

(3)从第(2)问来看,提问者已经知道chowreg命令的用法了。该命令的帮助文件也有应用案例,照样操作一遍可巩固对该命令用法的了解。

问题2:我在用企业数据测算城市级别的资源错配,其中,企业生产率离散度是采用90%分位点的企业生产率与10%分位点的企业生产率的比值。现在我根据工业企业数据库整理了2001年-2009年的企业生产率数据以及企业所在城市的邮编(数据见下图)。请问怎么根据邮编计算每个城市的90%分位点企业生产率、10%分位点企业生产率以及城市的要素错配。希望老师能够提供Stata命令。

答案2:

我理解提问者是想在每个邮编码内部计算企业生产率90%分位数和10%分位数,再把两者相除计算出资源错配程度。不太清楚需要使用哪个邮政编码变量,如果以yzbm1为准,Stata代码如下。

*每个邮编内生成生产率90%分位数

bysort yzbm1: egen tfp90 = pctile(tfp), p(90)

*每个邮编内生成生产率10%分位数

bysort yzbm1: egen tfp10 = pctile(tfp), p(10)

*生成资源错配程度

gen misalloc = tfp90 / tfp10

问题3:我最近一直在学习PSM的方法,顺带模仿别人论文以验证自己所做的结果。我在学习中遇到了以下两个问题:

(1)我当前的实验组只有67家,而待匹配的控制组有2300多家,我把所有的匹配方法都试了一遍发现,除非用1:1不放回匹配,得到跟实验组同等数量的控制组,如果换成1:1可放回、核匹配、半径匹配等方法,得到匹配后的实验组有65个,但是控制组有1700多家,这样实验组和控制组样本差别太大了,是不是即使后面做出很显著的结果也不可靠,会不会被怀疑是样本差异大而造成的显著结果呢?

(2)为了解决上面那个疑问,我又看到了一篇类似的文献,他采用1:3匹配,然后把重复的公司删除(见下图,文献名称为《审计报告新准则实施对审计质量的影响研究—基于2016年A+H股上市公司审计的准自然实验证据》)。但是我使用同样的方法试了一下,并没有找到重复的公司,我的疑问是这步是如何做出来的?

答案3:

(1)匹配结果是否可信,除了匹配方法的根本前提(给定可观测特征,个体进入处理组还是控制组与潜在因变量结果无关)在多大程度上成立以外,还取决于匹配之后处理组与控制组在各特征上是否足够相似。也就是说,处理组与控制组在样本量上的差异不是判断匹配质量好坏的标准。例如,如果处理组和控制组都是60多个样本,但某个控制变量在处理组中的均值与其在控制组中的均值差异过大,匹配效果就是不好的;如果处理组60多个样本且控制组有一千多样本,但只要所有控制变量特征在两组中的统计指标(比如均值)足够相似,匹配效果就是好的——这与两组样本量的差异没有必然联系。

(2)单凭文中描述,无法完全确定原作者是如何处理样本的(比如,对于重复出现的公司,是全部删除,还是只保留一家?)。但是,重申我的观点,处理组和控制组变量匹配好即可,是否出现个体重复并不关键,无需特别关注和处理。

问题4:假如有一个国家50个省级地区1994-2017年的投资环境方面的排名面板数据,排名数据具体包括15个子指标如行政风险、经济风险、治安风险、财政潜力、基础设施潜力、旅游潜力等的排名方面的面板数据,如何分析这些排名数据呢?比如,我想利用旅游潜力指标,分析哪些因素影响这个国家的旅游潜力等信息,如何利用这个排名数据或这些个排名数据结合地区层面的开放度、经济发展水平、FDI流入水平等普通的宏观经济指标,展开有效的计量分析呢?之前我咨询过几位老师,有老师建议用panel ordered logit或probit ,我还是没弄明白。

答案4:

如果你不确定研究什么题目,我个人建议首先对手中的样本进行彻底的统计描述。比如看一看15个子指标在时间维度上、空间维度上的均值或变化,看看能否从其中发现一些值得研究的现象乃至规律。

如果你确定研究旅游潜力指标的决定因素,首先要明确相关理论逻辑——理论上,旅游潜力是由什么因素决定的?你能否建立一个理论分析框架或借助文献搭建好的框架?理论逻辑明确后,你才能知道自变量有哪一些。至于计量模型,是后面才需要考虑的问题。因为潜力指标是排名数据,所以可以用panel ordered logit或probit模型(Stata命令为xtologit或xtoprobit)。

问题5:请问怎样将表1中有codes和公司名称的截面数据填充到表2中成为面板数据?

表1

表2

答案5:

首先,清理原始数据,如下图所示:

然后将数据导入Stata,使用命令reshape long x ,i(codes) j(year)将数据转换成面板数据,最后将生成的x变量命名为“公司名称”(rename x 公司名称)。

学术指导:张晓峒老师 

本期解答人:杨芳 中关村大街 

编辑:杨芳 知我者 田人合

统筹:芋头 易仰楠

技术:知我者  

(版权声明:本文作者拥有完整版权,所有原创文章最早发表于“论文导向计量实证群”,欢迎转发分享,全文转载请注明出处,引用及合作请留言,任何侵权行为将面临追责)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
PSM倾向匹配Stata操作详细步骤和代码,干货十足
PSM-DID的经典方法与野路子(二):多期PSM-DID
stata不编程做meta分析——二分类和连续性资料的meta分析
实操:通过SEER数据库发一篇SCI系列(七)
如何对日期的格式进行转换
【菜单版】stata三天写论文!PSM-DID及psmatch2应用实战
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服