打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
玩转Stata15之:内生性处理新命令——eregress

2017年|夏

大大大大大新闻————爬虫俱乐部新推出了视频讲解环节。小编突然浮现出一个画面——看着视频嗑着瓜子学着stata,妈妈再也不用担心我的stata了!详情请猛戳文章下面的视频。


各位好~经常做经验研究的童鞋都知道,内生性问题几乎是研究过程中不可避免的,然而,这一问题的解决历来是一大难题。致力于服务经验研究者的Stata公司也关注到了这方面的强大的需求,并在Stata15中增加了一个专门处理内生性问题的命令模块——Extended regression models (ERMs),包括eregress, eintreg, eprobit 以及eoprobit等命令。我们将通过一个推文系列对这一模块中涉及的命令逐个进行介绍。

一、语法介绍

在Stata15中输入help eregress命令可知,eregress主要用于处理线性回归中导致内生性的以下三种情况:内生协通过变量,非随机对照试验,以及内生样本选择问题。今天我们主要关注如何使用eregress命令处理线性模型中存在内生协变量的问题,即使用eregress命令进行工具变量回归。

eregress的基本语法如下:

 eregress depvar [indepvars], endogenous(depvars_en = varlist_en) [options]

其中,depvar为被解释变量;indepvars为外生控制变量;depvars_en为内生协变量;varlist_en则包括工具变量和影响内生变量的其它控制变量。遵行工具变量法的计量原理,eregress命令会根据用户输入的变量,构建主回归方程(main)和辅助(auxiliary)回归方程,并使用最大似然法对模型进行估计。

二、案例介绍

【小案例】:某项目欲探究学生的高中平均成绩(hsgpa)对大学平均成绩(gpa)的影响(为了使研究更加简化,忽略退学等因素的影响)。因此,这里的被解释变量就是大学平均成绩(gpa),解释变量就是高中平均成绩(hsgpa)。考虑到家庭因素,如家庭收入(income),也可能会对学生的成绩产生影响,也需要对其进行控制。

这里首先构造基本的OLS回归,程序如下:

clear

webuse class10

reg gpa hsgpa income

回归结果显示,hsgpa的系数为1.61,且在1%的水平上显著,表明高中平均成绩会对大学成绩产生显著影响。

然而,此处的OLS回归存在严重的内生性问题——遗漏变量。因为存在一些不可观测因素既会影响高中平均成绩(hsgpa)也会影响大学平均成绩(gpa)。比如高中成绩好的学生可能本身智商(IQ)就很高,其大学成绩好很可能是由智商导致的,而非高中平均成绩。

研究人员通过分析认为一所高中的竞争力会影响学生的成绩,而一旦高中平均成绩(hsgpa)得到控制,高中的竞争力对大学平均成绩(gpa)的影响就可以忽略。因此他们选择高中的排名(hscomp)作为高中GPA的工具变量(IV)。这一IV的选择符合工具变量的筛选标准,首先高中的排名是学生所不能控制的,是独立于学生系统的外生因素,因此排除了其他因素的影响,满足外生性要求。第二是因为高中竞争力和高中生的平均成绩是(hsgpa)高度相关的,一般情况下,排名靠前的高中,学生的成绩也更好。实际操作中,把高中竞争力(hscomp)分为低水平高中(low)、普通高中(moderate)和高水平高中(high)。下面运用eregress命令,进行拓展的线性回归:

eregress gpa income, endogenous(hsgpa = income i.hscomp) 

回归结果表格的上部分,报告了主回归方程的估计结果,被解释变量为gpa;回归结果表格的下部分报告了辅助回归方程的估计结果,被解释变量为hsgpa。在辅助回归方程中,我们通过引入外生变量hscomp作为hsgpa的工具变量,同时控制income,来控制内生性带来的影响。主回归方程的估计类似于regress命令,根据回归结果发现高中gpa的不同会导致大学gpa存在1.24的差异。

需要注意的是,虽然eregress回归中,hsgpa的系数相较于OLS回归有所降低,但是其标准误却上升了。如果选择的IV外生性比较差,或者与内生变量之间的相关性较低(弱工具变量),eregress估计的误差也会更大。

三、eregress vs ivreg2

部分童鞋可能会好奇这里的eregress和ivreg2有什么区别呢?这里我们做一个简单的对比。首先,对比eregress,我们生成两个虚拟变量作为hsgpa的工具变量:

tab hscomp, gen(hscomp)

然后使用ivreg2进行估计:

ivreg2 gpa income (hsgpa = hscomp2 hscomp3), liml savefirst

考虑到eregress命令使用的估计方法为最大似然估计,在使用ivreg2时我们也通过加入liml选项将估计方法设置为最大似然估计。一些文献研究发现:(1) 在大样本的情况下,liml估计量和两阶段最小二乘是渐进等价的,而在非大样本的情况下,liml估计量比两阶段最小二乘法具有更好的小样本估计性质,因为在有限样本之中两者对工具变量赋予的权重不同;(2)在工具变量并不十分有效的情况下,尤其是在有限样本中,相对于两阶段最小二乘和广义矩估计,liml的偏误较小。估计结果如下图:

通过对比可以发现,使用ivreg2命令和eregress命令得到的估计结果是相同的。因此,eregress命令包的主要亮点可能在于将处理内生性问题的命令进行了整合,使得code写起来更加简洁。

本文旨在介绍eregress命令的相关用法,对于所选工具变量的有效性并未进行评估;关于计量上的表述错误或者技术上的错误,还请读者不吝指出。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
互助问答第279期:泊松分布工具变量回归
用stata做空间计量的经验贴
Stata1
手把手教你用Stata的Network包实现分类变量网状Meta分析
Stata结果输出:outreg2 命令详解
STATA数据的类型与压缩[转载]
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服