我的''''工具变量''''走丢了，寻找工具变量思路手册

我们把文章的顺序是按照重要性排列的，而前面的1、2、3、4序号代表一个我们正常的阅读顺序。首先需要了解内生性的来源，然后介绍工具变量法，其次需要寻找到一个好的工具变量，最后是要检验工具变量的合理性。这篇是通过工具变量处理内生性的利剑。

3.寻找工具变量的思路

内生性是实证研究中不得不面对的问题，寻找工具变量以克服内生性的影响是实证研究中不得不纠结的问题。纠结的原因主要有两个，一是工具变量比较难找，二是即便找到了效果也不一定好。关于效果好不好暂且不表，首先得要找到工具变量，因此今天和大家交流一下寻找工具变量的思路。

就我个人的使用经历和总结而言，大体有以下四个方向可以考虑：

1）对于面板数据，可以考虑使用内生变量的滞后期作为工具变量。一方面，内生变量的滞后期一般与当期的内生变量相关，而且往往是高度相关，因而相关性条件得以满足。另一方面，内生变量的滞后期由于已经发生，可能与当期的扰动项也不相关，因而外生性条件得以满足。要注意的是，这里只是说可能，需要根据研究情况具体讨论。大家所熟知的系统GMM就是大量使用滞后期作为工具变量的。

2）使用更高层级的变量作为低层级变量的工具变量。为了说明这一点，举一个实例。有文献研究个体的金融知识与创业选择，金融知识在增加创业概率的同时，也可能会反过来受到创业活动的影响，因而金融知识是内生变量。为了克服内生性，作者选用同一个社区其他居民的金融知识平均水平作为个体金融知识的工具变量。类似的例子还有很多，比如研究企业避税问题时，用同一行业其他企业的平均避税程度作为该企业避税的工具变量。

3）利用相关的外生政策冲击构造工具变量。关于这个方向，以前推荐过的陈斌开老师的文章《减税是否能提振中国经济——基于中国增值税改革的实证研究》一文做了较好的示范。在文中，增值税税负是内生变量，由于增值税转型改革会显著影响企业的增值税税负，因而陈老师他们基于这次改革构造了工具变量，效果很好。

4）在历史、地理、气候等因素上花心思，这一个方向是最难也是最具有艺术性的。找历史因素的逻辑和找滞后期的逻辑比较类似，即过去会影响现在，但与当期的扰动项可能不相关。比较典型的是为制度寻找的工具变量，有城市的开埠通商历史（董志强等）、1919年基督教教会初级小学的注册学生人数（方颖等）、历史上的殖民者死亡率（Acemoglu等）等等。关于如何在这个方向找到自己想要的工具变量，既取决于个人的文献积累，也取决于个人的历史、地理等相关知识。就目前而言，比较切实可行的办法就是大量读相关文献，看别人用了什么工具变量，从中有所启发，甚至可以直接拿过来用。

最后，列举几个使用工具变量的例子供大家参考：

1.内生性的来源

之前在讲OLS的假设时说过（OLS及其假设），假设对于得到参数的一致估计至关重要，该假设意味着解释变量与扰动项不相关。事实上，该假设是OLS能够成立的最为重要的条件。但与此同时，该假设又过于严格或者过于理想化，实际的经济问题研究中经常会发现解释变量与扰动项相关。由于

会导致参数估计不一致，因此，解释变量与扰动项相关便产生了我们常说的内生性问题。又由于在实践中很难得到满足，因此，内生性问题是一个大家都普遍面临和绕不开的问题。

一般来说，存在以下三种情况会使得

：

1. 变量的测量误差

变量的测量误差可以分为被解释变量的测量误差和解释变量的测量误差，这两者产生的后果是不一样的。当被解释变量存在测量误差时，并不会对模型中估计参数的一致性造成任何不利影响，但也并非全然无害，它会增大渐进方差。而当解释变量存在测量误差时：

，也就是说，实际观测到的是

，真实无偏差的却是

，当对模型进行估计时，测量误差项

会进入扰动项，进而使得

，因此，解释变量的测量误差会导致内生性。陆铭老师以前特意写了个短评，强调对于核心解释变量一定要能够准确地度量，不要似是而非含糊不清，更不要用“用xxx来代理核心解释变量”。

2. 遗漏变量偏误

经济关系错综复杂，影响被解释变量的因素可能成千上万，我们往往难以将那些重要的影响因素一网打尽，因此遗漏变量偏误问题似乎也在所难免。不过，遗漏变量也可以分为遗漏了与解释变量不相关的变量，以及遗漏了与解释变量相关的变量。对于前者，由于遗漏变量与解释变量不相关，因而遗漏的变量进入扰动项后，扰动项仍然与解释变量不相关，即解释变量参数估计的一致性不受影响。对于后者，遗漏的变量进入扰动项后则会导致

。

3. 反向因果

反向因果是说X在影响Y的同时（在这个模型中，Y是被解释变量），Y也会对X产生影响（在这个模型中，X摇身一变为被解释变量）。很显然，这个时候有

。在实际做论文的过程中，反向因果问题应当是最需要重点关注和考虑的内生性问题了，这一点在公司财务问题研究中表现得似乎更为明显，主要是因为财务报表里的各项基本都相互联系和影响。

2.工具变量法介绍

之前说过，内生性问题几乎不可避免，而当面临内生性时，工具变量法则是最为常用的应对手段。今天给大家简要说一说工具变量法的基本原理。

1. 内生性的来源

上一篇推文介绍了内生性的三个主要来源：变量的测量误差、遗漏变量偏误以及反向因果，它们的存在会使得

。为了比较直观地感受内生性的存在对参数估计一致性的影响，下面以遗漏变量偏误为例简单推导一下。

假设真实的模型是：

由于T本身不可观测或者其他原因，我们实际估计的模型是：

此时被遗漏的变量T进入扰动项，从而有：

。对于模型（2），变量X的参数估计值为：

，将模型（1）中真实的Y代入到这个表达式里有：

。

在上一篇推文里说过，遗漏变量分为两种，一种是与解释变量不相关的遗漏变量，一种是与解释变量相关的变量。从上式可以发现，当遗漏的变量T与X无关时，即

时，有

，此时解释变量X的参数一致性不受影响。反之，当遗漏的变量T与X相关时，有

。

2. 工具变量法解决内生性

为了得到参数的一致估计，我们需要利用工具变量法。什么叫工具变量法呢？可以这样直白地理解：通过工具变量（IV）以及某种手段，以切断内生变量与扰动项的相关性为目的，从而得到参数一致估计的方法。那工具变量又是什么、某种手段又是什么呢？下面一个个讲。

简单地说，工具变量Z就是满足了一些特定条件的寻常变量，言下之意就是，任何一个普通的变量只要满足了特定的条件就可以充当工具变量。这些特定的条件主要有以下两个：

（1）相关性，即工具变量与内生变量相关，要有

；

（2）外生性，或者叫排除限制条件，即工具变量与扰动项不相关，要有

。该条件意味着，工具变量只能通过内生变量对被解释变量产生影响，而不能有其他的路径或渠道。

为了直观地感受工具变量在获得参数一致估计中的运用，下面还是以遗漏变量偏误的那个例子简单推导一下（这里假设遗漏变量与解释变量相关）。

由于我们实际估计的是模型（2），因而OLS估计是有偏的。现在我们灵光乍现脑洞大开，为内生变量X找到了一个工具变量Z，则有：

根据外生性条件有

，从而

，当工具变量的相关性满足时（保证分母不为0），有下式成立：

。将模型（1）中真实的Y代入到这个表达式里，我们便可以进一步得到：

结合第1部分和第2部分有，OLS估计量为：

，而工具变量估计量为：

。通过对比我们可以得到几点结论：

（1）若工具变量与内生变量无关，即

，则无法定义工具变量法；

（2）当工具变量Z就是解释变量X本身时，也就是说当变量X本来就外生时，OLS估计量将完全等同于工具变量估计量；

（3）不论内生性是否真的存在，使用工具变量法始终能得到参数的一致估计。该思想也是Hausman检验的基础。

3. 两阶段最小二乘法（2SLS）

在谈到工具变量法时，我们听得最多的应该就是两阶段最小二乘法了，这里的2SLS就是第2部分中提到的“某种手段”。通过2SLS，我们可以将内生变量与扰动项的相关性斩断，从而使得内生变量“不再内生”。具体来说，2SLS包含以下两个阶段的回归：

第一阶段：内生变量X对工具变量Z进行OLS回归，并得到内生变量的拟合值；

第二阶段：被解释变量Y对第一阶段中得到的内生变量的拟合值进行OLS回归，从而得到两阶段最小二乘估计量。

为了理解得深刻一点，下面还是通过式子说明一下。

对于模型（2）：

，

在第一阶段，我们有

，进行OLS回归之后得到X的拟合值

。因为工具变量Z与扰动项v不相关，从而拟合值

也与扰动项v不相关。在第二阶段时，我们有

，此时便能得到一致估计。

事实上，2SLS是把内生变量X分解为了两部分：外生的部分

以及余下的与扰动项相关的部分

，然后被解释变量仅对外生的部分

进行回归。这一逻辑还可以这样理解：

其中，X由两部分组成：

，这时有：

显然，此时可以得到参数的一致估计。

关于2SLS，有一点要特别强调的是，尽管该方法的逻辑看上去很简单，但是不可手动直接去进行两次回归，用Stata的命令直接做就行，不然会出错的，原因在于第二阶段回归时所得到的残差有变化，对具体推导感兴趣的可以找本高级计量的书看一看。

4.工具变量法的相关检验与注意事项

之前已经介绍过内生性的主要来源（内生性的来源）以及工具变量法的基本原理（工具变量法介绍），在此基础上，今天再来说一说工具变量法的应用过程中应该注意的一些事项。

我们知道，一个合格的工具变量应该同时满足以下两个条件：

1）相关性，即工具变量应该与内生变量相关；

2）外生性，即工具变量应该与扰动项不相关。

如同使用DID时我们要关注共同趋势假设是否成立，在使用工具变量法时我们也要对以上两个条件是否满足给予足够的重视，否则得到的结果便不具有说服力。那怎么来检验好不容易寻找到的工具变量是否较好地满足了这两个条件呢？

对于相关性条件，这个条件是可以直接验证的。一般来说，可以通过第一阶段回归中工具变量的显著性以及F值来判断，如果工具变量与内生变量显著相关，且F检验值大于等于10，则认为相关性条件得到了较好的满足。本质上，相关性考察的是弱工具变量问题。回忆一下工具变量估计量的公式：cov(Y,Z)/cov(X,Z)，如果工具变量与内生变量完全不相关，即分母为0，则根本就定义不了工具变量法；而如果工具变量与内生变量仅微弱地相关，即分母趋近于0，则会使得工具变量估计量的渐进方差变得很大，导致估计不准确和统计推断失效。既然我们能找到一个工具变量，相信工具变量与内生变量一定是相关的，问题便在于相关的程度上了，因此，对相关性条件的检验其实就是对弱工具变量问题的检验。

如果不幸地发现可能存在弱工具变量问题，比如第一阶段的F值小于10，这时候有几种可以尝试的办法，一是去寻找相关性更强的工具变量（各种开脑洞和看文献）；二是可以使用受弱工具变量影响较小的有限信息极大似然法（LIML）进行估计；三是可以使用Anderson-Rubin检验；四嘛，放弃吧。

对于外生性条件，或者称之为排除限制条件，在恰好识别的情况下（工具变量的个数等于内生变量的个数）是无法进行统计上的检验的，这就意味着，我们需要花费较多的篇幅来从理论和逻辑上为工具变量的外生性进行辩护。而在过度识别的情况下（工具变量的个数大于内生变量的个数），则可以进行过度识别检验（Sargan test），该检验的原假设为：所有的工具变量都是外生的。如果结果拒绝了该原假设，则说明至少有一个工具变量不是外生的。不过要注意的是，拒绝原假设只是表明存在着无效的工具变量，却无法告诉我们哪些工具变量是无效的。

如果处于恰好识别的情况下（这应该是很普遍的，找到一个合适的工具变量本来就不容易了），我们应该怎么来为工具变量的外生性进行辩护呢？外生性意味着工具变量与扰动项不相关，其对被解释变量的影响只能通过内生变量来实现，而不能有其他的渠道。因此，严格而言，需要找出工具变量影响被解释变量的所有其他可能的渠道，然后一一予以排除，最后只剩下内生变量这一个路径。之前推荐过方颖老师2011年发表在《经济研究》上的文章，在文中方老师便是如此做的，实为我们学习的范例，建议大家细读和总结。

关于工具变量法的stata命令，推荐大家使用ivreg2（截面数据）以及xtivreg2（面板数据），这两个命令在进行回归估计的同时给出了相关的统计检验量，可以直接据以对工具变量的相关条件进行判断验证。

最后，再提及几点使用工具变量法时应该注意的问题：

1）确定文章要使用工具变量法后，应该要详细说明内生性的来源，并对工具变量的有效性进行论证。

2）在使用2SLS时，不要手动分两阶段进行估计，不然会出问题，原因在于第二阶段中的标准误有变化，直接用stata命令进行回归就行。

3）如果想要手动分两阶段进行练习，应该保证第一阶段估计中的控制变量与第二阶段中的控制变量完全一致。

4）结果汇报时，应该要同时给出OLS与IV的估计结果，并对两者的差异进行分析说明。

5）结果汇报时，应该要给出第一阶段的估计，比如F检验值、工具变量的估计系数和显著性等。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。