行业固定效应与聚类到行业层面

发现不少人对行业固定效应以及聚类到行业层面这两种操作之间的区别不甚明了，实际使用时经常张冠李戴从而未达到既定目的，所以今天简要介绍下他们的不同之处。

从语言描述来看，在讲行业固定效应时，文献一般都是这么说的：

本文还进一步控制了行业固定效应。

而在讲其他控制变量时，文献一般都是这么说的：

本文还控制了如下可能对Y产生影响的变量。

这两句话中的的控制是一样一样的，也就是说，行业固定效应的地位和其他控制变量等同。

这一点也可以从模型设定中看出来，代表行业固定效应的变量和其他控制变量一样，都处在核心解释变量之后、扰动项之前。

直白点说就是，行业固定效应的本质就是普通的控制变量，控制行业固定效应的逻辑和考虑其他控制变量的逻辑完全相同，都是为了避免遗漏变量偏误的影响。

行业固定效应涉及的是控制变量，而聚类到行业层面涉及的则是扰动项，它们的对象和逻辑完全不同。

为什么要对扰动项进行聚类处理呢？首先来看最基本的稳健标准误(robust standard error)。我们知道，OLS的基本假设之一是扰动项的分布服从同方差。当出现异方差时，为了得到可靠的结论，最简单的解决办法就是采用稳健标准误对普通标准误进行调整。

接着考虑复杂一点的情况，即聚类(cluster)稳健标准误。以企业面板数据为例，同方差条件下，扰动项的方差-协方差矩阵是这个样子：

对于企业面板数据来说，同一个企业内部之间的扰动项往往是相关的，即非主对角线上的值往往并不为0，如下所示：

这个时候同方差假设并不满足，因而需要对扰动项进行调整。可以发现，尽管严格的同方差不满足，但如果把同一个企业的所有扰动项当成一个整体，同方差假设依然成立：

这种把同一个企业的所有扰动项当成一个整体的方法即聚类(cluster)，在这个例子里即是：聚类到企业层面。要提一下的是，对于面板数据回归，robust具有自动聚类到企业层面的功能。

更进一步地，对于企业面板数据，同一个行业内部的扰动项往往也可能是相关的(就不画图了)。这时候就可以采用类似的思路，将标准误聚类到行业层面。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。