啥时候使用聚类标准误, 以及数据聚类的修正方法?

邮箱：econometrics666@sina.cn

所有计量经济圈方法论丛的程序文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

这是计量经济圈第860篇文章

（1）

在经济学的实证研究中，报告标准误差的时候常常需要考虑到数据聚类问题(clustering)。通常，调整聚类数据的动机是集群内各个体中未观察到的组成部分是相关的。然而，因为相关性可能发生在多个维度上，这种动机难以证明为什么研究人员在某些方面使用聚类，例如地理(州、省)，但不在其他方面进行聚类，如年龄组或性别。

Abadie, Athey, Imbens & Wooldridge(2017)认为聚类本质上是一个设计问题，其中包括抽样设计和实验设计问题。如果采用两阶段过程抽样，那么这是一个抽样设计问题，从一个总体集群中随机抽样得到一个样本集群，而在在第二阶段，从集群样本数据中随机抽取一些个体。在这种情况下聚类调整是合理的，因为在总体数据里有在样本中没有看到的聚类。

如果政策项目的发生是与聚类相关的，则集群内相互关联的现象是一个实验设计问题。他们认为这第二个是最适合经济学中使用聚类调整的典型现象。这个观点让咱们对三个问题有了新的认识:(i)何时应该考虑到聚类问题从而调整标准误差，(ii)何时应当使用常规的聚类标准误，以及(iii)何时使用常规的聚类标准误显得非常重要。

他们的这篇文章实质上在某一个方面挑战Cameron在什么级别上标准误聚类, 个体, 县, 省或行业, 时间？挑选关键部分阅读，咱们可以更好地了解为什么实验设计中的问题更需要使用聚类标准误进行调整。

（2）

以下讲的是“cluster dependence”，即在同一集群下的个体是相关的，这是不是有点像经常碰到的多层线性模型hierachical linear model, multilevel model, 嵌套模型nested model, 随机系数模型random coefficients model。这与OLS回归要求的i.i.d独立同分布假设是矛盾的，因此咱们不再能使用传统的OLS方法估计参数。

如何修正这种cluster dependence？

注意，以下进行的修正主要考虑了回归中的截距项，即给每一个类别分配一个不同cluster-specific intercept。而对于回归中的斜率项，那个一般是多层线性模型(HLM)或者随机系数模型(RCM)要做的。就是说，更一般化的修正是HLM和RCM模型——允许不同截距和斜率都随着cluster发生变动。

1.Including a dummy variable for each cluster (fixed effects)，固定效应模型，这个就是within estimators。固定效应方法指的是这些因素不可观测，但是又与咱们的解释变量相关因此会有内生性问题，那需要通过差分、去均值或添加虚拟变量等方式消除他们。

2. Random effects models模型，随机效应，假设的是那个cluster specific effects

与解释变量

不相关，然后只需要通过广义最小二乘法GLS调整一下方差协方差矩阵就好。

3. Cluster-robust (“clustered”) standard errors，聚类稳健标准误，可以看这个在什么级别上标准误聚类, 个体, 县, 省或行业, 时间？有点像OLS+vce(cluster id)。

4. Aggregate data to the cluster-level and use OLS，把个体数据归并成为类别数据，即下面的取均值。这个就是between estimators。

如果每个类别下的个体数据不一样，那么类别层面的误差会有异方差性，此时咱们可以使用加权最小二乘法回归，而cluster size作为权重。

random effect estimators实际上介于within estimators与between estimators，更确切地说，它是within estimators和between estimators的平均值。从这里想到，有时候做面板数据的分析时，也可以采用between estimators的方式，对样本中的time或这cluster求均值，然后采用截面数据的方式做回归。

举例：

①OLS。我们对语言智商与语言测试中的分数之间的关系感兴趣。OLS给出如下回归结果：

②随机效应模型。我们认为观察结果可能在每所学校内是相关的，因为存在一些不可观测的影响语言成绩的学校特征(例如优秀的语言教师)。random effects模型给出如下回归结果：

从上面的结果中，我们还了解到，语言分数在学校内是相关的，事实上，语言智商影响语言分数的88.7%％可归因于学校（其余部分归因于学生）。组类内相关性非常显著，正如其检验统计数3556.19所示。

③固定效应。我们现在考虑一种固定效应模型，它允许在未观察到的学校特征和语言智商之间建立关联(学校与优秀的老师吸引更聪明的学生)。within estimators如下：

④between estimators。如果你没有被生态谬误所吓倒，你可以分析群体的均值。Stata使用be选项，在这里我们还使用wls来按照学生人数的比例来对学校加权。

关于生态谬误，请参看计量方法导致失真的社科研究, 谁之过

Note: 红线为between estimators，蓝线为within estimators，绿线为random effect estimators。

对于聚类数据的处理，最通用和大一统的计量框架是多层线性模型(HLM)或者说随机系数模型(RCM)。关于这个的一些介绍可以参看如下文章：

1.随机系数模型及程序实现和解读Lecture

2.混合线性模型MEM，层级数据处理利器

3.混合效应模型MEM

4.混合Logit模型跨越标准Logit模型三座大山

5.随机系数Logit模型及Stata实现

之所以聚类数据的处理与面板数据有很多相似之处，比如随机效应和固定效应，在于面板数据本身就是一种聚类数据，咱们可以把个体在不同年份的观测值当作在个体层面的聚类(时间上有相关性)。

相关文章资料、程序和数据已放在社群, 有需要的可以下载参看。

近日，计量经济圈收到外国学生来信：

公众号菜单栏有一个”Search“支持搜索，”Journal“支持浏览期刊最新文章。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。