标准误两三事：如何选择适合“自己”的标准误？

人民大学江艇老师曾戏称“人固有一死，或死于不显著，或死于内生性”，内生性是一个相当复杂的问题，之前也或多或少也跟大家讨论过，但是很多论文可能都还没有到内生性讨论那一步就死掉了，因为不显著就基本没有做下去的必要了，除非你能讲好这个不显著的故事。看着别人论文闪闪发亮的三颗星（虽然都是黑色印刷），再看看自己的回归系数连10%的显著性水平都够不着，那种感觉真是扎心啊！不知大家是否有过因为系数不显著而失眠的经历？

在回归分析中，单个系数的显著性我们主要看t统计量与临界值之间的关系，t统计量的计算公式想必大家都很熟悉，等于系数值除以其标准误，但是这个标准误的选择其实可以说是大有文章了，为什么要我不能使用普通的标准误而要使用稳健的标准误呢？究竟是该使用异方差稳健的标准误还是聚类稳健的标准误呢？

普通标准误的计算公式是在高斯马尔科夫假定下推导来的，其中有一个重要的假定就是同方差假定，但是现实情况中同方差假定一般都不满足，如果存在异方差，普通标准误就不是真实的标准误了，使用普通标准误构造的t统计量就失效了。White(1980)提出了异方差稳健的标准误（Heteroskedasticity-Robust Standard Error），其推导过程并没有用到同方差这一假定。横截面数据通常都存在异方差问题，因此对于横截面数据我们一般都会使用异方差稳健的标准误，当然，你可以做一个BP检验或者White检验亦或者其他异方差的检验来判断你的模型是否存在异方差问题，如果不存在的话那你是用普通的标准误也就是没有问题的。不过，在我看来，这些异方差的检验都是相当鸡肋的，因为做异方差假设检验存在犯错误的风险，还不如直接使用稳健标准误。

面板数据模型的标准误就比横截面更为矫情了，由于面板数据的特点，我们通常可以假设不同个体之间的扰动项相互独立，但同一个体在不同时期的扰动项之间往往存在自相关。自相关是违反球形扰动项的另一种情形，不会影响估计量的无偏性和一致性，但是会影响有效性，也就是会影响估计量的方差，高斯马尔科夫定理就不再成立，这时使用普通标准误或是异方差稳健的标准误都是有问题的，因此t统计量也会失效。

于是，聚类稳健的标准误破土而出。在面板数据中，每位个体不同时期的所有观测值即构成一个“聚类”（cluster）。这样，样本观测值可以分为不同的聚类，比如你使用的是省级面板数据，那么每一个省就是一个聚类，在同一聚类里的观测值互相相关，而不同聚类之间的观测值则不相关。对于聚类样本，仍可进行OLS估计，只需使用“聚类稳健的标准误”（Cluster-Robust Standard Errors）即可，其在形式上也是一种夹心估计量，只是表达式更为复杂。

聚类稳健的标准误是比异方差稳健的标准误要求更为严格的一种标准误，因为其在推导过程中并没有用到同方差假定，所以聚类稳健标准误都是异方差稳健的。从标准误数值大小上来说，通常情况下都是聚类稳健的标准误>异方差稳健的标准误>普通标准误，因此多数情况下，可能你使用普通的标准误会显著（虚假，漂亮的数字也会骗人），而一旦使用异方差稳健的标准误或是聚类稳健的标准误就不再显著了。在这种情况下，你可以考虑对数据和函数形式进行微调，辅以一些“旁门左道”，以坚韧不拔之志不断尝试，毕竟三颗星显著很难“一蹴而就”。

聚类稳健的标准误的使用其实也要分多种情况了，究竟应该聚类到哪个层面其实也是很有讲究的。假如你研究的问题是撤县设市对企业全要素生产率的影响，你的被解释变量是企业层面的变量TFP，而解释变量中既有县级层面也有企业层面变量，如果聚类到企业层面，就相当于假设同一个企业在不同时间上的观测值之间是相互关联的，但是不同企业的观测值之间是没有关联的。如果聚类到县级层面，要求就更严格了，相当于假设同一个县内任何两个观测值之间都是相互关联的（不管是不是同一个企业），而不同县的观测值之间是没有关联的。对这一问题来说，聚类到县级的假设是更符合实际情况的，因为同一个县域内的几家企业之间难免存在竞争与合作，论文中大家都是聚类到更高层级，让审稿人无法质疑金光闪闪的结果。如果你的被解释变量和解释变量都是处在同一层面上，比如研究撤县设市对地区经济增长的影响，那么也没有什么选择的余地了，直接聚类到这一层面上就好了。

使用聚类稳健标准误还有一个问题要注意，只有当聚类中的观测数目T较小，而聚类数目n较大(n趋向于无穷)时，聚类稳健标准误是真实标准误的一致估计。因此，聚类稳健标准误更适用于时间维度T比截面维度n小的短面板，那么究竟多少数量的聚类可以允许我们得到可靠的推断呢？Angrist教授在《基本无害》一书中最后一节也有讲到这个问题，不过他并没有给出一个明确的答案，究竟聚类数少到多少会对推断问题产生致命影响时大家谁也不清楚，当被质疑聚类数偏低时，最好的办法就是收集更多的数据，扩大聚类数目，但我们有时不能这么做，比如省级面板数据不考虑港澳台也就31个聚类，31个其实也还好，不会对推断问题产生致命影响。除此之外，Angrist教授也给出了一些对于聚类数偏低问题的解决办法，详见《基本无害》一书。

本文不涉及任何数学公式和矩阵，想要理清各种标准误原理与推导过程的朋友，还请自行找一本计量教材去好好学习。至于异方差稳健标准误与聚类稳健标准误的stata操作，其实也是相当简单了！

#异方差稳健标准误
reg y x , robust
#聚类稳健标准误
reg y x ,vce(cluster xxx)

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。