一、缘起
读文献的时候,经常会看到在机制检验 (或异质性分析) 部分,有的作者使用分组回归,有的却使用交互项。
例如宋弘、陆毅 (2020, 经济研究) 在研究拔尖学生培养计划对理工科人才供给的影响时,机制部分即引入了分组回归。为了验证信息获取这一机制,作者将样本划分为农村、城市,母亲学历低、高四组样本 (农村地区信息获取渠道少,母亲学历低同理),两两对比。
回归结果显示,拔尖学生培养计划对农村学生和母亲学历低的学生的正面影响更为显著 (系数更大),因而推断这一机制是成立的。
纪洋等 (2018, 经济学季刊) 在研究经济政策不确定性对企业杠杆率的影响时,机制部分则用的是交互项回归。为检验政治关联这一机制,作者按照有无政治关联、非国企分为两类,分别与政策不确定性指数 (EPU) 做交互 (第二列),第三列中则使用业务招待费 (ETC) 与 EPU 做交互。根据交互项的系数显著性来验证机制是否成立。
可以发现,这两种方法背后的原理很简单,都是通过区分组间差异 (农村与城市;有无政治关联) 来检验机制。由此,我们所面临的问题就转化成了:使用这两种方法检验区间系数差异,到底有何不同?
二、简单分析
我们先引入一个简单的收入回归方程:
其中 是小时工资, 为是否接受工作培训的虚拟变量, 是控制变量。
假设我们想看一下 对 的影响是否因性别而异。我们即可以引入交互项:
观察交互项的系数 是否显著即可:
也可以使用分组回归:
然后再检验 的回归系数差异是否显著即可。
不难发现,上述两种方法隐含着不同的假设。交互项回归中,仅要求 的系数存在组间差异,对控制变量不作要求 (两组共享一个回归系数);分组回归则认为每个变量都存在组间差异,各组变量都有自己的回归系数。
毫无疑问,交互项回归的假设相对严格,因为控制变量亦可能存在组间差异。但是,交互项也有好处,那就是更容易得出显著的结果,而且省了组间差异检验这一步。
三、Stata 实例
因为手头上没有收入数据,我们以 Stata 自带的汽车价格数据为例,看一下重量 weight 对价格的影响,length 和 gear_ratio 是控制变量:
sysuse auto, clear
reg price weight length gear_ratio
我们想看一下国产车与进口车之间,重量对价格的影响是否存在差异。
1. 交互项
第一种做法是引入交互项:*- 交互项
reg price c.weight##c.foreign length gear_ratio
交互项系数显著为正,说明进口车的价格确实更容易受到重量的影响。
------------------------------------------------------------------------------------
price | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------------+----------------------------------------------------------------
weight | 5.244 1.016 5.164 0.000 3.218 7.270
foreign | -2520.206 2709.374 -0.930 0.356 -7926.678 2886.265
|
c.weight#c.foreign | 2.596 1.067 2.433 0.018 0.466 4.725
|
length | -93.002 32.204 -2.888 0.005 -157.265 -28.739
gear_ratio | -705.145 895.449 -0.787 0.434 -2491.987 1081.696
_cons | 8897.552 4736.838 1.878 0.065 -554.661 18349.766
------------------------------------------------------------------------------------
除此之外,我们还可以做一下 F 检验。F = 5.92,在 5% 的统计水平上拒绝原假设,说明国产车与进口车之间确实存在显著差异。. testparm c.weight#c.foreign
( 1) c.weight#c.foreign = 0
F( 1, 68) = 5.92
Prob > F = 0.0176
当然,我们也可以进行分组回归,然后再比较组间系数差异是否显著。这部分内容,可以详细参考连玉君老师写的教程:Stata: 如何检验分组回归后的组间系数差异?
2. 似不相关回归
我们先使用似不相关回归:
*- suest
reg price weight length gear_ratio if foreign == 1
est store m1
reg price weight length gear_ratio if foreign == 0
est store m2
suest m1 m2
test [m1_mean]weight = [m2_mean]weight
卡方值 = 0.02,p value = 0.89,说明国产车与进口车之间没有显著差异。. test [m1_mean]weight = [m2_mean]weight
( 1) [m1_mean]weight - [m2_mean]weight = 0
chi2( 1) = 0.02
Prob > chi2 = 0.8851
3. 费舍尔组合检验
我们再来做一下费舍尔组合检验,抽样 200 次:
*- Fisher's Permutation test
bdiff, group(foreign) model(reg price weight length gear_ratio) reps(200) detail
可以看到,weight 的 p value 为 0.440,亦不显著。-Permutaion (200 times)- Test of Group (foreign 0 v.s 1) coeficients difference
Variables | b0-b1 Freq p-value
-------------+-------------------------------
weight | 0.283 88 0.440
length | -133.778 161 0.195
gear_ratio | -3226.625 188 0.060
_cons | 29405.567 6 0.030
---------------------------------------------
有意思的是,我们可以发现,仅交互项得出的结论是显著的,其余两类检验的结果都不显著。
那么这是为什么呢?从费舍尔检验结果我们可以发现,gear_ratio 的组间差异在 10% 的统计水平显著,并不满足控制变量不存在组间差异的假设。
那么怎样才可以在交互项中放宽这一假设呢?很简单,我们可以对所有变量进行交互:
*- 全变量交互
reg price c.foreign##c.(weight length gear_ratio)
可以发现,此时 weight 和 foreign 的交互项系数不再显著,与似不相关回归、费舍尔组合检验得出的结论一致。----------------------------------------------------------------------------------------
price | Coefficient Std. err. t P>|t| [95% conf. interval]
-----------------------+----------------------------------------------------------------
foreign | -2.94e+04 11945.238 -2.462 0.016 -5.33e+04 -5556.130
weight | 5.411 1.129 4.793 0.000 3.157 7.664
length | -109.227 35.216 -3.102 0.003 -179.538 -38.917
gear_ratio | -1551.111 1072.636 -1.446 0.153 -3692.698 590.475
|
c.foreign#c.weight | -0.283 2.599 -0.109 0.914 -5.472 4.905
|
c.foreign#c.length | 133.778 82.337 1.625 0.109 -30.613 298.168
|
c.foreign#c.gear_ratio | 3226.625 1888.951 1.708 0.092 -544.787 6998.037
|
_cons | 13901.410 5119.300 2.715 0.008 3680.397 24122.423
----------------------------------------------------------------------------------------
F 检验也汇报了相似的结论。
. testparm c.weight#c.foreign
( 1) c.foreign#c.weight = 0
F( 1, 66) = 0.01
Prob > F = 0.9135
四、简单总结
简单总结一下,常规的交互项回归在假设上更为严格,它要求控制变量的系数不存在组间差异;但好处是更容易得到符合预期 (显著) 的结果,且不用做组间系数差异检验,观察交互项系数的显著性即可。
分组回归的好处是在假设上更为宽松,对控制变量的系数差异不作要求;缺点是不一定能得到显著的结果,而且还需要进一步做组间系数差异性检验。
至于具体怎么抉择,一切只有见 star 行事了。
参考文献:
宋弘,陆毅.如何有效增加理工科领域人才供给?——来自拔尖学生培养计划的实证研究[J].经济研究,2020,55(02):52-67.
纪洋,王旭,谭语嫣,黄益平.经济政策不确定性、政府隐性担保与企业杠杆率分化[J].经济学(季刊),2018,17(02):449-470.
联系客服