①有意思的实证计量讨论帖, 熬夜肝完了一直的计量困惑!②QA: 平方项的IV, 加时间固定符号相反, 滚动窗口回归, 面板分位数输出图, 机制分析中IV, pre5显著咋办,③主回归不显著, 分组回归却异常显著的研究来了!④城市*年份联合的FE与他们分开的FE有什么区别? FE如何从一维进化到二维, 三维的? ⑤审稿人: 你这个文章实证结构已经过时了!过时了!⑥当把交互项加入后, 主项的系数符号竟变相反了, 这是咋回事? 如何处理呢?⑦DID可以有2个处理组和1个对照组么? 有相关的参考文献吗?
Question: 请问各位老师,单独放我的核心解释变量X时,它的系数为正,但当把控制变量加入后,X的系数变为负数了,这是怎么回事呢?
假设在一个线性回归模型中有四个解释变量(IV1, IV2, IV3, IV4),其中IV1是核心解释变量,其他是控制变量。
下面针对可能导致系数符号发生变化的原因分别予以解释。
IV1
与一个或多个其他解释变量存在关联,当这些变量同时包含在模型中时,它们的估计值可能会变得不稳定。IV2 ~ IV1
进行拟合,然后将得到的残差定义为rIV2
。如果所有变量都存在相关性,那么应该对它们全部进行残差化处理。具体的步骤可以是:rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)
DV ~ IV1 + rIV2 + rIV3 + rIV4
在上述模型中,rIV2
的系数代表了在考虑了与IV1
的相关性后,IV2
的独立影响。值得注意的是,如果按照不同的顺序进行残差化,可能会得到不同的结果,因此选择残差化的顺序实际上是研究者在研究中需要做出的一个判断。
变量之间的相关性:检查变量之间的相关系数,了解它们是否存在多重共线性。
模型的设定:确保模型设定正确,考虑到所有重要的变量和潜在的交互作用。
因果推断:基于理论和背景知识进行因果推断,而不仅仅依赖统计模型的结果。
数据的分组和分层:在分析时考虑数据的分组和分层,避免因不恰当的数据汇总而导致错误的结论。
3.遗漏变量偏差
遗漏变量偏差(Omitted Variable Bias)是常见的一种问题。当一个或多个影响因变量的重要解释变量没有被包括在模型中时。这种遗漏会导致模型估计的系数出现偏差,从而影响模型的准确性和解释力。
重要变量未被识别:在模型构建过程中,可能由于数据收集的限制或对数据特性的不完全理解,一些关键变量未被识别和纳入模型。
数据不可获得:有时,即使知道某个变量对模型很重要,但由于数据不可获得或难以测量,无法将其包括在模型中。
模型设定错误:研究者可能基于错误的假设或理论框架构建模型,导致重要变量被排除在外。
系数估计不准确:遗漏变量可能导致模型中其他变量的系数被高估或低估,从而影响模型的解释力和预测能力。
符号错误:当加入其他控制变量后,核心解释变量的符号可能会发生变化,这可能是因为原先遗漏的变量与核心解释变量和因变量都有关联。
因果关系误解:遗漏变量偏差可能导致对变量间因果关系的误解。
假设子女的消费期望值由父母收入决定,其计算公式如下:[ 子女消费期望值 = 0.4 父收入 + 0.6 母收入 ]这可以简化为:[ 子女消费期望值 = 0.6* 父母总收入 - 0.2* 父收入 ]
如果我们控制母收入不变,父收入的回归系数(总体参数)为0.4;而如果我们改为控制父母总收入不变,父收入的回归系数(总体参数)则变为-0.2。如果将“父母总收入”换个名字,比如“家庭开支预算”,这种变化可能会更加令人迷惑。
在父母总收入保持不变的情况下,父收入每增加1单位,相当于母收入减少1单位,或者说,母收入减少1单位同时父收入增加1单位。对-0.2这个系数的困惑,源于我们对这三句等价表述的直觉印象存在巨大反差。
这意味着我们需要更深入地理解变量之间的关系,而不仅仅是依赖表面的统计数据。
在没有控制某些变量的情况下,交互作用可能被隐藏,当这些变量被加入模型后,交互作用的效果才显现出来。交互作用的存在可能会改变原有变量系数的解释。在没有交互项的情况下,系数表示的是变量的边际效应;而在有交互项的情况下,系数表示的是变量在其他变量为零时的效应。
异常值(Outliers):异常值是那些与大多数数据点显著不同的数据点。它们可能会对回归模型的估计产生巨大影响,尤其是当异常值与核心解释变量或控制变量相关联时。
非线性关系:如果数据中存在非线性关系,而模型却假设了线性关系,这可能会导致系数估计的偏差。加入控制变量可能会改变模型对非线性关系的捕捉能力。
多重共线性:解释变量之间的多重共线性可能会导致系数估计的不稳定性和不准确性。
样本选择偏差:如果样本选择不是随机的,而是基于某些未观测到的变量,这可能会导致样本选择偏差,影响系数的估计。
错误的函数形式:如果模型的函数形式(如线性、多项式、对数等)与数据的真实关系不匹配,可能会导致系数估计不准确。
遗漏变量:前面说了,遗漏与核心解释变量和被解释变量都有重要关联的变量,可能会导致遗漏变量偏差,进而影响系数的符号。
错误的交互作用假设:没有正确地包括或排除交互项,或者对交互作用的理解有误,都可能导致模型设定问题。
*可以到社群进一步交流讨论相关学术议题。 推荐一份超级大礼包资源, 里面有丰富的Stata学习材料, 写文章作报告找工作的指南,①134篇各种方法的code, 代码和程序文章合集, 必须收藏!②今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习!③《经济研究》期刊上所有文章按照"计量方法"进行分类汇总,有选择性地学习计量方法,④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏!⑤Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章!⑥CFPS 2020, CHFS 2019数据都公布了! 最新数据用起来做研究.
1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!33.因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢?34.审稿人有义务告诉你回归中可能的遗漏变量么?35.回归中常数项显著说明模型中有遗漏变量问题?36.所有控制变量都不显著行不行呢?审稿人啥看法
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
联系客服