打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
JAMA: 临床研究因果推断中的有向无环图”(DAG),它是什么?有什么用?
最近,JAMA杂志发了一篇统计学方法,写了关于有向无环图DAG的使用,关于优点与缺点。

我特定托一些网友把它翻译出来,一起来学习把!

因果有向无环图

原著 Ari M. Lipsky, MD, PhD; Sander Greenland, MA, MS, DrPH
翻译 王威 流行病与卫生统计学硕士
感谢网友box、.S.ophia支持

临床研究的设计和解释需要考虑感兴趣的暴露/治疗和患者结果之外的变量(特别是多变量分析),包括决定纳入哪些变量,以及在统计分析中控制其中的哪些变量,以最小化估计治疗效果的偏倚。

因果有向无环图(Causal directed acyclic graphs, DAG)是沟通研究人员对变量之间潜在相互作用的理解的一个有用的工具,通常用于中介效应分析。1, 2研究假设以DAG的形式直观呈现,基于这种直观呈现,研究人员可以推断哪些变量需要在统计分析中进行控制,以最小化统计分析结果的偏倚;以及哪些变量在分析中进行控制后可能会引入额外偏倚。3-5

2019年《JAMA Pediatrics》杂志上的一篇文章中,Ramirez6等人研究了儿童特应性皮炎与睡眠时间和睡眠质量之间的关系。作者使用DAG(1)来说明人口和社会经济因素、吸烟、合并哮喘和过敏性鼻炎之间的潜在关系。

这篇JAMA子刊的原文如下:需要原文者,回复“文献阅读”,即可获得该文全文。

因果有向无环图是什么?为什么重要?

因果DAG是一个带有箭头的图表,表示假设的因果影响的方向(例如,从特应性皮炎到睡眠质量)

由于因果关联意味着从原因到结果的时间顺序,因此关联是不太可能形成闭环的(例如,特定时间的特应性皮炎可能会影响睡眠质量,但睡眠质量不会在该时间或之前影响特应性皮炎)换言之,因果DAG是有向、无环(非闭环)的。

如果两个变量之间没有箭头,说明这两个变量之间没有直接的因果关联。然而,即使两个变量之间有箭头,也并不能保证在数据中可以观察到这一关联,因为它所代表的影响或许可忽略不计。

一个完整的因果DAG应包括以下内容:从原因到结果路径上的每一对可能的变量,任何对这对变量中的两者都有因果影响的变量。通常这些额外的变量是无法测量的。因果DAG还应包括左右患者进入研究分组的变量。通过对潜在因果路径的可视化,可能会影响患者暴露/治疗与临床结局的关联,因果DAG有助于识别偏移的来源和校正的方法。

DAG是如何工作的?

下图是暴露/治疗E和研究结果O的因果DAG(如特应性皮炎E和睡眠质量O)。从EO的箭头表示O的值可能会受到E的值的影响。因果DAG中的路径是用箭头连接的一系列变量,包括有向(定向)和无向(非定向)路径两种路径。其中,有向路径是指那些沿着箭头方向从原因到结果的路径,如E→OE→M→O(其中M是一个中间或中介变量);其他从EO的路径均视为无向路径,如ECOESO。如果因果DAG是潜在因果路径的准确表征,并且关联的来源可以限定在从EO的定向路径上,那么观察到的关联将能准确地衡量因果关系。换言之,观察到的EO之间的关联可为EO的影响提供一个无偏估计。相反地,无向路径则是潜在的偏倚来源。

在无向路径中,如E←C→O,暴露/治疗E和结局O被同一个变量指向而形成的路径,被称为后门路径。后门路径上的关联是一种被称为混杂(Confounding)的偏倚。在上图中,C便是混杂变量(confounder)3-5

另外,如果无向路径中包含一个碰撞变量,即被两个箭头指向(碰撞)的变量。如上图中的路径E→S←O便是碰撞路径,其中S是路径中的碰撞变量。为了获得无偏的效应估计,有必要确保暴露和结局之间的无向路径不能传递关联和影响观察到的效应,这被称为关闭路径。确保无向路径闭合的方法是不同的,取决于潜在偏倚来源是一个混杂因素还是一个碰撞因素。

变量的统计校正或控制(如,多因素回归或分层)是对变量进行调整的例子。对混杂因素的调整关闭了后门路径,从而消除了它作为偏倚来源的影响。与混淆因素不同的是,对碰撞因素(或它的效应)的调整实际上是打开了碰撞(碰撞因素)路径,不调整碰撞因素可使得该路径保持关闭以避免偏倚。

如上图所示,统计调整前路径E←C→O处于打开状态,E→S←O处于关闭状态。如果分析调整了C,混杂偏倚路径闭合。然而,如果分析调整了S,路径E→S←O就会打开,使其成为产生偏倚的碰撞路径。这意味着分析时应该避免控制碰撞因素或它们的潜在影响。然而,与有意控制一个变量不同的是,调整并不总是有意为之。例如,如果S代表研究完成前的患者失访,那么分析就要不得不面对患者选择的结果(因为只有完成研究的患者才可能有测量的结局)而致使偏倚的引入,当然适当的分析方法还是可以破解这一局面的。

中介变量是有向路径的一部分,因此,在分析中对它们进行控制将会消除暴露的部分影响。虽然研究人员可能希望控制M(中介变量)来估计未通过M调节的E的效应,但是,如果M是另外一个路径上的碰撞因素,这样做可能会引入偏倚。

通常还有一些无法控制的其他混杂因素,因为它们要么是研究人员不知道的,要么是无法/难以准确测量的。例如,可能存在一个未测量的变量U(例如,父源特应性),从而存在一个混杂路径E←C←U→O。在这种情况下,如果C被测量,该路径仍然可以通过控制C进行关闭,即使路径中包含未知的U

测量误差或错误分类也可以涵盖在路径中,即画一个从变量指向其记录值的箭头(例如C→C * C *C的测量值)。如果C是混杂因素,在对C*进行调整时,CC*之间的关系越弱,C的控制效果越差,而且C的剩余混淆量也越多。有了其他变量,其他偏倚来源(如回忆偏倚)可以在因果DAG中描述。

因果DAG的局限性
因果DAG阐述了一组可能不正确的特定假设。然而,它给读者提供了一个决定将哪些潜在影响考虑在内的机会。因果DAG不能指出偏倚的大小或它们与随机误差的相互作用。此外,因果DAG可能会变得复杂,特别是有重复存在时,使得结果解释更加繁琐。然而,这种复杂性也正反映了现实世界对潜在偏倚来源的担忧。

Ramirez等人对因果DAG的应用

Ramirez等人6利用他们的因果DAG确定了一组最少需要统计控制的变量,以确保得到无偏估计。

例如,他们控制了儿童民族/种族,特应性皮炎←儿童种族和种族→睡眠无向(后门)路径上的变量。

他们注意到孩子哮喘或过敏性鼻炎(CAAR)是一个碰撞因素,便没有控制该因素。因此,他们避免了打开无向路径,如特应性皮炎←儿童民族/种族→CAAR←母亲分娩年龄→睡眠。

然而,CAAR并不是特应性皮炎亲本特应性→CAAR→睡眠路径上的碰撞因素。因为父源特异反应并未测量(因此不能控制)CAAR则未被控制,这种无向路径便是潜在的偏倚来源。剩余偏倚的数量取决于任何剩余偏倚路径(包括未考虑在DAG中的)传递的关联总强度。4, 5

Ramirez等人的解释
Ramirez等人通过详细的因果DAG,使得他们的分析假设更加明确和透明,揭示了在他们的分析中没有控制的潜在偏倚来源。对其结果有效性的判断应该取决于控制后剩余的偏倚,而这又翻过来取决于控制减少偏倚来源的效果如何(例如,对变量不准确的测量限制了其控制效果)4

参考文献
  1. 1.   Lee H, Herbert RD, McAuley JH. Mediation analysis. JAMA. 2019;321(7):697-698. doi:10.1001/jama.2018.21973
  2. 2.   Lee H, Cashin AG, Lamb SE, et al. A guideline for reporting mediation analyses of randomized trials and observational studies: the AGReMA Statement. JAMA. 2021;326(11):1045-1056. doi:10.1001/jama.2021.14075
  3. 3. Greenland S, Pearl J, Robins JM. Causal diagrams for epidemiologic research. Epidemiology. 1999;10(1):37-48. doi:10.1097/00001648-199901000-00008
  4. 4.  Glymour MM, Greenland S. Causal diagrams. In: Rothman KJ, Greenland S, Lash TL, eds. Modern Epidemiology. 3rd ed. Lippincott Williams & Wilkins; 2008:183-212.
  5. 5. Greenland S, Pearl J. Causal diagrams. In: Lovric M, ed. International Encyclopedia of Statistical Science. Vol 3. Springer; 2011:208-216. doi:10.1007/978-3-642-04898-2_162
  6. 6. Ramirez FD, Chen S, Langan SM, et al. Association of atopic dermatitis with sleep quality in children. JAMA Pediatr. 2019;173(5):e190025. doi:10.1001/jamapediatrics.2019.0025

统计课程通知


2022年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS临床试验数据分析、重复测量资料分析结构方程模型等9门课。如果您有需求,不妨点击查看:

2022年9门科研培训课程通告:总有一门你能学的。无限次直播,每周答疑!

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.样本量计算器,免费下载使用,手把手教你计算样本量!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
5.【绝对精品】这套954张PPT的医学统计学教程,现在公开赠送!
6.精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
7.2022年如何学习医学统计学?无偿奉上我们精心制作的医学统计学全套资料
8.超级好用的统计思维导图来了!一步步告诉你如何选择合适统计方法
特别提醒:上述资源每天限分享和下载一个

最后,
如果您觉得不错的话,
可否点击分享推文到朋友圈呢?
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
ggdag:DAG和因果图
丁鹏:多角度回顾因果推断的模型方法
真实世界常用统计分析方法
布劳、邓肯|分层过程
不用太关心控制变量的符号,真的!
当我们讨论因果推断时,我们在讨论什么?(下)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服