打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
侦破霍乱起因:用工具变量识别病原体

针对当前对新冠来源的诸多阴谋论观点,经出版社同意,摘录《为什么》这本书中相关的段落,通过历史中的案例,给读者科普如果想严谨的分析病毒的来源,应该怎么做。以下内容来自《为什么这本书》第七章。

医学史上的很多里程碑式的发展成果都与特定病原体的识别有关。十九世纪中叶,约翰·斯诺发现被粪便污染的水导致霍乱。(后来的研究发现了更具体的病因:霍乱杆菌会引起霍乱。)这些杰出的发现蕴含着一个幸运的巧合-其原因与结果恰巧是一对一的关系。霍乱杆菌是霍乱的唯一原因;或者,用我们今天的话来说,霍乱杆菌是霍乱的充分必要因。如果你没接触过霍乱杆菌,你就不会得病。

1853 年和 1854 年,英格兰陷入了霍乱疫情的泥沼。在那个年代,霍乱就像今天的埃博拉病毒一样可怕;一个健康人若不小心喝了被霍乱细菌污染的水,会在24 小时内死亡。我们今天知道霍乱是由一种攻击肠道的细菌引起的。它通过患者腹泻的排泄物传播,患者死前会频繁腹泻。


但在 1853 年,显微镜下还看不到任何疾病的致病菌,更不用说霍乱病菌了。普遍的观点认为,不健康空气中的“瘴气”引起了霍乱。伦敦较贫 困的地方环境卫生较差,霍乱也更猖獗,这一事实似乎支持该理论。

约翰·斯诺医生治疗霍乱病人的经验超过20年,他对瘴气理论一直持怀疑态度。他合理地指出,由于症状表现在肠道,患者首先接触到病原体的部位一定是肠道。但是,因为他看不到元凶,没有办法证明这一点 —— 直到 1854 年霍乱爆发。

约翰·斯诺的故事有两个版本,其中一个较为有名,我们称之为“好莱坞”的版本:他煞费苦心地挨家挨户记录霍乱患者死亡的地点,注意到有一大群患者住在宽街的一处水泵附近。通过与居住在该地区的人的交谈,他发现几乎所有的受害者都从那个水泵中取过水。他甚至了解到一起致命案件,发生在很远的汉普斯特德,那儿有个女人喜欢宽街水泵中水的味道。她和她侄女喝了宽街的水死了,而她所在的地区甚至没有人得霍乱。汇集所有这些证据,斯诺要求地方当局拆除水泵手柄,9 月 8 日当局同意了。正如斯诺的传记作者所写的,“水泵手柄移走了,瘟疫也被制止了。”

所有这些构成了一个精彩的故事。如今,约翰·斯诺社团甚至每年都要进行著名的水泵手柄拆除表演。然而,事实上,拆除水泵手柄对全市霍乱疫情几乎没有产生什么实质性的影响,这一流行病在辞职之后继续夺去了近 3000 人的生命。

在故事的非好莱坞版本中,我们仍然看到斯诺医生走在伦敦的街道上,但这次他真正的目标是找出伦敦人从哪里取水。当时有两家主要的供水公司:索思沃克和沃克斯豪尔公司以及兰贝思公司。正如斯诺所知道的,两 者之间的关键区别在于前者是从伦敦桥区域抽水,那里位于伦敦下水道的 下游。后者几年前已拆除了进水口,转到下水道的上游。因此,索思沃克的顾客得到的是被霍乱患者粪便污染了的水。而兰贝思的顾客得到的是没有污染的水。(这些都与受污染的宽街水无关,宽街的水来自一口井。)

死亡统计数据证实了斯诺令人担忧的猜想。霍乱在索思沃克和沃克斯豪尔公司供水的地区尤为猖獗,死亡率高了八倍。即便如此,证据也只是间接的。瘴气理论的支持者可能认为,瘴气在这些地区是最强的,这是无法证伪的。此例的因果关系如图所示。我们没有办法观测混杂因子 “瘴气”(或其他混杂因子,比如“贫困”),所以我们不能用后门调整来控制变量。



霍乱的因果图(发现霍乱杆菌之前)

斯诺有他的高招。他注意到,在两家公司共同服务的地区,由索思沃克供水的家庭,死亡率仍然高得多。然而,这些家庭在瘴气和贫困方面没有什么不同。“最紧密相关的是供应混合,”斯诺写道。“两个公司的管道都通向所有街道,进入几乎所有的院落和小巷......。无论贫富,无论房子大小,两个公司都提供自来水服务;接受不同公司服务的人,在生活条件或职业方面并无分别。即使是未来没出现“随机对照试验”的概念,好像供水公司已经对伦敦人进行了一次随机化试验。事实上,斯诺甚至注意到了这一点,“设计不出比这更好的试验,可以彻底检验供水对霍乱进展的影响,这种状况现成的摆在观察者面前。试验,也是在最宏大的规模上进行的。多达 30万不同性别、年龄、职业、阶层和地位的人,从上流人士到底层穷人都被分成两组,他们对此别无选择,而且多数情况下,也毫不知情。一组得到干净的水;另一组得到被污染的水。

斯诺艰苦的调查证实了两个重要的假设:(1)“霍乱”和“供水公司”之间没有箭头(二者是独立的),(2)“供水公司”和“水的纯度”之间有一个箭头。斯诺没有做出明确说明,但同样重要的是第三个假设:(3)从“供水公司”到“霍乱”之间没有直接箭头,这在今天是显而易见的,因为我们知道供水公司并没有通过别的通道将霍乱输送给用户。


 
引入工具变量之后的霍乱因果图

满足这三个属性的变量,我们今天称之为工具变量(instrumental variable)。显然斯诺认为这个变量类似于抛硬币,它模拟一个没有箭头指向的变量。由于“供水公司”与“霍乱”的关系中没有混杂因子,任何观察到的关联都必然是因果关联。同样,由于“供水公司”对“霍乱”的影响必须通过“水的纯度”,我们得出结论(与斯诺的一致),观察到的“水纯度”和“霍乱”之间的关系也必然是因果关系。斯诺毫不含糊地陈述了他的结论:如果索思沃克和沃克斯豪尔公司将其进水口移到上游,那么它本可以挽救1000多人的生命

当时很少有人注意到斯诺的结论。他将结论自费印成小册子,总之卖了了56份。如今,流行病学家将他的小册子视为这门学科的奠基性文献。它表明,通过因果推理,我们确实可以追查到问题的根源。

尽管现在瘴气理论已经不足为信,但贫困和地点无疑是混杂因子。但是,即使不测量这些变量,我们仍然可以使用工具变量来确定,通过净化供水水质能拯救多少生命。

现在解释一下工作变量是如何起作用的。为简单起见,我们回过头看变量ZXYU,并重新绘制图2。我已计入路径系数(abc d)以表示因果效应的强度。这意味着我们假设变量是用数值表示的,变量 的相关函数是线性的。请记住,路径系数 a 表示让 Z 增加一个标准单位的干预行动将导致 X 增加a 个标准单位。

 
工具变量的一般设置

由于 Z X 之间不存在混杂,Z X 的因果效应(即 a)可以从 rXZ 计出来,其中 r X Z 上的回归直线的斜率。同样,变量Z Y 未被混 杂,因为路径 Z X U Y X 处的对撞所阻断XZ因此 Z Y 上的回归 直线斜率(rZY)将等于直接路径 Z X Y 的因果效应,即路径系数的乘 :ab。因此,我们有了两个方程:ab=r a=r 。如果我们用第一个方 程除以第二个,就会得到 X Y 的因果效应:b=rZY/rZX

用这种方式,工具变量允许我们执行与前门调整相同的神奇窍门:即使无法控制混杂因子或收集其数据,我们也已发现 X Y 的效应。我们可以给决策者提供一个确凿的论据,即他们应该移走供水系统 —— 即使那些决策者仍然相信瘴气理论。还请注意,我们已经从第一梯级(相关关系 rZY rZX)的信息中获得了因果关系之梯第二梯级的信息(b)。之所以能够做到这一点,是因为路径图所体现的假设在本质上是因果关系,尤其是“U Z 之间没有箭头”这个关键假设。如果因果图不同 —— 例如,如果 Z X Y 的混杂因子 —— 公式 b=rZY/rZX 将无法正确估计 X Y 的因果效应。事实上,无论数据有多大,任何统计方法都无法区分这两种模型。

在因果革命之前,人们就知道了工具变量,但是因果图以新的清晰的方式表明它们是如何起作用的。虽然没有定量公式,斯诺实际上是暗中使用了一个工具变量。

约翰·斯诺对霍乱的长期调查很少受到重视,在《柳叶刀》上刊登的关于他的的一段讣告甚至没有提到这一点。值得注意的是,《英国医学杂志》在 155 年后“修正”了这段讣告 (Hempel,2013)。2003年的一份调查中,斯诺被选为英国历史上最伟大的内科医生。

(文中部分内容整合自《为什么:关于因果关系的新科学》)


 
《为什么:关于因果关系的新科学》
作者:朱迪亚·珀尔,达纳·麦肯齐
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
[Python]因果检验工具
不用太关心控制变量的符号,真的!
读《The Book of Why》的获得和思考—— 一些知识点的备忘
从回归分析到结构方程模型:线性因果关系的建模方法论
什么是结构因果模型 | 集智百科
控制变量!控制变量!Good-Controls-Bad-Controls
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服