侦破霍乱起因：用工具变量识别病原体

针对当前对新冠来源的诸多阴谋论观点，经出版社同意，摘录《为什么》这本书中相关的段落，通过历史中的案例，给读者科普如果想严谨的分析病毒的来源，应该怎么做。以下内容来自《为什么这本书》第七章。

医学史上的很多里程碑式的发展成果都与特定病原体的识别有关。十九世纪中叶，约翰·斯诺发现被粪便污染的水导致霍乱。(后来的研究发现了更具体的病因：霍乱杆菌会引起霍乱。)这些杰出的发现蕴含着一个幸运的巧合-其原因与结果恰巧是一对一的关系。霍乱杆菌是霍乱的唯一原因;或者，用我们今天的话来说，霍乱杆菌是霍乱的充分必要因。如果你没接触过霍乱杆菌，你就不会得病。

1853 年和 1854 年，英格兰陷入了霍乱疫情的泥沼。在那个年代，霍乱就像今天的埃博拉病毒一样可怕;一个健康人若不小心喝了被霍乱细菌污染的水，会在24 小时内死亡。我们今天知道霍乱是由一种攻击肠道的细菌引起的。它通过患者腹泻的排泄物传播，患者死前会频繁腹泻。

但在 1853 年，显微镜下还看不到任何疾病的致病菌，更不用说霍乱病菌了。普遍的观点认为，不健康空气中的“瘴气”引起了霍乱。伦敦较贫困的地方环境卫生较差，霍乱也更猖獗，这一事实似乎支持该理论。

约翰·斯诺医生治疗霍乱病人的经验超过20年，他对瘴气理论一直持怀疑态度。他合理地指出，由于症状表现在肠道，患者首先接触到病原体的部位一定是肠道。但是，因为他看不到元凶，没有办法证明这一点 —— 直到 1854 年霍乱爆发。

约翰·斯诺的故事有两个版本，其中一个较为有名，我们称之为“好莱坞”的版本：他煞费苦心地挨家挨户记录霍乱患者死亡的地点，注意到有一大群患者住在宽街的一处水泵附近。通过与居住在该地区的人的交谈，他发现几乎所有的受害者都从那个水泵中取过水。他甚至了解到一起致命案件，发生在很远的汉普斯特德，那儿有个女人喜欢宽街水泵中水的味道。她和她侄女喝了宽街的水死了，而她所在的地区甚至没有人得霍乱。汇集所有这些证据，斯诺要求地方当局拆除水泵手柄，9 月 8 日当局同意了。正如斯诺的传记作者所写的，“水泵手柄移走了，瘟疫也被制止了。”

所有这些构成了一个精彩的故事。如今，约翰·斯诺社团甚至每年都要进行著名的水泵手柄拆除表演。然而，事实上，拆除水泵手柄对全市霍乱疫情几乎没有产生什么实质性的影响，这一流行病在辞职之后继续夺去了近 3000 人的生命。

在故事的非好莱坞版本中，我们仍然看到斯诺医生走在伦敦的街道上，但这次他真正的目标是找出伦敦人从哪里取水。当时有两家主要的供水公司:索思沃克和沃克斯豪尔公司以及兰贝思公司。正如斯诺所知道的，两者之间的关键区别在于前者是从伦敦桥区域抽水，那里位于伦敦下水道的下游。后者几年前已拆除了进水口，转到下水道的上游。因此，索思沃克的顾客得到的是被霍乱患者粪便污染了的水。而兰贝思的顾客得到的是没有污染的水。(这些都与受污染的宽街水无关，宽街的水来自一口井。)

死亡统计数据证实了斯诺令人担忧的猜想。霍乱在索思沃克和沃克斯豪尔公司供水的地区尤为猖獗，死亡率高了八倍。即便如此，证据也只是间接的。瘴气理论的支持者可能认为，瘴气在这些地区是最强的，这是无法证伪的。此例的因果关系如图所示。我们没有办法观测混杂因子 “瘴气”(或其他混杂因子，比如“贫困”)，所以我们不能用后门调整来控制变量。

霍乱的因果图（发现霍乱杆菌之前）

斯诺有他的高招。他注意到，在两家公司共同服务的地区，由索思沃克供水的家庭，死亡率仍然高得多。然而，这些家庭在瘴气和贫困方面没有什么不同。“最紧密相关的是供应混合，”斯诺写道。“两个公司的管道都通向所有街道，进入几乎所有的院落和小巷......。无论贫富，无论房子大小，两个公司都提供自来水服务;接受不同公司服务的人，在生活条件或职业方面并无分别。即使是未来没出现“随机对照试验”的概念，好像供水公司已经对伦敦人进行了一次随机化试验。事实上，斯诺甚至注意到了这一点，“设计不出比这更好的试验，可以彻底检验供水对霍乱进展的影响，这种状况现成的摆在观察者面前。试验，也是在最宏大的规模上进行的。多达 30万不同性别、年龄、职业、阶层和地位的人，从上流人士到底层穷人都被分成两组，他们对此别无选择，而且多数情况下，也毫不知情。一组得到干净的水;另一组得到被污染的水。

斯诺艰苦的调查证实了两个重要的假设:(1)“霍乱”和“供水公司”之间没有箭头(二者是独立的)，(2)“供水公司”和“水的纯度”之间有一个箭头。斯诺没有做出明确说明，但同样重要的是第三个假设：（3）从“供水公司”到“霍乱”之间没有直接箭头，这在今天是显而易见的，因为我们知道供水公司并没有通过别的通道将霍乱输送给用户。

引入工具变量之后的霍乱因果图

满足这三个属性的变量，我们今天称之为工具变量(instrumental variable)。显然斯诺认为这个变量类似于抛硬币，它模拟一个没有箭头指向的变量。由于“供水公司”与“霍乱”的关系中没有混杂因子，任何观察到的关联都必然是因果关联。同样，由于“供水公司”对“霍乱”的影响必须通过“水的纯度”，我们得出结论(与斯诺的一致)，观察到的“水纯度”和“霍乱”之间的关系也必然是因果关系。斯诺毫不含糊地陈述了他的结论:如果索思沃克和沃克斯豪尔公司将其进水口移到上游，那么它本可以挽救1000多人的生命。

当时很少有人注意到斯诺的结论。他将结论自费印成小册子，总之卖了了56份。如今，流行病学家将他的小册子视为这门学科的奠基性文献。它表明，通过因果推理，我们确实可以追查到问题的根源。

尽管现在瘴气理论已经不足为信，但贫困和地点无疑是混杂因子。但是，即使不测量这些变量，我们仍然可以使用工具变量来确定，通过净化供水水质能拯救多少生命。

现在解释一下工作变量是如何起作用的。为简单起见，我们回过头看变量Z，X，Y，U，并重新绘制图2。我已计入路径系数(a，b，c， d)以表示因果效应的强度。这意味着我们假设变量是用数值表示的，变量的相关函数是线性的。请记住，路径系数 a 表示让 Z 增加一个标准单位的干预行动将导致 X 增加a 个标准单位。

工具变量的一般设置

由于 Z 和 X 之间不存在混杂，Z 对 X 的因果效应(即 a)可以从 rXZ 估计出来，其中 r 是 X 在 Z 上的回归直线的斜率。同样，变量Z 和 Y 未被混杂，因为路径 Z → X ← U → Y 被 X 处的对撞所阻断X。Z因此 Z 在 Y 上的回归直线斜率(rZY)将等于直接路径 Z → X → Y 的因果效应，即路径系数的乘积:ab。因此，我们有了两个方程:ab=r 和 a=r 。如果我们用第一个方程除以第二个，就会得到 X 对 Y 的因果效应:b=rZY/rZX。

用这种方式，工具变量允许我们执行与前门调整相同的神奇窍门:即使无法控制混杂因子或收集其数据，我们也已发现 X 对 Y 的效应。我们可以给决策者提供一个确凿的论据，即他们应该移走供水系统 —— 即使那些决策者仍然相信瘴气理论。还请注意，我们已经从第一梯级(相关关系 rZY 和 rZX)的信息中获得了因果关系之梯第二梯级的信息(b)。之所以能够做到这一点，是因为路径图所体现的假设在本质上是因果关系，尤其是“U和 Z 之间没有箭头”这个关键假设。如果因果图不同 —— 例如，如果 Z 是 X 和 Y 的混杂因子 —— 公式 b=rZY/rZX 将无法正确估计 X 对 Y 的因果效应。事实上，无论数据有多大，任何统计方法都无法区分这两种模型。

在因果革命之前，人们就知道了工具变量，但是因果图以新的清晰的方式表明它们是如何起作用的。虽然没有定量公式，斯诺实际上是暗中使用了一个工具变量。

约翰·斯诺对霍乱的长期调查很少受到重视，在《柳叶刀》上刊登的关于他的的一段讣告甚至没有提到这一点。值得注意的是，《英国医学杂志》在 155 年后“修正”了这段讣告 (Hempel,2013)。在2003年的一份调查中，斯诺被选为英国历史上最伟大的内科医生。

（文中部分内容整合自《为什么：关于因果关系的新科学》）

《为什么：关于因果关系的新科学》

作者：朱迪亚·珀尔，达纳·麦肯齐

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。