近4成经过同行评审的营养健康研究是错的，到底出了什么问题？

图片来源：Times Higher Education

作者 Patrick Clinton

翻译王可

审校阿金

编辑魏潇

咖啡会不会致癌？黄油到底健不健康？对于这类问题，我们总是拿不准该如何回答。其实，食品营养科学研究存在一些很大的问题：可疑的数据、不可靠的结果、还有无处不在的偏见（不只是针对“餐饮业巨无霸”，比如麦X劳和百X集团）。因此我们真诚地希望：科学家们和学术期刊能够规范他们的行为，记者们能够优化一下他们不靠谱的“探测器”，别老一脸震惊地报道一些所谓营养学的“没营养新发现”。然而，在这天到来之前，我们最好先学学如何靠自己做好过滤工作。

最近在统计学界发表的两篇文章正好为我们找到了一种绝佳工具，尽管它无法一劳永逸地解决问题，但目前来说，已经能提供一些我们急需的保护措施。在这里，为了能够了解具体内容，我们需要在数学领域畅游一下，不过别担心，跟紧我，你绝对不会觉得太难的。

让我们找出三篇最近发表的饮食营养研究：

· 每天食用 50 克西梅能帮助患有骨质疏松的老年女性预防骨密度的降低
（https://link.springer.com/article/10.1007%2Fs00198-016-3524-8）
· 48 克黑巧克力可以改善你的脑电波
（https://www.fasebj.org/doi/10.1096/fasebj.2018.32.1_supplement.878.10）
· 食用猪肉泥的婴儿比食用奶制品的婴儿长得更高
（https://www.ncbi.nlm.nih.gov/pubmed/29722841）

这些研究都经过了同行评审，都声称自己的结果具有统计学显著性，而且他们都指出常见食物和健康结果之间明确的因果关系。然而，这三项研究中很可能会有一个（也有可能全部）最终被证明是错的。那么，我们到底应该相信哪个？

双重错误制造正确结果

在营养学研究中，有个问题很常见，你很可能在新闻报道中读到过：像大多数研究一样，他们会用一种非常反直觉的方法，称之为“零假设检验”。

这种方法大致如下：首先，你需要提出你想要验证的任何问题，比如“药物 X 可以治愈癌症”。但接下来你不要去试图直接验证它本身，因为这在现实世界中是不可能的，你去验证它的对立面。也就是说，“我要试着去证明：药物X和治愈癌症这两件事之间的任何联系都只是出于偶然。”这种看起来有些含糊其辞的否命题陈述就是你的零假设（null hypothesis）。

然后你就做实验、分析数据。如果幸运的话，你会发现没有足够证据证明药物 X 和治愈癌症之间没有关系（是不是已经晕了？）。换言之，药物 X 和治愈癌症之间的联系并不是出于偶然。那么，你就会顺理成章地认为药物 X 能治愈癌症。

但事实并非如此。有很多变量因素会影响你的结果：年龄、体重、性别、吸烟与否……不胜枚举。一个好的实验设计会控制尽可能多的变量，但总会有一些你不知道的其他影响因素。没有人可以筛选掉所有可能的变量，所以科学研究不可能完美。

对于非专业读者来说，他们很难理解并消化零假设检验。但统计学家会告诉你，它几乎是唯一的，或者说是最佳实验设计方法。近一百年以来，自罗纳德·爱尔默·费雪（Ronald Aylmer Fisher）出版了他那本影响深远的《研究者的统计学方法》（Statistical Methods for Research Workers）之后，每位未来的科学家都学过这一内容。

而这也是如今我们陷入如此困境的部分原因。

什么是发生概率？

让这套奇异证明体系奏效的重点，在于了解需要多少证据来证实或者证伪一个零假设，换句话说，就是你怎么能确定你的结果具有统计学显著性？实际上有很多种方法，其中不少方法深奥复杂，但绝大多数研究都使用同一种叫做“ P 值”的方法（P 代表“probability”，即概率）。

计算 P 值需要用到实验数据和用来构建实验的假定条件，P 值应在 0 到 1 的范围内。低 P 值就是好结果，它说明你的结果不太可能是偶然得之；相反，高 P 值则代表你得到的结果（关联性）很可能是偶然产生的。

几十年以来，这已经渐渐成为一个人们都遵从的传统：P 值等于或低于 0.05 代表结果具有统计学显著性，说明它“可信”。P 值等于 0.05 可以解释为：实验结果只有 5%（1/20）的可能性是偶然产生的——这个可能性是可以接受的。

但问题是，实际上 P=0.05 原本的意义并非如此，统计学家定义的P值和我们对它的应用之间，存在巨大的鸿沟。当你读到一个非技术性设定的 P 值时，你还会看到不少条理清晰合理的解释，但很明显它们是错的。

原因如下：

很多人认为，P 值等于 0.05 说明，你的假设理论（那个你真正想要验证的假设理论，而非零假设）有 95% 的可能性是真的，但事实并非如此。这 P 值只代表了你实现最终结果的概率，但它需要一个大前提，即你的零假设以及所有其他的假定命题都得是成立的。

“P 值不仅不能告诉我们要证明的某个假设理论是否为真，除非我们能百分之百确保每一个用作计算的假定条件都是正确的，否则它甚至和假设理论没有任何特定联系，而这正是太多研究所缺乏的。”在《美国统计学人》（The American Statistician）杂志中，一些科学家因为担心 P 值被过度滥用而如此写道。

所以，归根到底，尽管 P 值是非常有用的工具，但人们很容易错误地使用它。因为它并没有那么理想，也不能够直接回答“一个实验结果或临床试验是否有统计学显著性”这样的问题，可是非专业人士就喜欢这么想。正因为如此，如果你开始研究造成“假阳性”结果和其他错误的因素时，我可以告诉你，一般来说，一个常规的健康相关试验，如果在准确性的正常范围内操作、并产生“阳性”结果的情况下，P 值为 0.05 或 1/20 其实是不正常的，正确的 P 值更接近 1/3 。

这听起来可能很疯狂，但是别忘了，统计学家 John Ioannidis 曾研究过在主流期刊上发表的高引用率科学文献，他得到的结果更糟：接近 40% 的研究结果被证明是错误的。所以，拿这些东西指导我们的生活？算了吧。

更好的 P 值，还是取代它的工具？

实话实说，统计学领域几十年前就意识到这个问题了。我在前文中引用的《美国统计学人》声明就已经强调，用 P 值衡量假设理论的正确性是一种非常普遍的错误。那篇文章提供了一些替代性的选择，因为过于技术性，在这里就不详述了。但无论是什么办法，都会需要成百上千的研究人员和各学术期刊齐心协力，更认真地对待科研中的统计学部分。即使是这样，也要花上几十年才可能实现。

那我们该怎么办呢？

今年 1 月，72 位统计学界的著名学者向《自然-人类行为》杂志提交了一份提议。提议认为，既然我们不能很快地（也可能永远不能）消灭基于 P 值的零假设检验，那么我们至少要设定一个更合理的 P 值——用 0.005 来代替 0.05，P 值处于这两个值之间的研究结果只能被称为“有启发性的”（这个建议主要针对最新发现。跟踪性研究要求知识更加复杂，应该区别对待）。作者们说，应该要把“假阳性”概率降低到 5%——这个数值就是我们之前用 P=0.05 时认为我们会得到的假阳性概率。今年 4 月，John Ioannidis 在《美国医学会杂志》（Journal of the American Medical Association）上发表上述观点。这个解决方法虽然只是暂时性的，但是也是必要的。

这是个好办法，但要花上几十年来实施。那么我们之后该怎么做？

科学家们和各期刊会在他们接下来的医学健康（及营养学）研究中采取这个简单直接的方法吗？让我们拭目以待。有几家已经这样做了，一些专科医生甚至已经开始使用更加严苛的标准。比如群体基因组学开始用 0.00000005 作为分界值。

跟着我说：我不在乎

我很确定，这 72 名统计学家提出的建议是针对科学家和学术期刊的。但在他们做到这一点之前，我们也许也可以亲自采用一下这个建议。

这个时候，让我们回头看看最开始找到的三篇论文：

· 食用西梅能帮助患有骨质疏松的老年女性预防骨密度的降低。P < 0.05，有启发性，但不够显著。不感兴趣。

· 巧克力改善脑电波？他们关注了多种脑电波，最强的统计关联值为 0.01，但他们只有四个被试对象。不感兴趣。

· 给婴儿喂食猪肉泥会使婴儿长更高？这个比较棘手。P 值等于 0.001，所以看起来真的是可能会有点什么。但是婴儿长得更高有什么意义吗？科学家们如果想要继续这个研究，就请说明一下它的结果既具有统计学显著性，而且也有现实意义。

要澄清的一点是，并不是任何 P 值大于 0.005 的研究结果都是错的，这种观点也是不对的。随着时间的推进，科学研究将会使用更加复杂的统计学分析，这会使 P< 0.005 这一策略失效（记住这点，后面我们会让你跟上这个思路的）。

与此同时，你当然是想吃什么就吃什么，这篇文章的重点不是要劝你不要吃西梅和巧克力，然后给你的宝宝多吃猪肉泥。想吃就吃，享受食物带给你的慰藉效果，没准你会吃得很开心。但是，一定不要把这些研究当成终极真理。他们可能只是去往真理的一步，但在多数情况下，整段行程仍将是漫长而难以预料的。

而你要做的，就是接受这样的现实，忽略掉大部分你读到的营养学研究。记者需要找到更有趣更严谨的题材才能套路你，大学出版社需要发掘更吸引人的新闻主题，而你再也不会被那些美食博主和电视医生的花言巧语所愚弄。除非你看到了那个 0.005，在这之前，请你保持冷静，坚定如磐石。

这个标准听起来有点严格，但是这是为了科学。你同意吗？

原文链接：

https://newfoodeconomy.org/nutrition-research-statistics-problem/

阅读更多

▽ 故事

· 这个世界上，有一群专门研究“恶心”的科学家

· 被维基百科引用280万次的论文长什么样？

· 全世界只有6人的“黄金血液”捐献者：响应召唤、跨国献血的“日常”

· 超级计算机半年报错152次，竟是因为“默默无闻”的宇宙射线