打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature:未经确证的临床实验就别发表了

作者:Jeffrey S. Mogil & Malcolm R. Macleod

编译:麦子(转载请注:解螺旋·医生科研助手)

已发表的生物医学研究成果的可靠性如何?大家的一颗心总是悬着。想要找到新的疾病治疗方案的人,头顶上大都笼罩着“可重复性危机”的阴云:从寻找确凿证据以进行临床前研究的医生和药物开发者,到不得不投入大量时间和资源来出具报告、统计学资料的基础研究人员。前段时间还有药物临床试验造成法国受试者死亡的消息,让人们对临床试验警觉起来。然而对所有实验都严苛以求,确实能减少假阳性发现,但又会降低实验效率和创造力。

人们呼唤更大胆的想法。加拿大麦克吉尔大学的Jeffrey S. Mogil和英国爱丁堡大学的Malcolm R. Macleod提出了一种新的文体,以在期刊文章可信度和基础科研人员探索新事物的自由之间谋取平衡。这种新文体主要用于研究疾病治疗与预防的动物实验,它是对研究者的核心假设进行独立的、严格的统计学确认。他们把这种大型的确证性研究称为临床前试验(preclinical trial)

好吧,他们的命名可能确实容易让人想到本来就存在的概念。但据说,这和传统的在实验室里进行的临床前测试(preclinical testing)不太一样,而是更正式,更严格,采用更多临床试验的实践方法。且往下细细看来。

Mogil他们相信,有了这种新的临床前试验的严格要求,会促使研究者们对自己的成果保持更多的怀疑态度。研究者不是再像从前那样拼死拼活来说服审稿人和编辑,把自己的文章发在耀眼的册页上,而是要质疑并检验自己的假设是否能在更大型的、确证性的动物实验中站得住脚。这样的研究能给予早期假设打磨阶段的实验更多的探索自由,并以确证性研究的形式发表。如果这个想法能够落实,那么世上高调宣扬新疗法的文章会更少,而它们结论的可信度则更高。

确证性研究应具备三个特征。第一,它要符合最严格的设计(例如盲法和随机)、分析和报告方式。第二,统计显著性水平要求更高,例如P值应<0.01,而不是目前通用的0.05。第三,它需要在一个独立的实验室或研究机构中进行。这已经超越了大多数基金机构的要求,但只会用于最终的、关键的确证性实验。

不同于临床实验,大多数临床前研究都描述了一个长长的实验链,一层一层地增加对同一个假设的支持。这些文章都包括一打的体外、动物实验,每一个都要达到统计显著水平。Mogil他们却认为,只要有一个最终的、无瑕的研究来确认那个假设,早期的那一溜实验并不需要达到同样严格的统计学标准。

这将会是科研人员写文章的一大变革,而生物医学研究的可信度也会从如此激进的想法中受益。

最终的确证

对那些有着明确的临床意义的假设,逻辑实证性实验几乎总是在动物身上进行,某种疗法的效果或某种基因突变的影响会在大鼠小鼠上验证。然而这类实验执行的效率又不尽如人意。比如说行为学测试,测定疼痛或瘫痪的程度,都在大多数分子生物学实验室的核心能力之外。变数太大、基线可疑等原因都使实验结果笼上一层迷雾。

此外,现在大多数研究的统计功效都挺低的,偏倚风险还高。许多期刊,包括Nature等,都提出了自己的动物实验发表指南,大体上以2010年英国国家科研动物置换、改良、精简中心(The National Centre for the Replacement, Refinement and Reduction of Animals in Research)发布的ARRIVE指南(PLoS Biol. 2010 Jun; 8(6): e1000412.)为范本。这份出版政策的影响力正在调查,但结果未明。

Mogil等的提议,则要先发表一份确证研究的Protocol,细述研究者的假设,关键结局指标及统计分析计划。需要使用足够多的动物,则统计结果阳性意味着假设很可能是正确的。样本量肯定要增加,据估计要有6倍。但总计下来,动物和经费的投资将会大大减少;也将会有更少的人对弱文章的结果投入资源去跟进。这样,新药进入市场的周期会更短。

预测值的数学问题

一个假设是正确的可能性有多大?回答这个问题最好的指标应该是阳性预测值(positive predictive value, PPV),而不是大家通常以为的P值。PPV反应了一个阳性实验结果在真实世界中也是阳性的概率,它由两个因素来决定,一是P值(拿到实验结果才计算),一是统计功效(在研究设计之前就计算好)。统计功效描述的是一种机率,即一个实验有多大机率能检测到某种既定的(或被认为是有意义的)效应量,比如实验组和对照组之间的差异。

举个粟子,如下例所示,假定有250种新疗法进入了临床前测试。后来实践的结果显示50种在临床上有效(绿),200种无效(红)。实心方块表示实验结果为阳性的文章,虚化的方块是阴性结果的文章(实际上很少发表)。

可见第一张图所示的情况是,在统计功效20%的情况下(平均每篇文章的样本量约10只小鼠),P<0.05的文章有20篇,但只有10篇是真阳性,另10篇是假阳性。竟然有50%的文章是不可信的。

第二张图运用了Mogil等人的提议,执行了严格的临床前试验,采用了更严格的显著性水平,统计功效要求达到80%(平均每篇文章的样本量>75)。有42篇文章的结果为P<0.01,真阳性有40篇,假阳性有2篇。显然此种情况下阳性发现的文章有更高的可信度。

要怎么做?

临床前试验应该由具有坚实动物模型知识的研究者执行,他们将会渐渐分化出独立的一项工作,专为同事们进行确证试验。另一个方案是,成立专门的确证性实验机构,就像基因组学、生物信息学刚兴起时那样。他们应提供高质量服务,并成为科研体系中的重要组成部分。此外,财政方面的支持系统也应建立起来,把它进一步开发和深化。

专业的确证实验室会提高动物实验的质量,让分子生物学实验室就专心做他们的基础研究好了,也许政府资金和企业投资者在把大量金钱投给令人失望的临床试验之后,会把财力转移到改良的研究上来,说不定会有专项拨款。

确证性实验室不再像原始研究者那么依赖阳性结果,而让阴性结果的发表得到更多的支持。他们得到的回报则是发表文章中的作者身份和服务费。他们的动力是树立更高质量、高能力的行业信誉,而不是获得某项基金资助。

对于直接要进入临床应用的发现,Mogil等人则提出另一种“可推广性研究(generalizability study)”,在确证阶段之后进行(见下表)。这种试验用于评价新疗法可在多大程度上得到应用,能否在多种情形下产生效力。一种策略就是在多个试验点重复之前的确证性实验,使用内在的生物学变量。在多种条件下(动物的年龄,品系,性别,健康状况,共病,检测手段,给药方式,时机及结局指标等)检测假说,这样的研究能提供更多对临床有用的信息,提高可重复性。

确证性研究的出版

Mogil等人提议,只有当文章包含以最好的临床研究实验方法执行的“临床前试验”时,杂志才接收。对于即将在人体上试用的新疗法,推荐以下三种研究类型都要做。


探索性研究

确证性研究

(“临床前试验”)

可推广性研究

Who

原始研究者

另一研究组,重点研究机构或企业

多中心研究团队

Why

形成假设

检验假设

检验假设的广泛应用

目的

将效能和探索最大化

减少假阳性发现

为临床转化做准备

特征

高度灵活,没有强制的统计学要求

高度严格,有提前规划好的统计方案(P<0.01)

高度严格,检测动物或试验的内在变量

出版

可发预印版,或各种非正式渠道。若发在正式刊物,应与确证性研究一同发表。

新的期刊文章体例,应有较高的影响力。

新的期刊文章体例,应有更高的影响力。

可推广性研究可能会超出单个实验室的能力范围,须要多中心合作,但原则和相关的支持措施都已就位。Multi-PART集团(www.dcn.ed.ac.uk/multipart)建立了一个网站系统,支持数量不限的多中心合作研究的设计、执行与评估。

享受实验吧

有了这样一个严格的假设检验试验,其他的研究形式就没那么必要了。探索阶段的各种实验都不必有正式的统计假设检验。没有非达到不可的P值门槛;结果部分可以只展示“平均值±标准差”或“中位数(四分位距)”,甚至直接上原始数据。

这和去年美国统计协会的推荐是一致的(see go.nature.com/2kbqkxu),即言单一P值做为检验假设的证据是不够的。样本量要足够大才能有足够的可信度,总体来说也更省钱省时间。当然对有争议的变异仍需要给予足够的关注和完整的报告;研究者不应不加说明就从统计分析中剔除某个动物的数据,并尽量避免能引起偏倚或批次效应的方法。

但这样奔放的前期研究难道就不会增加假阳性发现了吗?对此,Mogil他们相当自信,认为并不会。因为前期的数据也是要做为临床前试验的基础的,而后者又相当严格,研究者会有“不行就别瞎BB”的压力,所以会自发地对自己的探索进行谨慎而全面的解读,会刺激他们在早期阶段就对自己的假设进行各种挑刺。

相反地,研究者也不会被前期研究的各种出不来成果的挫败感束缚。更重要的是,他们也不必提高样本量,直到每个P值都压到0.05以下。此处提高的效率,应能弥补上执行临床前试验所要攻克的各种资源需求。

而且,这项提议应该能给大家找回做探索性实验的乐趣。在新的体系中,低质量科研的锅就让初始研究者来背,比如被一个流氓成果所诱惑而去进一步开发,或对实验设计过分执着等等。如果他们自己太zuo,那将是自己丢掉了在严格的临床前试验中幸存下来的机会。理论上讲,数据造假也会减少,因为没必要让每个实验的统计分析结果都达到某个不可翻越的门槛了。审稿人们应把精力集中在确证性研究的统计分析上。对于研究生和博士后,他们梦寐以求的SCI不再过分依赖于早期实验也达到那个0.05的门槛,而在于他们的总体假设。渐渐的,这个新的科研体系会改变对科研工作者的评价与回报:科研人员将以马拉松为荣,而不是短期冲刺。

新的体系也会降低文章发表率,但不会降低人们找到真正有价值的发现的速率。认证科学发现的日期应该算在实验计划得到原始研究者和确证实验室达成一致(或说“注册”)的那天。再者,如果发表出来的研究有了更高的可信度,人们对科研的信心也更高,那么降低发表速率也可以接受。审稿人和终身职位评审委员会应该能找到合适的方式,来接受确证性试验的文章。

这个提议并不能一键修复目前转化医学上的所有bug,包括从不恰当的动物模型上得出的假结论,无意义的变量,出版偏倚等。但这仍是一个有价值的尝试。

当然也不可能期望整个科研体系能一秒转变到位。以下四个措施也许会有帮助:杂志应给确证性实验和前期探索工作多一点发表空间(可以渐进式地把它们的地位提升,甚至将确证性实验作为一项要求);终身职位评审委员会应信任这些工作;基金机构可制定相关政策,进行试点工作;临床试验的研究人员应对进入试验的工作基础提高置信要求。哪怕只要做到其中一点,科研人员们就能引领变革。

参考资料:

1.No publication without confirmation

2.Consider drug efficacy before first-in-human trials

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
传染病知识-每日学习(第21期)布鲁氏菌病
狼疮抗凝物检测的临床应用
最可怕的不是艾滋病,而是这31.9% !
指南共识 l 2021JES原发性醛固酮增多症诊治临床指南(临床问题 全文)**
世界艾滋病日
『艾滋病』艾滋病毒抗体的检测
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服