做了5 年的临床试验结果为阴性，该怎么办？| NEJM综述

研究人员从构思、撰写临床试验方案、入组患者、实施干预到数据分析，花费数年心血完成临床试验，但主要结局获得了阴性结果，第一反应一定是：哪里出错了？治疗真的无效吗？还有一线希望吗？下一步怎么办？

《新英格兰医学杂志》（NEJM）的一篇综述以多项试验为例，提出了可为我们指明前进方向的12个问题。我们分两次刊登本文，今日介绍前6个问题。

在精心设计的试验中，其可信度源自预先设定的先验假设，该假设有助于作者避免在对数据进行探索性分析之后，错误地将其宣称为阳性。然而，目前一种不合理但普遍的做法是根据主要结局的P值是否小于0.05，将所有随机试验分成阳性或阴性。这种做法过于简化。我们应将P值视为连续的，其中P值越小，则证明真实疗效的证据越有力。置信区间也有助于表明疗效的不确定性范围。此外，解读试验时应基于总体证据（即主要、次要和安全性结局），而不仅仅是单一终点。

本文概述了在一项试验的主要结局最初被判定为阴性之后，研究人员应采取的思维过程。本文以多项试验为例（主要是心血管系统研究）阐明了我们的观点，但其中的基础问题适用于整个医学领域。

主要结局的结果为阴性时应提出的关键问题

未能达到5%的显著性水平对于试验治疗而言肯定不是好消息。我们的第一反应一般是：哪里出错了？治疗真的无效吗？还有一线希望吗？下一步怎么办？以下12个问题为我们指明了前进方向（表1）。

表1. 主要结局的结果为阴性时应提出的关键问题。

是否有迹象表明潜在获益？

试验的统计学功效是否不足？

主要结局是否合适（或其定义是否准确）？

人群是否合适？

治疗方案是否合适？

试验实施过程是否有缺陷？

宣称非劣效性是否有意义？

亚组结果是否显示阳性信号？

次要结局是否获得阳性结果？

备选分析方法是否有帮助？

是否有更多的阳性外部证据？

是否有支持该疗法的强有力生物学原理？

是否有迹象表明潜在获益？关于是否应从大于0.05的P值推断治疗获益的信号（“趋势”），这点需要深思熟虑。如果一项试验的主要结果完全为中性，则其结果解读就很简单了。例如，在PERFORM试验（比较terutroban与阿司匹林用于缺血性卒中患者）（文中所有试验的完整名称见文末表格）显示两组的复合主要结局（缺血性卒中、心肌梗死或其他血管原因死亡）（风险比，1.02；95%置信区间[CI]，0.94~1.12）无显著差异之后，该试验因无效并且terutroban也无安全性优势而提前停止。这些结果支持将其解读为“阴性试验”。而TORCH试验（比较沙美特罗+丙酸氟替卡松与安慰剂对慢性阻塞性肺疾病[COPD]患者的疗效）则是主要结局（全因死亡）的P值为0.052，并且发现“在所有其他结局（例如COPD加重和健康状况）方面均有显著获益”。因此，该试验的结果不能简单地解读为“阴性试验”，而应对其进行更具建设性的解读。

试验的统计学功效是否不足？一项研究纳入的患者太少会增加即使有显著治疗获益，但却未能得到证明的风险（2型错误）。例如在比较比索洛尔与安慰剂治疗收缩性心力衰竭患者的试验中，主要结局（全因死亡）的风险比为0.80（95% CI，0.56~1.15；P=0.22）。但该试验只有621例患者，因此统计学功效不足。幸运的是，申办方坚持继续开展试验，而后续CIBIS II试验（纳入2647例患者）表明，比索洛尔组患者的死亡率低于安慰剂组患者（风险比，0.66；95% CI，0.54~0.81；P<0.0001）。请注意，在此项更大规模的试验中，比索洛尔组比安慰剂组低约34%的死亡率在第一项研究报告的95%置信区间内。

一般而言，如果一项试验因规模太小而无法检测出比较小的疗效，则应将其结果描述为不明确，而不是描述为阴性。一项研究要达到充分的统计学功效，需要收集足够数量的主要结局事件，达到这一目的的方式包括招募更多患者、纳入更高危患者、延长随访时间、设定发生率更高的结局（包括采用复合结局）或联合使用上述几种方式。

主要结局是否合适（或其定义是否准确）？使用复合结局可增加主要事件的数量，但不一定会提高统计学功效。例如在PROactive试验中（比较吡格列酮与安慰剂治疗2型糖尿病患者），复合主要结局包括死亡、心肌梗死、卒中、急性冠脉综合征、血管内手术或腿部截肢。吡格列酮组发生514起主要事件，安慰剂组发生572起主要事件，P值为0.08。对于更传统的复合结局（死亡、心肌梗死或卒中），吡格列酮组发生301起事件，安慰剂组发生358起事件（P=0.03）。因此，添加更多指标只是带来了随机噪声，进而淡化了潜在真实疗效，使其变得不显著。

试验是否成功可能取决于结局的定义方式和裁定方法。例如CHAMPION PLATFORM试验（比较坎格雷洛[cangrelor]和氯吡格雷用于接受经皮冠状动脉介入治疗[PCI]的患者）因无效而提前停止，因为在主要结局（48小时内死亡、心肌梗死或接受缺血驱动的血运重建）方面，本试验未证明坎格雷洛有益。然而，围手术期心肌梗死的定义未能有效确定生物标志物阳性急性冠脉综合征患者在PCI后短时间内发生的心肌梗死；对更精确地定义心肌梗死可能有助于获得阳性结果。因此，后续试验CHAMPION PHOENIX更仔细地裁定了生物标志物的升降和临床事件，从而更好地鉴别围手术期心肌梗死。结果发现坎格雷洛组的48小时内主要结局（死亡、心肌梗死、支架内血栓形成或缺血驱动的血运重建）发生率比氯吡格雷组低22%（P=0.005），之后美国和欧洲监管机构据此批准该药物。

人群是否合适？一种新疗法失败时，应思考研究的患者人群是否不合适。例如，两项应用伊伐布雷定治疗稳定型冠心病患者的大规模试验（BEAUTIFUL和SIGNIFY）均未显示任何治疗获益。而在对慢性心力衰竭患者开展的SHIFT试验中，伊伐布雷定组的主要结局（心血管原因死亡或心力衰竭住院）发生率比安慰剂组低26%（P<0.0001）。根据机制和初步研究选择合适人群是关键试验取得成功的关键。

治疗方案是否合适？在关键试验中，确定新药剂量方案可能很有难度。事后看来，替罗非班在TARGET试验中，莫索尼定在MOXCON试验中未能预防经皮冠状动脉血运重建相关缺血事件的原因可能是剂量选择不当，替罗非班的剂量过低，而莫索尼定的剂量过高。然而，这样的思考，即使是基于对体外或2期剂量范围数据的复查，也很少促使各方开展后续试验并选择可能更合适的剂量。一些关键试验通过三组设计来尽量降低上述风险，其中两组采用新药的两种剂量方案；例如PEGASUS-TIMI 54研究，该研究表明在心肌梗死后1年以上长期用药的情况下，较低的60 mg剂量替格瑞洛优于90 mg剂量和安慰剂。

试验实施过程是否有缺陷？如果不遵循研究方案，真正疗效可能被淡化或完全消失。例如在TOPCAT试验中（6个国家参与，比较螺内酯与安慰剂用于左心室射血分数保留的心力衰竭患者），复合结局（心血管原因死亡、心脏停搏或心力衰竭住院）仅显示出有利于螺内酯的非显著趋势（风险比，0.89；95% CI，0.77~1.04；P=0.14）。但俄罗斯和格鲁吉亚患者发生的主要结局事件很少，这提示这两个国家的研究实施过程有一些问题或者纳入的患者不典型。将分析范围仅限于其他四个国家时，结果显示了显著的治疗获益（风险比，0.82；95% CI，0.69~0.98；P=0.026）。关于这一事后证据是否有足够的说服力，可以将螺内酯推荐用于左心室射血分数保留的心力衰竭患者，一直存在争议。

文中所有试验的完整名称

参考文献

1. Pocock SJ, Stone GW. The primary outcome fails - what next? N Engl J Med 2016;375:861-870.

版权信息

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。