打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
中医药临床研究中预试验样本量的确定

长期以来,中医药临床干预措施的选择和疗效评价多基于对个体病例的观察和经验总结,当研究者为中医药干预方法设计新的临床正式试验时,往往缺乏历史试验数据作为参考。预试验是保证高质量临床研究成功开展的重要前提,同时为正式试验的样本量估算提供依据。预试验的主要作用是提供正式试验样本量估算所需要的参数,但简单应用预试验的参数会面临严重低估正式试验的样本量和损失研究把握度的风险。本研究从分析影响临床试验样本量的多个因素的角度,探讨中医药临床研究中如何合理确定预试验的样本量,保证获得较高精确度的参数用于正式试验样本量的估算,从而保证研究在足够的统计学把握度下开展。

1

中医药临床研究的样本量面临的问题

具有几千年实践基础的中医药,继承和发展方式多以经验传授为主。以中医药为干预措施的最早的临床试验,直至1983年才有发表。30多年来,虽然中医药临床试验的数量逐年上升,但由于多数干预措施缺乏历史数据和先期经验研究,在样本量估算时,获取具有较高可信度和精确度的总体参数经常面临很大挑战。

随机对照试验(RCT)的主要目的是估计医学干预的效应,在良好的统计学把握度下回答关键的临床问题。一项正式试验样本量的估算,不仅关系着对研究假设的科学验证,同时也是研究经费、时间、人力和物力的重要决定因素。

如果正式试验中纳入样本太少,结论的不确定性便会增加;而如果样本量太大,研究资源会被耗费,既有可能让更多患者去接受无效或有害的治疗,又有可能拖延有效治疗被证实的时间。因此,开展预试验是获得更为准确的样本量估算参数的方法之一,对后期正式试验的设计十分必要。

过低的把握度会引起来自伦理学、统计学和临床操作等方面的问题。在既往临床研究中研究参数估计不准确的情况并不少见。Vickers对已发表的RCT系统综述发现,试验中已报告的用于估算样本量的标准差(预测标准差,predictSD),有80%低于试验中实际观察到的标准差。其中,25%的研究在保证原有把握度的情况下,应该将样本量在现有研究的基础上增加5倍,提示很多RCT的确存在把握度过低的情况。另有一项针刺联合传统按摩治疗慢性颈痛的随机对照试验,其用于估算样本量的标准差不仅不准确,还低估了实际标准差。

本文一方面探讨如何在研究设计阶段确定外部预试验的样本量规模,为了避免混淆,文章讨论的重点将不涉及内部预试验;另一方面探讨完成预试验后,研究者如何调整从预试验获得的用于估算正式试验样本量的参数,以保证足够的统计学把握度。

2

预试验的定义和作用

由于不同研究在概念上的混淆,预试验有时也被称为预实验或可行性研究。在诸多对预试验的定义中,最主要的共识是,预试验是隶属于一个完整的、更大样本的临床研究的先锋试验。预试验有两种情况,一类是独立于主体的试验,此类预试验的样本不会影响主体试验的效应量及其变异,称为外部预试验;另一类其样本将会和主体试验合并后做最终的分析,则被称为内部预试验。

对于临床研究,预试验有诸多重要的作用。在某一项正式研究启动之前,开展高质量的预试验将有助于评估该研究的可行性、时间进度、成本费用和研究对象对试验的可接受度(依从性),从而提高研究设计的质量。

当服务于一项干预性研究时,预试验还可以探索干预措施(例如药物)在人群中的耐受剂量、剂型、干预的暴露时间、不良事件发生率、效应量的大小和变异程度,从而预测未来开展较大规模正式研究的样本量,达到控制统计推断中Ⅰ型错误和Ⅱ型错误的目的。

根据研究目的和作用的不同,预试验的样本量大小长期以来并没有形成固定和统一的标准,在已经发表的预试验中,受试者数量往往从几十例到几百例甚至几千例不等,存在明显的差异。

3

中医药预试验样本量的确定需考虑的因素

在一项确证性随机对照试验中,影响临床研究样本量大小的主要因素包括:研究假设(如差异性、优效性或等效性;单侧或双侧检验)、主要结局指标(变量类型)、干预措施的效应量(如均值差或率差)、主要研究终点的变异水平(如方差)、I型错误和II型错误、可能的失访或样本损耗以及相关法规(如ICH-E9)的要求等。

其中,获取对干预措施效应量和变异水平的估计,通常是在预试验中要解决的问题。通过系统地检索国内外研究,目前对确定预试验样本量的推荐意见汇总如表1所示。通过对各个推荐意见的分类和比较,对影响预试验样本量的因素,可总结为以下4个方面。

01

可行性

可行性是一切科学研究的重要前提。如果在预试验的过程中将对受试者施加临床干预,首先面对的是伦理问题,即要考虑该项研究能够给予受试人群的获益和风险,受试者对治疗方案的可接受程度以及未来进行大范围推广的可能性。方法学问题同样不可忽略,例如抽样、随机分组和盲法的实施等技术的应用决定了对研究偏倚的控制能力,而这些方法和技术并不一定能适用于所有研究,亦有待于在预试验中探索。

从可行性角度确定预试验的样本量,Julious提出了较为简单的经验法则:每组仅12例样本,其认为各组12例样本对于随机分组过程是一个很便利的数字。12可以被2、3、4和6整除,因此适用于具有不同区组长度的随机序列,区组长度可以选取2、3、4、6、8或12,甚至是24(对于1∶1两组平行随机对照试验,总样本量可以达到24)。该经验法则建议的样本量偏小,可适用于以探索后续正式试验的可接受度和可行性为研究目的的预试验,同时也可以估计试验的招募和入组进度。

但是,如果预试验的目的是获取估算正式试验样本量的相关的重要参数,显然各组仅12例样本量是过于乐观的估计。中医药临床诊疗环境中往往面临较常规西医医院更为复杂的疾病和多样化的患者人群,从而大大增加了统计指标的变异程度,因此需要适当增加样本量,以获取更为精确的参数。

02

精确度

当主体试验的样本量的关键参数(均值和方差或者率)有赖于从预试验中获取时,参数的精确度则成为至关重要的因素。Julious从均值和方差两个方面,在标准差为1的前提下,以试验样本量每增加1时,总体均值(公式1)和方差(公式2)的95%可信区间右侧数值(即区间上限)的变化代表的精确度的增加值。

其中s为两独立样本连续型终点的组间差值的标准差,n为每组的样本量,此处假设两组样本量相等。

其中 df 为每组的样本量。

结果发现,在每组样本量为12时,精确度的变化量达到拐点,提示当样本量超过12时,精确度的获益很少(如图1,S=1.0对应的曲线所示)。然而,简单照搬每组12例的这一推荐标准并不总是明智的,而应该根据试验的具体情况,除了标准差为1的情形,应考虑不同标准差的取值下,统计指标精确度变化的敏感程度。

如图1所示,通过模拟可显示,随着标准差的逐渐增大,精确度的变化量的拐点出现时所要求的样本量越来越大。虽然在标准差为1时,拐点在样本量12例附近,但当在标准差为5或者更大时,拐点处所要求的每组样本量接近30例了。

因此,指标的变异程度在预试验样本量估算过程中是不可忽视的重要因素。当中医药临床试验纳入的人群中有多样化的人口学特征和疾病基线水平时,应考虑每组样本量至少增加至30例。

03

试验总和样本量

由于抽样误差的存在,用小样本量获取的标准差来估计总体标准差是不可靠的。样本的标准差通常是正偏态分布(右侧长尾),这意味着预试验的标准差有50%以上的可能性小于总体标准差。因此,会过于“乐观”地估计正式试验的样本量(即偏小的估计),很难保证获得预期的统计学把握度。如果将样本的标准差替代总体标准差,实际是将正式试验的样本量视为随机变量,而正式试验中的把握度也因此可看作随机变量。

基于此,Browne通过蒙特卡洛模拟发现简单的以小样本预试验的标准差估计样本量,获得预计把握度(例如80%或者90%)的概率会低于40%。因此,除非试验的效应量很大(如≥0.75),否则不能简单地或经验性地以30例作为预试验的样本量。而当估算正式试验样本量时,应至少以预试验中得到的标准差的单侧80%可信区间的上限(UCL1-0. 8 )作为参数,才能保证以80%的概率获得理想的把握度。

为了解决以上问题,Kieser等在Browne的工作基础上,继续分析了正式试验的期望把握度和预试验样本量的变化。认为预试验样本量的选择,可以按照使得预试验和正式试验样本量的总和最小的标准。例如,按照UCL1-0. 8 的方法,正式试验样本量为80~250(通常也是Ⅱ、Ⅲ期临床研究中最为常见的样本量)的研究,可以采用20~40例作为预试验样本量的经验估计。

中医药临床研究预试验的设计过程中,试验总和样本量设计预试验和正式试验的总体资源的投入问题可结合研究经费和预期完成时间综合考虑。

04

干预的标准效应量

Hertzog强调干预的标准效应量[即Cohen's d=(x1x2)/s]对预试验样本量影响,对于中等或者较大的效应量,每组15~20例的预试验,便足以校正预试验中获得的估计量的偏倚。而即使是每组40例的预试验,对效应量较小的干预试验也是不够的。Sim等研究从标准差的精确度考虑,结合了效应量的大小和最小化总和样本量(预试验和正式试验样本量之和)的估算方法。对于效应量为较大(0.8)、中等偏大(0.6)、中等偏小(0.4)和极小(0.2)的情形,要使得总和样本量,预试验样本量至少应为15、25、35和不小于55。Whitehead等尝试了UCL1-0. 8、UCL1-0. 95和非中心 t 分布法(NCT),以最小化正式试验和预试验的总和样本量为目标得出了以下经验估计。在正式试验中,针对<0.1、≥0.1且<0.3、≥0.3且<0.7和≥0.7的标准效应量,在90%的把握度下,推荐预试验中每组样本量分别为75、25、15和10例;在80%的把握度下,则分别为每组50、20、10和10例。既往对预试验样本量的考虑多基于连续型变量。Teare等则较为全面地分别对服从正态分布的连续性变量和服从二项分布的二分类结局进行了模拟。研究建议,对于采用连续型变量作为主要终点指标的试验,预试验的样本量至少达到70例(每组35例)。而对于结局指标是事件发生率的试验,预试验中总样本量应达到120例(每组至少60例)。

中医药临床研究在进行预试验设计时,因缺乏对疗效的历史数据,可采用中等的标准效应量(如0.6或0.4)进行样本量估计,而如果预计效应量非常小,则对此干预措施进行临床研究并推广的意义是非常有限的。

4

确定中医药预试验样本量的推荐

预试验样本量的确定,尚未形成统一的规范。可以肯定的是,预试验样本量和试验目的密切相关。基于前述诸多标准,对中医药的临床预试验样本量的确定过程做出如下推荐,如表2所示。在正式试验中,简单的依靠经验判断和预试验提供的参数用于样本量的估算,均面临损失研究把握度的风险。因此,在选择参数时,应注意选择原始点估计值的UCL1 0. 8 UCL1 0. 9等上限以校正估计值的偏倚

在确定预试验样本量的过程中,第一,研究者应明确样本规划的目标,即预试验的目的是什么。如果此次预试验主要用于探索未来正式试验的可行性、可接受度和其他潜在的问题,那么传统的经验法则可以作为参照标准,或者以研究经费预算作为主要依据。

第二,当考虑为正式试验提供精确度较高的参数时,如果预期人群中指标变异水平较大,建议每组样本量不少于30例;变异较小时,可考虑每组12例。

第三,在试验资源有限的情况下,研究者需要考虑寻求使得预试验和正式试验的总和样本量最小的条件。此时,预试验的样本量和干预措施的标准效应量密切相关,建议研究者根据临床经验对效应量进行预估。较小的临床效应量,往往需要较大的预试验样本;反之,样本量相对较小。在中等标准效应量的情况下,通常连续性变量要求每组达到35例;分类或者等级变量每组需要达到60例。

本文来源

张颖,王俊慧,胡烨胤,邵宝仪,付占局,刘建平.中医药临床研究中预试验样本量的确定.中医杂志,2021,62(4):307-311.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【1049】知道两组数据的样本量均数标准差,怎么算合并效应量呢?
丁香园论坛
如何确定 t 检验的置信区间 | 协和八
概率与数理统计期末考卷
混凝土强度检验评定标准GB50107-2010
为什么使用样本标准差S代替总体标准差σ 计算总体均值置信区间时,时需要用t分布?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服