P<>爱之深恨之切的检验水准。为了它,我们度过了多少踌躇满志的日子,又在拥有它的时刻体会了多少成功的喜悦。
不过最近,p值的日子也不好过,质疑的声音真是此起彼伏。
首先,两年前美国统计协会(ASA)发表了关于p值的声明:
(ASA, 2016; 方积乾译)
看到了吧,我怎么觉得他是想说:p值啥也干不了啊。
当然还有更直白的表达:
(Political Analysis, 2018)
2018年1月22日,美国学术期刊《政治分析》宣布从2018年的开始的第26辑起禁用p值。其要义在于:政治分析将不再在回归表或其他地方报告P值。造成这种变化的原因有很多,其中最重要的一个原因是: 单纯依靠p值本身,并不能提供支持特定模式或假设的证据。
当然,为p值操心的学者不光是他们。
今年初Daniel J. Benjemin 等72位学者出于对与0.05这个检验水准本身过于宽松的担忧,建议将检验水准从0.05降低至0.005来遏制那些其实根本没用的新疗法的出现:
(Daniel J. Benjemin, 2018)
此后,美国医学会杂志(JAMA),发表了John P. A. Ioannidis的文章:
(John P. A. Ioannidis, 2018)
鉴于对p值存在广泛的误解,误用和过度信任,为了控制假阳性结果的诞生,建议降低检验水准到0.005
你这是不想让研究生毕业的节奏啊!
同样的研究要验证p<><>时间,人力,经济成本的激增。如果基金支持力度不变,能够获得支持的项目数量势必减少;面对飙升的经费需求,研究者们可能都要反复斟酌才敢做出开展研究的决断,这势必阻碍创新的脚步;对于捉襟见肘的研究团队可能就只能看着自己的科学构想停留在设想阶段了;要是再遇见个罕见病,要多久才能收到足够的病例,说明问题啊。
更重要的,既然知道问题来自于误解和误用,那不去解决这些根本问题,还是提议“权衡之策”:对“无辜”的p值本身下手,真的很好吗?
P值是什么?
我们组间差别的t检验为例:比如我们要验证一种新的治疗方法它的治疗效果不同于传统的治疗方法。
P值是在假定两样本来自同一总体的前题下,随机抽样中获得研究中这样差别两个样本以及获得比他们差别更大的抽样结果的总可能性。
不过面对一个数值,虽然它很直观,但是我们仍然需要一个标准来做出判断,到底要小到多少才叫可能性足够小了呢。所以,目前我们通用的标准是0.05,当P <>认为两种治疗方法的疗效彼此不同。
这里,0.05是我们能够接受假阳性的水准,因为,它们二者的差异仍有微小的可能来自抽样误差,只是已经小到我们可以接受的水平。
所以p值本来是个界于0-1之间的数值,但是为了作出明确判断,我们赋予了它一个界值。
其实这样的情况挺多见,比如为了判断谁是胖子,我们也得给BMI找个界值(BMI>24为超重,BMI>28为肥胖)是一样的。只不过p值的界值更加“瞩目”因为它似乎和研究的成败联系在了一起。
没有人会因为BMI是不是达到肥胖标准而苦恼不已。
但p=0.049和p=0.051则经常让人感到是“冰火两重天”。
我们都学习过,p>0.05的结果尚无法支持任何结论,而且您大概也听说过发表偏倚吧,阳性结果更容易给杂志社接收和发表。
渐渐地,我们似乎不再介意p值本来的含义,取而代之,我们更关注他是不是能够<>。
正象很久以前,科学研究的成果没有公共渠道发布,大牛们互相写封信就算公布了。为了有个方便对公众发布的渠道,就有了学术期刊,以方便成果分享。但渐渐的,能否被期刊认可发表,变成了对研究成果的衡量手段。杂志本身也就比他诞生时的初衷承载了更多。
正所谓“能力越大,责任越大”。
自从1925年Ronald Fisher提出p值并广泛应用以来,P值同样也承受着不可承受之重。
(Ronald A. Fisher)
为什么这么说呢?
其实临床研究是一个连续的过程,统计分析与结果的解读仅仅是其中的一个环节。对于科学命题的验证,它的科学性考虑是从研究设计阶段就开始的。在研究设计中我们会遭遇各种可能影响研究结果偏离真实情况的障碍。比如信息偏倚,选择偏倚,混杂偏倚等等,如果信息的获取已经偏离了实际情况,那么我们无论把允许的假阳性水准降到多么低,也没有办法获得可靠的结果。而且接下来,研究执行过程的严谨性,数据的准确性,统计模型选择的合理性,都影响着研究的质量与科学性。只是,这一切似乎都将通过p值表现出来并接受大家关注的目光。
由此,单纯降低检验水准以获得对假阳性结果控制的设想好像是:
“扬汤止沸+火上浇油”
并没有对提高研究质量做出实质贡献。
而且随着检验水准更加极端,有可能增加假阴性的结果比例。比如下面的:
及下面情况中的:
很多上面“非常不可能”就会变成“还不能确定”。
如果以上所呈现的平均水平差异具有代表性,是真实的且具有临床意义,那么想获得统计学验证的方式就需要更大的样本量。这意味着更多的人力,经费投入,以及研究结论的延迟获得。
另一方面,从方法学角度看,自然科学在认识世界的过程中,往往需要首先对实际问题进行合理的简化入手,以揭示基本规律。进而不断地丰富发展以更好地逼近真实情况。在统计学的发展中,同样需要首先从随机化过程以及相应的多种分布特征为基础,认识最基本的统计学规律。并不断前进。至今随机模拟仍然是我们了解统计规律的重要手段。
然而面对现实统计问题时我们发现:理论分明而骨干;现实多样而丰满。
将基于理想假设构建的方法应用于解决实际问题的时候,一定会遇到实际问题。
例如,将血液视为不可压缩的无粘滞的牛顿流体,忽略流变学特征分析冠脉血流,那么分析结果的偏差可想而知。时至今日,血液流变学特征仍然吸引着大量学者不断探索和前进。
如同统计分析中,大量分析过程基于特定的分布以及随机样本构建,然而,实际数据却往往没那么理想。
下图来自十万以上数据的年龄特征直方图,假设检验告诉我们:它来自正态分布的可能性很小。
同时,随机抽样在很多情况下几乎也是无法实施的。
再如临床常用的回归分析,大多数情况下仅仅是利用统计学方法帮助我们了解临床信息间共同变化的趋势,而非以数学模型对临床特征给与精准表达。
所以我们更愿意把统计分析看作我们了解世界助手,而不是唯一的“法宝”。
虽然我们会在研究过程中力求严谨,以符合设计原则,尽力获取反映真实情况的信息。不过我们也深知,对自然规律的追寻并无止境。其实,这正是科学的魅力,我们一直走在探索和发现的路上。
综上,客观的评判研究结果应该从评价整个研究过程的严谨性科学性入手,而且在关注统计学结果的同时更应注重评价结果的临床意义,并最终做出结论。
无论怎样,统计学假设检验借助相应的统计分布帮助我们在一定程度上认识数据特征,了解科学规律。只是它常常被误解并且一直默默的承受着这一切。
无论怎样,我们还是用手绘的花盆并栽种花生绿化办公环境,并送上我们对研究者的祝福。
(我们当然不希望检验水准有变啦,不然这花盆还得重画,彩绘里倾注的也是心血啊!)
最后,感谢卢双老友审读, 多谢老朋友!
参考文献:
Ioannidis JPA. The ProposaltoLower P Value Thresholds to .005. JAMA. 2018;319(14):1429-1430.
Benjamin DJ,Berger JO,Johannesson M, et al. Redefine statistical significance. Nature HumanBehaviour. 2018;2(1):6-10.
Wei Y, Chen F. Lowering the pvalue threshold. JAMA. 2018;320(9):934-935.
Hernandez I, Gellad W F, Good CB. Lowering the p value threshold. JAMA. 2018;320(9):935.
Wasserstein RL, Lazar NA. TheASA's Statement on p-Values: Context, Process, and Purpose. The AmericanStatistician. 2016;70(2):129-133
Wasserstein RL, Lazar NA. 方积乾译, ASA关于p-值的声明:背景、过程和目的. 中国卫生统计杂志,2016;33(3): 548-552
联系客服