SPSS 统计分析策略（5）：方差分析后两两比较，究竟应该用哪种方法？

第5讲 实验性研究定量数据统计策略（5）：

多重比较的方法

但凡学过《医学统计学》的朋友，可能都了解一些，多组均数F检验只能说明多组之间总体均数不全相同，不能说明任何两组之间存在着统计学差异。可在此基础上开展多重比较的方法（俗称两两比较），以探索两组两组之间有没有统计学差异。不过，两组均数的比较，不能直接采用t检验，这样会增加假阳性的概率。

实例分析

在评价某临床新药耐受性及安全性的2a期临床试验中，对符合纳入标准的30名健康自愿者随机分为3组，每组10名。各组注射剂量分别为0.5U、1U、2U，观察48小时部分凝血活酶时间（s），试问不同剂量的部分凝血活酶时间有无不同？数据库见time48.sav

本案例来自于上一讲F检验（点击学习）。我们已经证明，检验统计量F值为6.5，P＝0.005，组间均数差别统计学意义，可认为各组的凝血活酶时间不同。

那么上述三组数据中，两组两组之间有没有差异呢？比如0.5个单位剂量下，凝血活酶时间均数是33.6s，1个单位剂量下，时间均数为37.8s，它们之间有没有差别？同时，0.5个单位和2个单位组（35.1s）有没有差异？

为什么两两比较不能用t检验

怎么比较？两组均数比较，我们之前讲过用t检验，这里可以直接用t检验吗？

不能！多组数据两两比较用t检验会增加一类错误α，也就是假阳性错误。这意味着本来你的研究应该是阴性结果，但如果两两比较用t检验，您的结果可能就是阳性。

原理如下：当有k个均数需作两两比较时，同时比较的次数共有c= k(k-1)/2。设每次检验所用Ⅰ类错误的概率水准为α，累积Ⅰ类错误的概率为α’，则在对同一实验资料进行c次检验时，在样本彼此独立的条件下，根据概率乘法原理，其累积Ⅰ类错误概率α’与c有下列关系： α’＝1－(1－α)^c 例如，设α＝0.05，c=3(即k=3)，其累积Ⅰ类错误的概率为α’＝1－(1-0.05)³=1-(0.95)³ = 0.143

本来假设检验假阳性错误是5%，现在有14.3%，太多了。容易把阴性结果说成阳性！虽然，可能发表文章是很有利的，但是这是不合适的。

郑老师再说两句

估计你还是不明白，我再通俗介绍一番。这对于你为什么要进行两两比较，何时进行两两比较有些许帮助。

第一，假阳性，一般是5%的设置，也就是说，即便两组总体均数相同，但由于抽样的原因，也会5%的概率结果表现出阳性的结果。所以一篇论文，总是存在着一定的假阳性的概率，但不能太高，5%是合适的水平。

第二，多次比较的假阳性问题。多次比较，比如三组数据两两比较，即使（1vs2，2vs3，1vs3）三次数据比较，理论上均没有差异，但是由于各次比较均有5%的假阳性率，那么至少出现一个结果P<0.05的概率会是多少？0.143。换言之，你的一篇论文即便三组总体均数完全一致，如果用t检验进行两两比较，有14.3%的概率会出现一个P<0.05。

第三，有句话说“东方不亮西方亮”，多次比较，偶然发生阳性的结果的概率会大大增加。这虽然对论文发表是好事，但这是毒药。这样的论文不可靠。

第四，因此多组均数两两比较不能直接用t检验，不是因为t检验有错，而是因为t检验会造成一种表面的到处飘阳的结果。

所以统计学引入了一些多重比较的技术，来防止过高的假阳性概率。

如何进行多重比较

到处飘阳的虚假繁荣，场景很多见，在医学研究上包括以下几类：

1）多组数据两两比较

2）多个结局指标比较

3）临床试验的期中分析

4）亚组比较

上述这些场合下，普通的假设检验直接分析（α=0.05），均会增加一篇论文总体的一类错误α值。

一类错误α控制的方法，大致有两类，分别是基于family-wise error rate（FWER）控制法和基于false discovery rate(FDR）的控制法。这两种方法内容丰富，全面而细致地方法我们将在后续文章进行介绍。

本文介绍基本的控制一类错误的方法，包括基本统计算法、a分割法、人工规避法。

α分割法：多重比较次数较多时，可对α进行分割处理。比较n次，新的检验水准α’=α/n，比如三组数据两两比较，α’=0.05/3=0.017，在此基础上仍然可以进行两组两组比较的t检验。

统计算法：这一类其实是泛泛归类，特指基于数据进行统计量和α值全面调整的方法，包括SPSS软件列出14种算法，如LSD、Tukey方法等

人工规避法：通过人为预先设定，控制比较的次数。比如，三组数据多重比较时，不再两两比较，只比较第一组和第二组；或者把第一组和第二组比较结果作为主要研究目标；通过降低比较次数甚至只比较一次，那便无需通过校正α值就可以控制假阳性了。有兴趣可以看看这篇论文：【文献阅读】NEJM: 方差分析后，如何能够不用校正检验水准而进行两两比较呢？

如何SPSS进行基本的多重比较

由于本文是SPSS入门，我主要介绍SPSS菜单式的统计算法来控制一类错误。其它的方法，其他方法可关注今后篇章。

常见的统计算法诸如LSD，SNK等方法。SPSS列举很多方法，总共有14种，分为方差齐性的方法和方差不齐的两类。

多重SPSS操作界面

分析—比较均值—单因素ANOVA检验

多重比较具体操作入口

多重比较在F检验基础上进行，所以多重比较的SPSS分析路径基本与F检验一致

① 对比：此入口可以选择某2组进行t检验（即上文所提的人工规避法进行比较），结论与常规的t检验一致，由于篇幅限制，不再进行说明。

② 事后比较：英文为Post HocComparison。所谓事后比较，俗称马后炮分析，指的是一个研究项目设计时未制定比较的组别和方法，而在统计分析阶段进行任意组别的两两比较，没有很强的针对性。不过，这一入口中的方法，不全都属于事后比较的方法（下文有具体介绍）。以下是点击“事后比较”后的中英文界面：

英文列表

中文列表

多重比较SPSS各方法的选择

哪种方法适合你呢？现在本人根据相应的教材提出以下几点建议：

1.首先，要弄清楚多重比较是事先比较，还是事后比较；所谓事前，是研究设计时设定的，研究计划书写得明明白白。比如三组比较，我设定只进行1 v2、2v3，这样可以减少比较次数，这样的往往在验证性研究中出现，又称计划好的比较。事后比较，是作者设计时不明确，分析时想试试的方法，所以往往属于探索性分析。

2. 常用的事前比较方法有LSD、和Dunnett法，两种方法各有使用途径。常用的事后比较方法有SNK、Duncan、Turkey、Scheffe法。

3.LSD法即最小显著差法；该法一般用于计划好的多重比较。它其实只是t检验的一个简单变形，并未对检验水准做出任何校正，只是为所有组的均数统一估计了一个更为稳健的标准误。

3.如果比较的各组样本量相等，Tukey法效率较高，所以样本量相似的时候，可以采用Tukey方法；如果样本量不同，则推荐Scheffe。SNK国内文献介绍多，国外反而用的少，SPSS也不推荐SNK（它无法给予更多的两两比较结果与置信区间）

4. 事前事后比较都通用的方法是Bonferroni。Bonferroni方法较为保守，但最为流行。

5.Bonfferoni方法实际上就是上文所提的α 分割方法，通过减低单次检验水准α来控制总的一类错误。但是SPSS的Bonfferoni操作过于死板，各组均数全部需要进行两两比较。如果只想挑选若干组进行比较，比如1vs2，2vs3，此时可以根据α 分割法原理，将α直接设定为0.025（0.05/2），在此基础上开展两样本的t检验。

6. Bonferroni方法有一个缺点，就是比较次数10次以上时，结果过于保守。一般情况下，比较次数10次以上时，我们采用Sidak方法来代替Bonfferroni方法

7.上述这些方法，使用的前提是各组均满足正态性和方差齐性，若满足正态性而不满足方差齐性时，由于方差分析的结果比较稳健，故有研究者提出此时适宜采用Games-Howell、Tamhanes' T2等多重比较方法。

8.按照新英格兰医学杂志的建议，如果事后比较，不建议提供P值，只提供置信区间。（《新英格兰医学杂志》宣布弱化P值的地位）

统计分析结果

（1）Bonferroni分析结果

大多数多重比较无论是结果还是结论呈现方式与Bonferroni相似，因此本文只列出Bonferroni的结果。

注意：此处显著性即P值，此处检验水准α无需进行α分割处理，一类错误经由统计算法校正，因此P<0.05即可认为有统计学差异。

结果显示，0.5个单位和1个单位剂量组的48小时部分凝血活酶时间存在着统计学差异（P=0.004）,0.5个单位和2个单位剂量组、1个单位与2个单位剂量组48小时部分凝血活酶时间没有统计学差异（P>0.05）。

（2）Dunnet t检验分析结果

本处以0.05个单位剂量组为对照，其它两组分别与之比较。结果显示，1个单位和0.5个单位剂量组48小时部分凝血活酶时间存在着统计学差异（P=0.003）、2个单位与0.05个单位剂量组48小时部分凝血活酶时间没有统计学差异（P=0.368）。

由此可见，不同的多重比较方法结果存在着一定的差异。

如何进行多重比较

1.是不是多组数据比较必须要进行两两比较？

对于多组数据比较，目前国内学术论文问题较多，要么全部不进行多重比较，要么不分青红皂白，所有组别全部进行两两比较。这里有几点需要说明。

第一，多组比较、多结局指标、期中分析、亚组分析都需要考虑多重比较问题，特别是多组比较和期中分析。

第二，不建议不认真思考直接使用SPSS常见的完全两两比较的方法，特别是组别数较多时。无论LSD还是Bonferroni或者其它方法，均有其各自应用场合和相应的技巧。多重比较首先要明确事先设计的还是事后多重比较。

第三，一般来说，可靠的多重比较结果应该在一个项目研究设计时便指明多重比较的方法和比较的对象。

第四，如果事前未指明多重比较方法和目标对象，则为事后比较，事后比较结果为探索性的结果。

这里列举一篇文章的文字描述：

Because this study was done under a registry protocol with no preplanned analysis, the analyses are post hoc, and the results here in should be considered exploratory and are intended to guidefurther definitive studies.

第五，即便是存在着多个组别，或者多个结局指标，也可以不进行校正α而进行分析，比如两两比较直接用t检验，而不进行α分割，不控制一类错误，但是在写论文时需要在方法篇指出，“本文多重比较未控制一类错误α，所有结果均为探索性的结果”。

比如以下文字：Because of the potential for type I error due to multiple comparisons, findings from analyses of secondary end points should beinterpreted as exploratory.

第六，许多场合可以不校正α而直接进行比较但仍可以控制一类错误。比如三组数据进行两两比较，其中，将1vs 2的结果设为研究的主要分析结果，1vs3是为次要分析结果，不进行2vs3 比较，那么本研究完全可以直接进行两样本t检验而不校正α，因为本文无论1vs3是阳性还是阴性，对该研究下结论没有根本性影响。研究结果是否阳性则是基于1vs2结果进行，若1vs2是阴性，即便1vs3是阳性，则论文仍然是阴性论文。因此，不增加假阳性的概率。

另外一个场合，比如本公众号推送的一篇最新进展：样本量仅仅150例，中国大陆学者的针灸临床研究为何能发表在顶级杂志《BMJ》？该研究评价针刺疗法对偏头痛的控制效果，结局指标为偏头痛次数和偏头痛天数，文章认为，只有针刺同时可以降低偏头痛次数和偏头痛天数的情况下，结论才能证明针刺的有效性。因此，论文要求低偏头痛次数P<0.05,同时偏头痛天数P<0.05。在这种情况下，多重比较不会增加假阳性的概率，因此无需校正α值。

2. SPSS 多重比较方法的选择

基本的多重比较方法中，优先选择相对保守但是最主流的方法Bonfferoni（无论事前，事后），这种方法不仅适合于事先，也适合于事后，且这种方法可以不用各组完全进行两两比较，可以挑选若干组在调整α值后进行比较。

事前比较可用LSD，和对照组比较的用dunnet-t比较，但是LSD假阳性概率过大，一般只在比较次数较少的情况下进行（不高于3次）。

事后比较样本量相等用Tukey，不等的可以用Scheffe, Duncan等方法；方差不齐的可以用Games-Howell等方法

郑老师选择

多重比较还是太复杂，估计你还是不懂。如果还是什么都不知道，我这里提供给几条做法。这些做法为本人习惯，并非100%正确，请谨慎使用。

1.在一项研究的设计阶段，在方案数指出多重比较方式方法

2.推荐使用Bonferroni（即α方法）。

3.超过4组数据多重比较时，不要全部进行两两比较（全部两两比较要进行10次），挑选若干组进行比较，采用α分割法控制一类错误。

4.在统计学方法写出多重比较的方法和方式，如果是事后比较，指出你的研究结果为探索性的结果。

5. 临床试验研究多结局指标时，区分主要结局指标和次要结局指标，分别考虑两类结局指标的多重比较方法。主要结局指标如果只有一个，可以不进行多重比较，次要结局多个时，也可以不进行多重比较，但在统计方法写出“该结果为探索性的分析结果”。

6.观察性研究多结局指标时，可不进行多重比较。

SPSS 课程视频和操作录屏

SPSS课程视频

带字幕去水印的视频可复制以下地址浏览器打开

https://evod.zcmu.edu.cn/resource.html?stationID=1&resourceid=416&isprivate=false&cateid=102

SPSS课程录屏

-本讲结束-，敬请阅读同期R语言教程推文-

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。