丁香园论坛

倾向匹配分析，英文全名为propensity-matched analysis，缩写为PSM，是目前在国际上最为流行的统计学方法之一。2016年1月1日，笔者用' propensity-matched'作为关键词检索PubMed，共检索出1206篇文献。通过对这些文献进行分析，笔者发现，在2000年时，仅有1篇文献采用PSM进行统计学分析。而2015年全年，则有316篇文献采用了PSM进行统计学分析。可见，这种统计学方法在国际上已经十分流行。相比之下，国内对于PSM分析的应用还不够重视，采用PSM进行统计学分析的论文还相对较少。在此，笔者拟结合自己学习PSM分析的一些体会，浅析PSM的原理和应用。由于笔者水平所限，本文仅适合作为PSM入门参考资料。如果有读者想深入了解PSM分析，请参阅相关文献。

何为PSM分析呢？这个问题需要先从临床研究的类型说起。众所周知，临床研究分为干预性研究和观察性研究。干预性研究的论证强度是高于观察性研究的，原因就在于干预性研究可以通过“随机分配”的方式平衡混杂因素。比如研究一种药物治疗抑郁症的疗效，研究者在招募了一些抑郁症患者后，将其随机分为实验组和对照组，实验组接受药物治疗，对照组接受安慰剂治疗。经过治疗一段时间后，如果两组患者的预后不同，则我们可以认为这种“预后”上的差异完全是有治疗措施的差异引起的（实际上，我认为这句话值得商榷！），因为从理论上讲，实验组和对照组的临床特征是相同的，或者说具有可比性的。正因如此，随机对照试验（RCT）一直是目前临床研究的“最高境界”，在“循证医学”上具有较高的证据等级。

相对于干预性研究，观察性研究就比较“尴尬”了，因为没有随机分组一说，所以除了暴露因素的差异外，实验组和对照组之间在其他很多方面还存在差异，人们通常将这种差异视为混杂因素。大家注意一下：在干预性研究中，我们说试验组接受的是“干预措施”，因为这种干预措施是主动给予的；而在观察性研究中，我们说实验组是存在“暴露因素”，因为实验组是被动暴露于某种因素的。实际上，二者的本质是相同的。在本文中，为便于阐述，笔者统一将暴露组说成实验组，非暴露组说成对照组。

如前述及，观察性研究的软肋在于存在“混杂因素”。因此，实验组和对照组预后之间的差异不能简单归结于暴露因素。打个比方：研究胆固醇增高的个体是否更容易患急性心肌梗死。在这个课题中，研究者根据受试者的胆固醇水平，将队列人群分为胆固醇增高组和胆固醇正常组，并对人群进行随访，20年后，观察胆固醇增高组人群患急性心肌梗死的风险是高于胆固醇正常组的，但由此并不能认为“胆固醇增高会增加个体患急性心肌梗死的风险”。因为与胆固醇正常组相比，胆固醇增高组个体的甘油三酯水平也较高、高血压的发生率也很高。因此，还不能确定实验组和对照组在急性心肌梗死发病风险上的差异是由胆固醇引起的。

为了排除混杂因素的影响，我们需要在设计上或统计上进行一些处理，设计上最常见的处理方式就是“配对”，但是这种方法并不常用，因为配对因素越多，匹配难度越大。多数情况下，研究者还是会选择统计学校正，比较常用的就是logistic回归和Cox风险比例模型。但笔者认为，这两种方法都或多或少有些缺陷，比如：有时需要对某些连续变量进行分组，损失了信息量；在进行变量筛选时，有些效应相对较小的混杂因素被忽略了。

好了，我们言归正传，谈谈PSM。所谓PSM，就是指通过一定的统计学方法对实验组与对照组进行筛选，使筛选出来的研究对象在临床特征（潜在的混杂因素）上具有可比性。此时，如果实验组与对照组的预后存在差异，那就可以将差异完全归结于实验因素了。

笔者以JTD杂志2015年11月发表的一篇论文来说明PSM的大致思路和应用。该文的主要研究在接受了PCI手术的患者中，贫血是否会增加患者3年内发生缺血事件的风险。研究回顾性地分析了8825名接受了PCI治疗的患者的临床资料，发现其中有581人在接受PCI手术时存在贫血。进一步发现贫血与非贫血患者在很多方面存在差异，比如贫血患者中老年人群、高血压的比例明显较高。如果采用传统的研究思路研究贫血与术后三年缺血事件的关系，就需要采用Cox模型对所有的混杂因素进行校正。但在本文中，作者并未按照传统的思路进行研究（这也是本文的创新点之一），而是采用了PSM法对病人进行筛选配对。经过1：1筛选配对后，共有436名贫血患者和436名非贫血患者进入了研究，这些患者的临床特征已经基本一致，如下图所示。

此时，如果贫血组和非贫血组患者在三年缺血时间发生风险上存在差异，则就可以将原因归结为贫血，因为两组患者其他特征都是相同的。

关于PSM的统计学原理，笔者在此以JTD这篇文章为例进行一简要介绍。其基本流程为：首先将患者分为贫血患者非贫血患者，然后采用logistic回归，以贫血与否作为应变量（Y），以其他所有已知的临床特征（比如BMI、NYHA分级、高血压等）作为自变量（X），计算出每个患者的“贫血概率”。这个贫血概率实际上就是PSM最核心的内容之一。然后，根据贫血概率，将实验组和对照组进行匹配。比如，贫血组一个患者的贫血概率为0.361，那么就在非贫血患者中找一个贫血概率在0.361附近的患者与之进行配对。PSM最精妙的地方就在于：如果根据贫血概率将研究对象进行匹配后，贫血组和非贫血组的临床特征就具备可比性了。可见，PSM实际上是通过“降维匹配”的思路对混杂因素进行配对和校正。

在软件操作时，程序会让操作者提供一个卡钳值（caliper），这个卡钳值实际上就是指实验组与对照组在进行配对时，概率上允许的误差。比如卡钳值设置为0.02，也就是说如果一个贫血患者的贫血概率是0.361，与之匹配的非贫血患者的贫血概率必须在0.341和0.381之间。如果在非贫血组中无法找到贫血概率在0.341和0.381之间的个体，就不进行任何配对，而直接将该患者排除出研究。当然，配对可以是1：1的配对，也可以是1：n的配对（n一般不超过3），配对模式往往取决于研究者的原始样本量以及构成比。可见，卡钳值设置越大，越容易找到匹配的对象，但结果越容易出现不平衡；卡钳值设置过小，实验组和对照组越容易平衡，但是符合配对要求的患者就少了，最终导致研究的统计效能就低了。通常情况下，建议将卡钳值设置为0.02或0.03。

作者：胡志德

来源：科研时间

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。