临床回顾性研究的十大常见错误及案例分析

本文翻译自《The retrospective chart review: important methodological considerations》。有需要本文章的，请发送“文献阅读”到公众号，即可获得英文原文。

回顾性数据记录（Retrospective Chart Review, RCR）研究也称为医疗记录回顾性研究，是研究设计的一种。该类研究通过预先记录以患者为中心的数据以回答一个或多个研究问题。RCR可广泛应用于许多卫生保健方向的研究，如流行病学、质量评估、专业教育和住院医师培训、住院护理和临床研究等。RCR所使用的数据有多种来源：如电子数据库、诊断检测结果和保健服务提供者的信息等。此外，RCR中有研究意义的结果还可直接用于指导后续的前瞻性研究。有学者评估了2006年RCR报告的方法学严谨性，结果显示大多数研究的方法学设计并不规范。

由于方法学是同行评议文章的重点，为了改善RCR研究的质量，本文将讨论回顾性记录分析中发现的十个常见方法错误和不足，并通过案例分析来提出建议或指明可行的资源，以供研究者在设计、实施或评估回顾性图表分析时作为“最佳实践”指南参考。

1. 第一个不足：未明确定义并清晰表达研究问题

设计临床回顾性数据分析（RCR）方案的第一步是基于研究结果来制定一系列供回答的研究问题。研究问题应是符合逻辑的，问题的答案选项之间应有明确已知/未知或可信/不可信的区别。研究问题来源于RCR研究目的并可影响研究设计和数据分析，因此需要反复斟酌研究问题的制定。

本文在此介绍一种设计和阐述研究问题的框架，以供读者参考。研究问题通常可以分为三类，描述类问题、关系类问题、比较类问题，下面将分别对三类问题展开分析。

描述类问题在RCR中较为常见，这类问题描述了正在发生或已存在的事情。发病率和患病率研究属于描述性研究。我们可以提出这样一个研究问题，“2021年12月南非的新冠肺炎发病率是多少？“这个问题的答案可以用百分比来表示。再如”比较居家隔离和住院患者的疾病特征和结局？“描述性问题的结果通常以比值、百分比、频数、集中趋势指标（均属、中位数、众数），离散趋势指标（标准差、极差）、图表等。

关系类问题主要用于询问现象之间如何产生关联。如，我们可以这么提问：“南非豪登省当地居民的反对疫苗情绪和新冠感染率之间有何关系？”为回答这个问题，我们需要从中收集当地居民对疫苗接种的态度和医疗机构中新冠核酸检测记录。关系类问题的答案通常以相关系数的形式呈现，而如何选择合适的相关系数类型取决于数据的性质，如数据的类型（连续性数据、等级数据、分类数据）以及数据的分布（正态、偏态）。

比较类问题主要用于询问一个因变量中不同组别的自变量差异。不同的分组即代表自变量的不同取值，而用于比较组间差异的指标则为因变量。例如“全程接种BNT162b2疫苗志愿者的血清对不同变异株的中和活性是否有区别？”。该问题中自变量为变异株，可以是Alpha株、Beta株、Omicron株，而血清中和活性为因变量。血清对不同变异株中和活性的比较，即为自变量在不同取值情况下的因变量比较。这类问题常通过比较组间差异的显著性来回答。

《Exploringomissions in nursing care using retrospective chart review：An observational study》是一篇采用RCR描述护理工作遗漏的特点和频率的研究，刊登在了护理权威杂志International Journal of Nursing Studies上[1]。在探讨探究护理工作遗漏的特点和频率的RCR研究中，主要是描述类的文章，作者根据研究目的提出了两个关键的研究问题。

1. How important was it to document this care activity?

(4-point Likert scale: 0. not applicable 1.somewhat important; 2. important; 3. very important)

2. Had the activity been omitted?

(Trichotomous: yes/no/partly)。

问题1的设置在于询问患者对于某些护理行为重要性的认同感，问题2的设置将得到患者接受该护理行为的频率。基于这两个问题得到的数据，即可提取出数据记录。

图1. 护理行为与患者期待人数、遗漏频率表

2. 第二个不足：未考虑到抽样环节的优先性

在抽样环节有两个重要问题需要考虑：样本量和抽样方法。

检验效能（Power of test）可用于决定研究所需的样本量。检验效能是指当备择假设H1为真，而拒接原假设H0的概率，即当两总体确有差别时,按规定的检验水准α能够发现该差别的能力。例如，在刚才的例子中我们提出“全程接种BNT162b2疫苗志愿者的血清对不同变异株的中和活性是否有区别？“这个问题。由于零假设H0总是设为“无效假设”，反映无差异。该问题中H0表示为“血清对不同变异株的中和活性相同“当然，研究人员往往对拒绝无效假设而接受备择假设更感兴趣（血清对不同变异株的中和活性有差异）。因此，我们需要足够的检验效能来检测出不同变异株之间中和活性的统计学差异。

检验效能与样本量的大小有关，大样本研究具有更大的检验效能，因此在大型人群研究中，即使是组间细小的差异也可具有统计学意义。对于RCR研究来说，足够的检验效能同样需要足够数量的患者信息记录。许多统计学教材和期刊都有描述如何进行检验效能分析。G^*Power是一款免费的检验效能分析软件，应用广泛且操作难度较低。Faul等人^[2]在其论著中更为详细地描述了该软件的使用。

在RCR研究中，抽样方法即为获取患者信息的策略。在此我们将主要介绍三种抽样方法。

RCR中最常用的抽样方法为方便抽样，该方法有利于研究人员使用他们所掌握的医疗信息。方便抽样在处理较罕见的病例或研究样本量较小时尤为实用，但也会影响研究结果的可推广性。

第二种抽样方法为随机抽样，是抽样方法中的金标准。在研究人群中依据某种规则进行随机抽样，使得每份医疗信息都有同等概率被抽中。随机抽样减少了抽样误差，使得研究人员可以获得更具代表性的样本，更真实地反映研究结果与抽样人群的关系。但该方法适合在研究者有能力获得大量医疗信息的前提下进行。

第三种方法为系统抽样，研究人员每隔K个抽样距离抽出一个医疗记录。该方法并非真正的随机抽样，但同样需要大量的医疗信息。

综上，当研究人员有能力获取大量研究疾病信息或医疗信息的情况下，随机抽样是首选方法，在信息有限的情况下，方便抽样将更为实用。

3. 第三个不足：未充分将研究变量可操作化

操作化是指“将一个概念转化为其表现形式的行为”。这个术语被广泛用于社会科学研究。

例如在“美国东北部住院医师职业倦怠与自杀意念之间的关系如何？”这个问题中，我们需要根据“职业倦怠”的专业定义，将其拓展为多维度的概念，包括人格解体的感觉、个人成就感的降低和情绪上的疲惫和情绪衰竭。为了让倦怠的维度概念变得操作化，Maslach等人创建了Maslach 职业倦怠量表，这也是职业倦怠研究中最广泛使用的倦怠评估量表。

在RCR研究中，研究变量的操作化需要两个步骤，第一步是识别和定义研究变量。在某些情况下，这个过程可能是很直接的。例如“新冠疫苗接种对疫情防控是否有意义？（有意义/无意义）”问题中，研究对象应能较好地理解和判断新冠疫苗接种这一概念。但在某些情况下，很难对研究变量进行清晰的界定，例如“疼痛”，是一种主观的体验并受情绪的影响。不同患者对疼痛的描述可以说是千奇百怪。因此如何将疼痛在特定研究中操作化显得尤为重要。

研究变量操作化的第二步是进行文献回顾以观察其他研究在类似或相关工作中如何对这些变量操作化。例如疼痛这一变量，我们通过文献回顾可能会发现，既往的疼痛研究常采用疼痛程度或数字分级法、视觉模拟法或McGill疼痛量表来操作这个变量。此时我们可以评估这些方法是否适用于解决我们的研究问题。通过这两个步骤，RCR研究可以显著提高调查变量的信度和效度。

4. 第四个不足：未培训和监督数据提取员

数据提取员负责审查和编码每个记录，在数据质量方面扮演着重要角色。数据提取员必须准确、一致地执行编码，否则可能降低数据的有效性。在进行任何数据提取之前，必须针对数据提取员进行详细的培训，包括如何审核变量、程序手册和数据提取表。在这次培训之后，数据提取员应对几个患者记录进行编码实践。研究人员应仔细验证这些编码以确保准确性。任何编码问题都应与数据提取员共同讨论解决。培训完成后，研究者还需要对数据提取员进行持续监督，确保提取过程以准确性和及时性。在提取的初始阶段，有必要安排一次与数据提取员的会议来说明和讨论在编码过程中可能发生的任何问题。

除了确保数据提取的准确性、一致性和及时性之外，数据提取员还必须保持客观。建议在研究过程对数据提取员实施盲法，以使其对研究的目的和研究试图解决的研究问题保持盲态。由于可能受研究者的观点所影响，处于盲态下的数据提取员可减少其作为评价者造成的信息提取偏倚。

5. 第五个错误：未使用标准化数据提取表

在进行RCR研究时，数据提取表有助于确保提取策略的一致性，减少数据收集时的错误。数据提取表可以是电子表格或纸质表，这两种提取表关键在于都要有类似原始图表格式的逻辑性以及简洁地反映研究中各种变量的操作化。

纸质表格性价比高且更容易在多个编码现场使用。但如果研究者选择使用纸质表格，应提供数据记录和编码的具体指南，否则结构固定且打印好的数据表可能没有空余的地方供编码员解释数据采集的过程。然而，纸质表格亦有缺点，当考虑到笔迹问题，复制问题，表单储存和维护问题时纸质表格就显得效率不足。

在大型的RCR研究中，电子表格适合中心化的数据存储要求，在减少数据输入和复制时错误、减少数据复制和输出的步骤等方面具有独特的优势。此外，电子表格通常由计算机软件创建，如（Microsoft Access），限制了编码员的解释余地，并可设计为只能对变量作出特定的编码。

无论选择何种提取表形式，都应对编码员进行充分的培训、解读变量以及阐述预期的变量编码效果。为进一步减少编码错误，还可为编码设置准确的字符宽度要求，以强制编码员输入特定字符宽度的数字，消除编码过程产生的误差。此外，提前进行编码测试可以确保所有的提取表中选项都有对应的编码。在某些情况下，某些特定的选项可能报告的频率较低，这些选项应合并起来以便于编码。在测试过程中，可以发现许多错误和缺漏，对于规范编码具有重要意义。

小结：

本文简单介绍了RCR研究的概念和原理，分析了五种RCR研究常见的错误并提供了相应的建议。若读者想了解RCR研究的基础概念和流程，可阅读Andrew Worster MD, MSc的论著^[3]。

好，由于篇幅较长，我们暂时就介绍5个常见不足，剩下的不足，我们将在明日下篇推文中继续分析，敬请期待！

参考文献

[1] Saar L, Unbeck M, Bachnick S, et al. Exploringomissions in nursing care using retrospective chart review: An observationalstudy [J]. International Journal of Nursing Studies, 2021, 122(104009.DOI: 10.1016/j.ijnurstu.2021.104009

[2]Faul F, Erdfelder E, LangA-G, et al. G*Power 3: A flexible statistical power analysis program for thesocial, behavioral, and biomedical sciences [J]. Behavior Research Methods,2007, 39(2): 175-91.DOI: 10.3758/BF03193146

[3] Worster A, Haines T.Advanced statistics: Understanding Medical Record Review (MRR) Studies [J].Academic Emergency Medicine, 2004, 11(2): 187-92.DOI: 10.1111/j.1553-2712.2004.tb01433.x

作者：黄兴成，厦门大学公共卫生学院在读学生。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。