打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【SCI论文翻译】重症监护患者压力性损伤的预测:机器学习模型

摘要

背景:医院获得性压力性损伤是重症监护患者中的一个严重问题。有些可以通过使用诸如专科病床之类的措施来预防,由于成本的原因,这些措施并不是对每个患者都可行的。然而,决定哪个患者从专科病床中获益最大是困难的,因为现有的确定压力性损伤风险工具的结果表明,大多数重症监护患者处于压力性损伤发生高风险中。

目的:开发一种预测外科重症监护患者压力性损伤发展的模型。

方法:将来自电子健康记录的数据分为训练(67%)和测试(33%)数据集,并通过R包“随机森林”使用随机森林算法开发模型。

结果:在6376名患者的样本中,516名患者(8.1%)发生了1期或更高分期 (结果变量1)的医院获得性压力性损伤,257名患者(结果变量2)发生了2期或更高分期(结果变量2)的压力性损伤(4.0%)。通过使用测试集评估分类器性能,开发了随机森林模型来预测1期和更高分期以及2期和更高分期的压力性损伤。两种模型的接收器工作特性曲线下面积均为0.79。

结论:这种机器学习方法不同于其他可用的模型,因为它不需要临床医生将信息输入到工具中(例如,Braden量表)。相反,它使用电子健康记录中容易获得的信息。下一步包括在独立样本中进行测试,然后校准以优化特异性。

前言:

在美国,医院获得性压力性损伤(HAPI)发生在3%到24%的重症监护患者中发生率为3%—24%,与没有此类损伤的患者相比,这些发生压力性损伤的患者住院时间更长,医疗支出成本增加,并且身体和心理遭受更多痛苦。尽管压力性损伤在临床很常见,一些患者可以通过使用诸如专科病床等措施来预防。此外,认识到HAPI风险最高的患者是重要的,因为临床医生可以进行更全面的皮肤评估,以便在最早的可逆阶段识别压力性损伤。

推荐的临床实践指南包括评估每个患者在入院时的压力性损伤风险以及患者临床状态的任何变化。不幸的是,在重症监护病房(ICU)中识别高风险患者是困难的,因为目前可用的风险评估工具在危重患者中具有较高灵敏度但特异性较低,并且往往表明大多数危重患者处于高风险中。

机器学习可以有效和高效地利用电子健康记录中的大量数据来预测压力性损伤的发生进程

机器学习是人工智能技术的一个分支,主要可以用来建立预测模型,但很少用于压力性损伤的研究。Raju等人建议采用机器学习方法来建立预测压力性损伤的有用模型,因为机器学习技术可以有效和高效地利用电子健康记录(EHRs)中常规收集的大量临床数据。Raju等人特别推荐了一种被称作随机森林的机器学习,这是一种使用集成决策树的方法,其中通过替换从数据中提取随机子集。随机森林方法的优点在于,所有数据都可以用于训练和检验,同时避免决策树倾向于过度拟合模型,并且该方法在出现多重共线性和数据缺失值时更有优势。我们研究的目的是使用大数据/机器学习方法来开发模型,用于预测重症监护患者压力性损伤的发生。

方法:

数据预处理:

美国犹他州盐湖城犹他大学医院的机构审查委员会批准这项研究并对数据进行预处理。一个生物医学信息学团队在我们的数据发现过程中帮助我们。

我们查询了一个企业数据库,从而获得符合我们的采样标准和有意义的变量的EHRs数据。我们使用迭代方法通过验证过程以及领域专家、数据管理员和生物医学信息学团队的审查来细化我们的查询。我们通过手动比较提取数据中的值和日期/时间截点来验证从EHRs提取的数据,这些值和日期/时间截点显示在随机选择的30个病例的电子健康记录的临床医生视图中,包括15个有压力性损伤的病例和15个没有这种损伤的病例。在为所有手动验证的案例实施充分成熟的查询后,我们为所有30个案例找到了一致的值和日期/时间截点(10分钟内)(100%同意)。我们使用Stata13软件(StataCorp LLC)清理各个变量,然后使用SAS9.4版软件(SAS Institute Inc.)编译分析数据集。

样本:

样本由美国犹他州大学医院(University Of UtahHospital)成人外科或外科心血管ICU住院患者的数据组成,该医院是一个学术医疗中心,一级创伤中心,在2008年9月1日至2013年5月1日期间,直接或在急救护理住院后,这些患者符合纳入标准。包括18岁以下的患者,他们被送进成人ICU。我们努力纳入所有成人外科或成人外科心血管ICU的患者。为了避免将社区获得性压力性损伤错误归类为HAPI,我们排除了在ICU入院时发生压力性损伤的患者以及在ICU入院后24小时内发生压力性损伤的患者的数据。在研究期间住院超过1次的患者中,我们只纳入第一次住院的数据。

所有患者的治疗方案包括基于Braden量表评分的针对性干预(例如,对皮肤潮湿的患者使用吸湿垫和护肤霜)。此外,ICU的护理标准是至少每2小时对无法自我翻身的患者进行一次翻身和重新定位。

表1:预测变量:数字和百分比

Predictor variables: number and percentage

表2:预测变量:最小值-最大值,平均值和标准差

SI(国际单位制 (International System of Units, SI))转换因子:将肌酐转化为μmol/L,乘以88.4.;将葡萄糖转化为mmol/L,乘以0.0555;将乳酸转化为mmol/L,乘以0.111,计算方法为体重(千克)除以身高(米)的平方。1423名患者(22.3%)的数据缺失。

措施:

变量的选择是基于来自临床医生和相关出版物的输入的组合。表1和表2中详细列出了所选择的预测变量。生命体征数据是从电子监测器(脉搏血氧饱和度和血压)中获得的,并且由于担心连续监测中零星出现的假值,只有在低值连续出现3次或更多次时才包括在内。结果变量为HAPI分类为1-4期,深层组织损伤或不可分期和HAPI分类为2-4期,深层组织损伤或不可分期。我们将1期压力性损伤包括在我们的第一个结果变量中,因为最早阶段的压力性损伤是可逆的,因此尽早识别这一阶段是我们所理想的情况。我们从第二个结果变量中排除了1期压力性损伤,因为担心护士可能会将皮肤短暂性发红误认为是1期损伤。

分析:

随机森林-随机森林算法是从分类树导出的,其中数据的训练集被连续地分割成分区,或节点,从而最终将之前无法预测的记录准确分配到一个类别(在本研究中,开发HAPI或无HAPI)。决策树的优点包括易于使用和解释,对异常值的拒绝(即,当异常值被添加到混合中时,统计数据不会改变或改变很小的量),有效地与大量预测变量一起处理的能力,以及通过使用相关变量来处理缺失数据值的内置机制。在决策树方法中,在每个节点使用最佳拟合变量,因此得到的模型几乎完全符合(这种情况是有问题的,因为模型过拟合)。

随机森林方法保留了分类树的优点,但通过自举聚合法(也称为袋装)解决了过度拟合的问题。袋装是指收集具有替换的许多随机子数据样本,以便对于所采取的每个样本(自举程序),不包括的样本将被丢弃。在每个样本上开发(或训练)新的决策树。不是在每个节点处使用数据集中的最佳拟合变量,而是随机选择等于特征数量的平方根的数字,并且通过使用该组中的最佳拟合来分割节点。随机森林方法生成许多单独的决策树,并且最终每棵树为类别获得1票(在本研究中,对于压力性损伤,是或否)。虽然该方法不提供每个变量的效应大小,但与基于假设的研究中一样,输出包括按等级顺序排列的每个变量的重要性。变量的重要性可能是由于与其他变量的复杂相互作用,而不是直接的因果关系。

随机森林模型使用自举聚合,它是具有替换的许多随机子样本的集合。

数据处理:

我们通过RStudio接口使用R,版本3.3.2,版本1.0.136来分析所有数据(完整的程序在补编中介绍--只能在www.ajcconline.org上在线获得)。首先,我们检查了可用的预测变量之间的关系,并识别出(通过预测矩阵的QR分解)保持变量矩阵不是满秩的变量的潜在线性组合。在确定可变加压素输注为问题后,我们去除了加压素输注,预测因子集恢复到满等级。接下来,我们寻找缺失模式,并通过在R包BaylorEdPsych中应用Little的“完全随机缺失”测试来确定数据不是完全随机缺失的(P<.001)。因为数据不是完全随机缺失的,所以我们使用了多重插补(使用R包Amelia),这是一种在允许一定程度的不确定性的同时对缺失值进行插补的方法;例如,多重插补算法可以将缺失的性别编码为“80%可能是男性”而不是简单地“男性”。

模型创建:

我们通过使用R包caTools将我们的数据分为训练(67%)和测试(33%)数据集,并通过R包随机森林算法为2个结果变量(HAPI≥2期和HAPI≥1期)中的每个结果变量的训练数据集开发了随机森林算法。我们使用训练数据集来开发随机森林模型,然后用测试(或支持)数据集测试模型的性能。

我们确定是用于每棵树的最佳特征数量(其中M=特征总数,m=每棵树的最佳特征数量,m=M或4.47=20[四舍五入为4])。我们确定最佳迭代次数(或森林中的树)是500,因为在该值之后,估计的“包外”错误率足够稳定。我们包括除加压素和替换样本参与者之外的所有预测变量。我们将截止值设置为0.5,以便每棵树都“投票”,并以简单多数获胜。在使用训练集建立模型后,我们将算法应用于测试数据集中的数据。接下来,我们使用R包random Forest对每个变量的重要性进行排序;然后我们构建变量之间关系的可视化表示,以评估方向性。最后,我们使用R包ROCR通过使用测试数据集来评估每个模型的接收器操作特性曲线(ROC曲线)和曲线下的面积。

结果:

样本:

通过查询产生了7218条记录。我们排除了841条记录,因为患者身份识别不完整(例如,用日期代替标识号或个位数)。因此,最后的样本由6376名成年外科或心胸ICU患者的记录组成。平均年龄54(SD,19)岁。样本包括2403名女性(37.7%)和3924名男性(61.5%);49名患者(0.8%)缺少性别数据。多数样本为白人(n=4838,75.9%)。平均住院时间为10天(SD,12天;范围1-229天)。

预测因素和结果变量:

在257名患者(4.0%)中发生了2期或更高分期的压力性损伤。1期及以上压力性损伤516例(8.1%),其中259例为1期损伤,257例为2期或2期以上损伤。表1和表2列出了预测器变量的频率数据。

图1.1期压力性损伤随机森林(PI1RF)分类器的接收器工作特性曲线(测试数据)

图2 .1期或更严重程度压力性损伤的变量重要性。缩写:ASA评分,美国麻醉医师协会身体状况分类系统;BMI,体重指数(以体重(千克)除以身高(米)平方计算);CAM,混淆评估法;SpO2,脉搏血氧饱和度

预测模型:1期及更严重程度的压力性损伤

我们开发了一个随机森林来预测培训数据集中重症监护患者中1期和更严重程度压力性损伤的发展,然后将该模型应用于测试数据集。我们使用测试数据集来拟合ROC曲线。曲线下面积为0.79(图1)。图2显示了每个变量精确度的平均值下降;尽管根据精确度的平均值下降,某些变量明显比其他变量更重要,但所有变量都包括在模型中并进行了评估。通过去除预测变量和结果变量之间的关联并确定由此产生的误差增加来测量精度的平均值降低。精确度的平均值降低并不描述离散值,因此我们也构建了可视化代表来评估方向性。

图3. 2期压力性损伤随机森林(PI2RF)分类器的接收器操作特性曲线(测试数据)

图4.2期或更严重程度压力性损伤的变量重要性。缩写:ASA评分,美国麻醉医师协会身体状况分类系统;BMI,体重指数(以体重(千克)除以身高(米)平方计算);CAM,混淆评估法;SpO2,脉搏血氧饱和度

预测模型:2期及更严重程度的压力性损伤

接下来,我们对2期及更严重程度的压力性损伤重复随机森林分析。我们使用测试数据集来拟合ROC曲线。曲线下面积为0.79(图3)。图4显示了每个变量在精确度方面的平均值降低。

局限性:

我们无法访问EHRs中可能对压力性损伤发展很重要的一些变量。具体地说,我们无法获得护理皮肤评估(一般皮肤状况,水肿,水分)和治疗相关数据(表面和重新定位时间表)。虽然我们使用我们的测试(保持)数据集来测试我们的模型,但仍然需要使用无关的临床样本进行验证,例如来自不同医院系统的患者的数据。当该模型与不同的临床样本一起使用时,由于与人群相关的差异,很可能需要校准(例如,我们一级创伤中心的患者通常比非创伤中心外科重症监护病房的患者更年轻)。

讨论:

据我们所知,我们的研究是唯一一项使用机器学习来预测危重患者中压力性损伤发展的研究。我们应用了随机森林技术,这是对大数据集的特别有效的使用,因为引导复制用于训练每个分类器。随机森林也是有优势的,因为它在处理数据缺失值时是强大的,这是从EHRs获得的临床数据中的常见问题。此外,随机森林相对不受变量之间中等相关性的影响,一个重要的特征是临床变量之间的相关性在健康研究中很常见,而切除相关变量会导致数据破坏,从而产生偏倚。

验证我们模型性能的一种方法,将我们的结果与Braden量表评分进行对比。Braden量表是北美最常用的预测压力性损伤风险的工具,并通过7个类别测量压力性损伤的累积风险:感官感知、活动度、移动能力、潮湿度、营养摄入和摩擦力/剪切力。总分范围从9(非常高的风险)到23(非常低的风险)。我们的模型的相对较好的表现(ROC曲线下的面积=0.79对Braden Scale22的0.68)表明该模型将是区分重症监护患者的一种有用的方式,以便应用由于成本原因对每个患者都不可行的预防措施,比如专科床。

根据1期和更严重程度压力性损伤的准确性的平均值下降,被认为最重要的5个变量按降序排列为体重指数(以公斤为单位除以身高的平方)、血红蛋白水平、肌酐水平、手术所需时间和年龄。对于2期和更严重程度压力性损伤,被认为最重要的5个变量是身体质量指数,手术所需的时间,肌酐水平,血红蛋白水平和年龄。通过从分析中删除一个变量,然后评估模型性能的降低来计算精度的平均值降低,因此它反映了变量之间的复杂关系,而不是任何单个变量的直接结果。即使如此,我们的结果也是有意义的,特别是与手术所需的时间有关,因为手术时间还没有被充分地研究为重症监护病人中压力性损伤风险的潜在变量。

根据精确度的平均值下降被认为不重要的变量也是有信息的。从理论上讲,灌注是发生压力性损伤的关键概念,因为如果没有富氧血液的输送,皮肤极易受到损伤。在我们的分析中,与灌注相关的变量,包括血管加压素输注,氧合和低血压,根据准确性的平均值下降并不被确定为重要的,尽管这些变量在其他研究中是重要的风险因素。然而,我们使用单一测量方法:可能会通过使用纵向研究更好地描述与灌注相关的变量,这将表明不稳定血流动力学状态的动态影响。未来的研究人员可能会考虑生存随机森林方法,这将考虑到与灌注相关的重复测量。

我们的模型对于1期和更严重程度压力性损伤的结果变量以及2期和更严重程度压力性损伤的结果变量的表现几乎相同,并且两个模型在每个结果的平均精确度降低方面具有相似的变量。虽然一些研究从分析中排除了1期压力性损伤,但我们的发现支持1期压力损伤的临床相关性,因为在预测变量方面有相似的病因。

结论

我们使用机器学习,随机森林方法开发了一个模型来预测重症监护患者的压力性损伤风险。我们的模型依赖于EHRs中现成的信息,因此不需要临床医生将数据输入到工具中,如Braden量表。下一步将使用具有独立样本的模型。在这一点上,可能需要校准以优化特异性,以便该模型可以用于识别那些从干预措施中获益最多的患者,如专科床或连续床边压力分布,因为这些干预措施在经济上并不适用于每个患者。最后,我们发现手术所需时间是分析中的一个重要变量,值得进一步研究。

               (济宁市中西医结合医院 孔令昊)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
血流动力学监测的的移动设备及ICU人工智能
预测模型第6期 | 临床预测模型的建立与验证
临床研究的新风口——利用机器学习方法建立和验证预测模型 | 疯狂统计学2.0
机器学习:在SAS中运行随机森林
Theano深度学习入门
随机森林之特征选择
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服