打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
临床预测模型中预测变量的选择
userphoto

2022.09.06 上海

关注

本文核心观点来自Ewout W. Steyerberg的《Clinical Prediction Models: A Practical Approach to Development, Validation, and UpdatingSecond Edition

建立预测模型的一个挑战是与最终建立模型的变量相比,我们有太多的候选变量。确定模型的预测变量是建立临床预测模型中最为困难的一步,尤其是在样本量不大的情况下更是很难得到一个稳定的结果。
为什么不用所有的候选变量进行建模,而是需要对模型进行精简?
哲学上有一个“简单有效原理”,即奥卡姆剃刀(Occam's Razor),“如无必要,勿增实体”(Entities should not be multiplied unnecessarily),切勿浪费较多东西去做那些用较少的东西同样可以做好事情。如果同一个问题有多个理论可以解决,每个理论都可以作出同样准确的预测,那么假设最少的就是最好的
在临床实践中使用大量的预测变量进行建模是不切实际的的一种做法。因为在模型建立后,模型中的某个预测变量可能在未来进行预测的患者身上不可获取,或者收集费用极高。有些变量对结局影响非常小或者有不合情理的效应,将其包含在模型中也是有疑问的。模型简化也是处理变量间共线性的一种方式,比如收缩压SBP和舒张压DBP具有极高的相关性,同时出现在同一个模型中会导致共线性,我们可以将这两个变量合并成平均动脉压MBP=SBP+2×DBP)/3,当然专业判断非常重要,比如专业上认为收缩压对心血管风险的相关性更强,我们可以在模型中只保留收缩压。
简化模型就是删除无统计学意义的候选变量吗?
许多人可能会认为,统计上不显著的变量不应该作为模型中的预测因子,因为这些变量对结局的影响尚未得到证实。我们在读文献的时候也会发现大部分发表的文献也是这样做的。但这实际上是混淆了假设检验与参数估计两个基本的统计概念。预测是参数估计的问题,因此预测模型中包含一个P>0.05的变量并不是不合理的,尤其是在样本量较小、预测变量不常见(如休克)、以前研究或者专业判断对结局有明确的影响的时候。其次,证据不足不等于不存在证据Absence of evidence is not evidence of an absence),统计学上不显著并不意味着有证据表明这个预测变量对结局的影响为零。最后,模型中真实噪声变量的仿真研究显示,噪声变量对模型预测能力的降低是有限的

预测变量确定了,模型也就确定了,确定最终的建模变量并不是一件容易的事。建立临床预测模型时,预测变量的筛选方法不是固定的,通常也不止采用一种方法,甚至在数据处理的阶段就应该开始考虑。

1.建模前限制候选变量的数量
1)基于专业知识来限制候选变量的数量。从统计建模的角度看,完全预先确定预测变量是最为理想的,也就是变量的选择不通过样本数据,而是利用专业知识基于文献结合专家咨询来对变量进行预判。
2)通过系统综述甚至是Meta分析来确定潜在的候选变量。
3)数据的分布也是在变量选择中的一个重要考虑。一个存在大量缺失值的变量我们一般不会将其作为潜在的候选变量,尤其是该变量并不是太重要或者在模型应用时变量值难以获得的时候。对分布较窄的变量尤其是预期该变量不重要的时候我们一般也不会将其作为候选变量。如果变量偏态严重但对模型非常重要时,一般有三种处理方式:(1)将该变量纳入模型,因为它对模型很重要;(2)将该变量从模型中删除,因为其效应不能被稳定地估计,但模型会缺少这个潜在的重要变量,只考虑了纳入的变量;(3)删除发生该变量结局的人群,如休克发生率不高但对结局有重大影响,我们可以去除发生休克的患者,使该模型仅适用于无休克的患者。这里面隐含着一个假设,即休克和其他变量存在交互作用。
4)相似变量的组合。组合变量常依赖于专业的判断,常用于多症状疾病和合并症。比如动脉粥样硬化,这是一种具有多个症状的系统性疾病,这些症状就可以被认为是反映“存在动脉粥样硬化疾病”的潜在概念,我们可以根据是否存在任何一个症状将“是否存在动脉粥样硬化疾病”编码为01,也可以根据症状的数量得到一个简单的非加权和,每个症状根据是否存编码为10,疾病是这些症状的直接加和。另外对合并症也可以用类似的处理方式。当然你的样本量足够大,每个合并症都作为一个变量也不是不可以。简单的数据求和是假设每个症状/合并症变量对结局的影响权重是相等的。如果专业上权重确实不同,则需要加权处理。另外,首先对候选因素进行主成分降维分析也是合并变量的一种方法,但这种方法产生的合并变量的解释性并不好。
5在不存在强的交互作用情况下,直接使用主效应不仅可以增加模型的稳定性,也可以减少要分析的变量。
2.单因素分析初步筛选预测因素
这是目前文献中惯用的套路,先用单因素初步筛选出有潜力的预测变量,筛选标准可以宽松一些,比如P<0.1,0.2,0.5,然后将筛得的变量进行多因素分析。
3.逐步回归
逐步回归可能是目前医学应用中最为广泛的方法,这些自动化的方法旨在在模型中包含最重要的预测变量。显著性由选择标准来决定,线性回归中一般采用方差分析,logisticCox回归中采用似然比(likelihood ratioLR), Wald, 或者得分统计量(score statistic)。逐步回归又可以分为向前(Forward selection)、向后(Backward selection)、向前向后法(Forward and backward selection)。向前选择法是从不包含任何预测变量的模型开始,依次纳入最重要的候选变量。向后选择法则是从包括所有候选预测变量的完整模型开始,从中依次删除最不重要变量。向前向后法则是结合了向前法和向后法,有一个迭代选择的过程。采用逐步回归建立预测模型时通常首先考虑向后法。这是因为向后法会考虑完整模型,可以同时判断所有候选变量的影响,其次相关的变量在向后法中也可能保留在模型中,但向前法不会。逐步回归中,预测因素纳入和排除的停止规则是一个中心问题。显著水平、AICBIC是常用的指标。Mallows Cp常用于全子集回归,可以看做是AIC的优化。通常来说以BIC为标准会获得比AIC更精简的模型。一般建议使用AIC,采用更高的P值在选择效应较弱的变量上效能更高,在小样本数据中的预测效果也更佳。逐步回归的操作可参见《多重线性回归分析》《因变量二分类资料的logistic回归》《逐步回归&最优子集》
4.全子集回归(all possible subsets regression
从所有可能的变量组合中寻找最优子集,全子集回归可以看做是逐步回归的一种扩展。可参见《全子集回归 | 最优子集筛选》《逐步回归&最优子集》
4. LASSO回归与弹性网络
Lasso回归的基本思想我们已在《Lasso回归概述与JMP示例》一文中做过介绍,R操作可参见二分类结局资料的lasso回归与列线图绘制,此不赘述。
随着机器学习的兴起,很多较现代的统计方法也可以用于变量的选择,比如自助法(Bootstrapping)、Bagging and Boosting、随机森林等。在机器学习中有些术语跟传统统计的叫法不太一样,比如变量选择一般翻译为特征选择(feature selection)或属性选择(attribute selection),但背后的算法逻辑是一致的。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
各类统计方法R语言实现(八)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言
使用分类模型,如何精选指标?
数据挖掘入门指南!!!
深入浅出机器学习的基本原理与基础概念
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服