打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
你只会“先单后多”吗? 如何筛选自变量建立多因素回归模型
如何科学地构建回归模型系列
1.一道饕餮大餐来了!手把手教你如何科学地构建回归模型!
2.一文汇总三大回归的基本应用条件、诊断与处理方法
3.回归分析时何时设置哑变量?如何设置?
4.当回归分析模型遇到连续型自变量,我该怎么办?
5.吃巧克力预防高血压?一文学会P trend计算,掌握趋势性分析

SPSS教程39 如何筛选自变量建立多因素回归模型

回归分析是医学研究最重要的手段,其中目的是探讨多因素情况下,各个因素的独立效应。那么,困惑诸多分析者的问题是,无论是医院的电子病历、还是调查研究,均涉及到几十个甚至上百个研究因素(我们称之为自变量),如何筛选构建一个多因素回归模型呢?

筛选自变量,最简单的方式、也最常见的方式是“先单因素后多因素法”,即先开展单因素回归,筛选出P值较小者一起纳入多因素回归模型。这种方法,郑老师上课也推荐给非统计学专业的医学生,不是说它是最好的方法,而是它最简单粗暴、最容易上手。

不过,我这一系列是想把如何构建回归模型讲透,就不得不告诉大家,回归建模时,还存在着其它、且更主流的方法。

一、为什么要筛选变量构建回归模型


比如,现在研究要评价结直肠癌患者生存的影响因素(后期来构建预测模型),与患者有关的因素包括患者的基本情况、患者病情、患者入院治疗、用药的各种特征、出院后行为、饮食、以及就诊特征,可能各因素都会影响生存结局。

生存结局因因素应该可以构建COX回归模型。构建COX回归模型时,是要同时把所有自变量(也就是原因变量)纳入回归方程吗?

当然不能,理由如下:

(1)这些因素作为自变量放在一起,各个变量的复杂的关系,比如共线性问题,比如存在着中间变量,可能会导致模型构建失败。

(2)任何一个回归模型,往往基于有限样本量构建。样本量和纳入模型自变量数量息息相关,太多变量而样本量不足时,同样模型构建失败。因此,回归分析一般对样本量有要求。

(3)回归分析探讨影响因素,后期是为了构建预测模型,自变量个数也不能太多。为什么,预测模型是为了后期预测患者结局,需要采集模型所有的自变量的指标值,测定指标需要成本,自变量个数越多,则预测成本越高。

因此,必须筛选为数不多、合适的变量进入回归模型。总的来说,我用一个形容词来说回归模型构建的理念:“大道至简”。模型不要太复杂!

二、如何筛选自变量


筛选自变量的方式,估计很多做过回归分析的比较熟悉。首先单因素回归,然后P<0.05的放入模型中,或者在此基础上,采用逐步回归法筛选自变量。这个99%懂回归分析人士的选择,本人以往接受的教育也如此。

但是现在告诉你们,这种方法已经不是主流的方法了!

《欧洲流行病学》杂志把筛选自变量的方法分为两类,一类是理论驱动方法,另外一类是数据驱动方法,先单因素再多因素或者逐步回归法是数据驱动的一类方法,但不是其中的最主流的方法。

具体来说,现在常见的筛选自变量方法有四种:

“Among those, 146 studies (50%) reported using prior knowledge or causal graphs for selecting variables, 34 (12%) used change in effect estimate methods, 26 (9%) used stepwise approaches, 16 (5%) employed univariate analyses, 5 (2%) used various other methods and 107 (37%) did not provide sufficient details to allow classification (more than one method could be employed in a single article)

1)首选方法,是因果关系网络方法,更多的写法是有向无环图(Directed Acyclic GraphDAG)方法,也就是理论驱动的方法。根据变量与变量的因果关系筛选进入回归模型的自变量。如果理论上不存在因果关系? 别进来!

2)其次是,效应改变法原理,这才是数据驱动的首选方法,自变量筛选中,根据自变量对研究结局影响是否足够大,来筛选自变量。比如当一个变量纳入回归模型后,对重要变量效应值的影响不到10%,那么就认为是多余,删掉!

3)排在第三的是逐步回归法,逐步回归可以处理多重共线性,也是不错的。

4) 第四才是先单因素后多因素的方法。

我们学习回归建模时,往往很多人建议,第三、第四结合起来一起使用吧?其实是没有必要的,这是因为逐步回归法就隐含着先单单因素后多因素的思想,其次,先单后多的方法,已经淘汰了大部分无效的变量,而在此技术上开展逐步回归法,可能伤害了更多具有价值的变量。所以,必须谨慎使用逐步回归法。

三、我的建议:“严进严纳”


综合四大自变量筛选的方法,我认为可以采用"严进严纳" 的理念进行自变量筛选。

严进严纳的方法基本理念是,即在纳入自变量的时候需要严格纳入,在排除自变量的时候,没有多大意义的别放在最终模型中来。其中严进采用理论驱动法,严纳采用数据驱动法。

在严进严纳的基础上,回归分析必须根据研究目的选择合适的自变量的筛选方法。

回归分析主要有哪些研究目的呢?三个:

探讨影响因素

控制偏倚

预测与分类

(1)在探讨影响因素时,首先1)推荐基于DAG的方法,可筛选合适的自变量,同时建立多个回归分析模型,来研究影响因素;或者(2)可以直接采用先单后多的方法开展分析,若存在着较为严重的共线性,可结合逐步回归方法。

(2)在分析暴露因素与结局关系、需要控制混杂时,推荐采用DAG+效应改变法,可以考虑采用DAG+先单后多的方法;不建议采用逐步回归的方法进行,以免在回归分析删去暴露因素(哪怕没有统计学意义,暴露因素也必须呆在回归分析模型中)。

(3)在开展预测与分类时,则重点考虑逐步回归方法。

总的来说,回归建模推荐的自变量筛选思路是在DAG模型指导下开展“严进严纳”分析,除了预测与分类,不太推荐逐步回归法开展分析。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
你认识它吗?--有向无环图(DAG):回归分析中自变量筛选的指导思想
数据分析方法汇总
那么多变量,我该选择哪些进入多因素分析呢?
「数据分析」十六种常用的数据分析方法分享
4种倾向性分析方法,你不想了解下吗?
国家开放大学2020会计专科经济预测题库与答案
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服