你只会“先单后多”吗？如何筛选自变量建立多因素回归模型

如何科学地构建回归模型系列

SPSS教程39 如何筛选自变量建立多因素回归模型

回归分析是医学研究最重要的手段，其中目的是探讨多因素情况下，各个因素的独立效应。那么，困惑诸多分析者的问题是，无论是医院的电子病历、还是调查研究，均涉及到几十个甚至上百个研究因素（我们称之为自变量），如何筛选构建一个多因素回归模型呢？

筛选自变量，最简单的方式、也最常见的方式是“先单因素后多因素法”，即先开展单因素回归，筛选出P值较小者一起纳入多因素回归模型。这种方法，郑老师上课也推荐给非统计学专业的医学生，不是说它是最好的方法，而是它最简单粗暴、最容易上手。

不过，我这一系列是想把如何构建回归模型讲透，就不得不告诉大家，回归建模时，还存在着其它、且更主流的方法。

一、为什么要筛选变量构建回归模型

比如，现在研究要评价结直肠癌患者生存的影响因素（后期来构建预测模型），与患者有关的因素包括患者的基本情况、患者病情、患者入院治疗、用药的各种特征、出院后行为、饮食、以及就诊特征，可能各因素都会影响生存结局。

生存结局因因素应该可以构建COX回归模型。构建COX回归模型时，是要同时把所有自变量（也就是原因变量）纳入回归方程吗？

当然不能，理由如下：

（1）这些因素作为自变量放在一起，各个变量的复杂的关系，比如共线性问题，比如存在着中间变量，可能会导致模型构建失败。

（2）任何一个回归模型，往往基于有限样本量构建。样本量和纳入模型自变量数量息息相关，太多变量而样本量不足时，同样模型构建失败。因此，回归分析一般对样本量有要求。

（3）回归分析探讨影响因素，后期是为了构建预测模型，自变量个数也不能太多。为什么，预测模型是为了后期预测患者结局，需要采集模型所有的自变量的指标值，测定指标需要成本，自变量个数越多，则预测成本越高。

因此，必须筛选为数不多、合适的变量进入回归模型。总的来说，我用一个形容词来说回归模型构建的理念：“大道至简”。模型不要太复杂！

二、如何筛选自变量

筛选自变量的方式，估计很多做过回归分析的比较熟悉。首先单因素回归，然后P值<0.05的放入模型中，或者在此基础上，采用逐步回归法筛选自变量。这个99%懂回归分析人士的选择，本人以往接受的教育也如此。

但是现在告诉你们，这种方法已经不是主流的方法了！

《欧洲流行病学》杂志把筛选自变量的方法分为两类，一类是理论驱动方法，另外一类是数据驱动方法，先单因素再多因素或者逐步回归法是数据驱动的一类方法，但不是其中的最主流的方法。

具体来说，现在常见的筛选自变量方法有四种：

“Among those, 146 studies (50%) reported using prior knowledge or causal graphs for selecting variables, 34 (12%) used change in effect estimate methods, 26 (9%) used stepwise approaches, 16 (5%) employed univariate analyses, 5 (2%) used various other methods and 107 (37%) did not provide sufficient details to allow classification (more than one method could be employed in a single article)”

1）首选方法，是因果关系网络方法，更多的写法是有向无环图（Directed Acyclic Graph，DAG）方法，也就是理论驱动的方法。根据变量与变量的因果关系筛选进入回归模型的自变量。如果理论上不存在因果关系? 别进来！

2）其次是，效应改变法原理，这才是数据驱动的首选方法，自变量筛选中，根据自变量对研究结局影响是否足够大，来筛选自变量。比如当一个变量纳入回归模型后，对重要变量效应值的影响不到10%，那么就认为是多余，删掉！

3）排在第三的是逐步回归法，逐步回归可以处理多重共线性，也是不错的。

4） 第四才是先单因素后多因素的方法。

我们学习回归建模时，往往很多人建议，第三、第四结合起来一起使用吧？其实是没有必要的，这是因为逐步回归法就隐含着先单单因素后多因素的思想，其次，先单后多的方法，已经淘汰了大部分无效的变量，而在此技术上开展逐步回归法，可能伤害了更多具有价值的变量。所以，必须谨慎使用逐步回归法。

三、我的建议：“严进严纳”

综合四大自变量筛选的方法，我认为可以采用"严进严纳" 的理念进行自变量筛选。

严进严纳的方法基本理念是，即在纳入自变量的时候需要严格纳入，在排除自变量的时候，没有多大意义的别放在最终模型中来。其中严进采用理论驱动法，严纳采用数据驱动法。

在严进严纳的基础上，回归分析必须根据研究目的选择合适的自变量的筛选方法。

回归分析主要有哪些研究目的呢？三个：

探讨影响因素

控制偏倚

预测与分类

（1）在探讨影响因素时，首先（1）推荐基于DAG的方法，可筛选合适的自变量，同时建立多个回归分析模型，来研究影响因素；或者（2）可以直接采用先单后多的方法开展分析，若存在着较为严重的共线性，可结合逐步回归方法。

（2）在分析暴露因素与结局关系、需要控制混杂时，推荐采用DAG+效应改变法，可以考虑采用DAG+先单后多的方法；不建议采用逐步回归的方法进行，以免在回归分析删去暴露因素（哪怕没有统计学意义，暴露因素也必须呆在回归分析模型中）。

（3）在开展预测与分类时，则重点考虑逐步回归方法。

总的来说，回归建模推荐的自变量筛选思路是在DAG模型指导下开展“严进严纳”分析，除了预测与分类，不太推荐逐步回归法开展分析。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。