打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
为什么临床预测模型要做LASSO回归?何时做?





到底什么是LASSO,请看下面的推文

松哥白话LASSO,如果不懂,请放弃统计!

松哥聊聊落地层面的事情。

我们在建模时,可能存在两类问题:一是自变量太多,我们的样本量无法驾驭。二是,我们的自变量存在着很多相关性指标;

我们一般建模的常规建模策略“先单后多”,确实是一种行之有效的模型筛选方法,虽然目前也有一些诟病,但是目前预测模型类文章还是主流运用的方法。其对样本量不足有一定的抗性,毕竟经过单因素的筛选,多因素时,自变量数已经得到一定的缩减,此时,从样本量的角度,模型应该已经能够驾驭。

如果此时,多因素分析时,已经能够满足,10EPV的原则,那么样本量的问题基本就可以解决了。

但是当我们面临大量的自变量,比如基因数据,动则几百上千个自变量X,如果按照先单后多的策略,首先工作量巨大,另即使筛选后的自变量,也就是多因素PK的自变量,很可能样本量还是不能驾驭的。

那么此时,就体现出Lasso的优势了。

我们建模时,Lasso有两个用途,一是帮助我们进行单因素筛选,也就是利用Lasso帮助我们筛选变量,筛选出来后,继续用传统方法进行多因素PK;另一个就是,直接利用Lasso筛选后的模型作为最终的模型,进行后续的模型验证。

如下松哥演示了38个自变量,Lassologit的过程。下图可见模型遍历的过程,在不同惩罚系数Lambda的情况下,展现了各自变量进入模型的动态过程。

并且推荐了最小EBIC时的Lambda,下图红色框中,有*标记,也就是在这个模型有最小的EBIC。

也可以通过路径图,展现变量压缩的过程


那么,如果我就按照这个最小的EBIC去选择Lambda,然后去构建模型,那个模型是什么样子的呢?

如果您采用Stata的话,只要输入命令

lassologit,lic(ebic)

就可以得到最优的模型。

上图左边就是最优模型。在38个自变量中选择出来的12个自变量,中间红色框,就是Lassologit构建模型的系数。

然而,故事到此并未结束,为了验证lassologit结果的稳健性,往往我们还要进行交叉验证,也就是cvlassologit

上图就是交叉验证时,得到的交叉验证图,该图中红色是最小误差时ln(Lambda)所在的位置或取值,虚线为1se(1个标准误)的位置,通常我们发文章时,取的位置往往是1se,而不是lopt。

注意,lassologit也可以直接预测概率P,获得概率P值后,就可以进行后续的区分度、校准度和临床适用度的评价了。

也可以根据lassologit筛选出来的变量,再构建常规的logistic模型,然后预测概率P。甚至可以两种方法都做,然后对后续的两个P的临床表现进行评价。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
热门数据挖掘模型应用入门: LASSO回归 | 人人都是数据咖
预后建模绕不开的lasso cox回归
文献汇报||Lasso方法在肿瘤基因位点筛选中的应用
R语言笔记之线性回归及其衍生
高分生信SCI套路攻略!精选我最喜欢的3大套路!谁用谁高分!(附代码)
Lasso直接输出类别
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服