打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
缺失值多重插补后的堆叠加权分析:不太建议的分析策略
userphoto

2022.12.12 上海

关注
在上次笔记《多重插补后应该用哪一次的插补结果进行最终的数据分析》的最后提到了堆叠加权分析,没有想到会有这么多人咨询这个堆叠加权的操作。

多重插补及其后分析推荐的过程是:1)创建m个插补集;2)分析每个插补集;3)合并汇总m个结果R里的pool{mice}函数可以实现很多分析方法的汇总。堆叠加权其实并不是推荐的方法。所谓堆叠数据加权,是指将多个插补的数据集堆叠到单个数据集中,为每个记录分配固定权重1/m,然后直接对堆叠数据集进行加权分析。堆叠加权和将多重插补后每个数据集的结果进行平均一样,一般不建议使用,根本原因在于这种方法忽略了插补集之间的变异性,因此具有单一插补的所有缺点m个插补集的估计值(回归系数)的方差应包括两部分,一部分是m插补数据集组内方差的平均值,还有一部分是m个数据集之间的组间方差。很显然单一回归插补(不论是条件均值还是随机回归)、堆叠数据分析、插补集结果平均都忽略了组间方差,没有考虑插补集间的变异性。

当然如果你的分析目的在于点估计,在数据满足模型适用条件的前提下,堆叠数据的加权分析可以获得回归系数的无偏估计,常用于变量选择、模型预测。但要特别注意的是此时的检验统计量、置信区间、P值这些指标提供的结果可能是无效的。

不过既然有这么多人感兴趣,我们还是可以操作一下。

示例同《多重插补后应该用哪一次的插补结果进行最终的数据分析》

##载入数据

data(diabetes,package="VIM")

##多重插补的简单分析过程

library(mice)
set.seed(20221222)
impt<-mice(diabetes,m = 5,print = FALSE) #创建插补数据集,默认插补5
fit<-with(impt, glm(Outcome~Age+BMI+BloodPressure+Glucose+DiabetesPedigreeFunction+Insulin+SkinThickness+Pregnancies, family = binomial)) #分析每个插补个数据集
est<-pool(fit) #合并汇总分析
summary(est) 

以上是推荐的分析过程,具体解读可参见《多重插补后应该用哪一次的插补结果进行最终的数据分析》。如果采用堆叠数据加权分析,需要首先在mice()后提取插补的堆叠数据集,这一步complete()函数就可以轻松实现。

##创建堆叠数据集

stackedimpt<-complete(impt,"long")  #longstacked都是堆叠型数据格式,两者的区别在于stacked结果不显示插补次数和个案的所在行数

##数据加权

stackedimpt$wt<-1/5

##二分类logistic加权回归

lgrfit<-glm(Outcome~Age+BMI+BloodPressure+Glucose+DiabetesPedigreeFunction+Insulin+SkinThickness+Pregnancies, family = binomial,data=stackedimpt, weights=wt) #结果中可能会出现一个非整数的警告,不影响结果,如果纠结,可以将 family=quasibinomial
summary(lgrfit)

对比pool函数的合并结果,我们可以发现,堆叠数据加权分析的参数估计值同pool函数的合并结果差别不大,但堆叠加权分析的标准误相对偏小,这是因为堆叠加权分析没有考虑插补集之间的变异。

lmglmcph{rms}coxph{survival}glmnet{glmnet}等大量回归函数(线性、logisticcoxpoissonlasso…)都带有加权的参数(weights),可以直接使用。

【参考】
Flexible Imputation of Missing Data. Second Edition.
Clinical Prediction Models:A Practical Approach to Development, Validation, and Updating.
END
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
stata对包含协变量的模型进行缺失值多重插补分析
临床研究中处理缺失数据的多重插补法:潜力和陷阱
R语言︱缺失值处理之多重插补
自学R语言(十四)-tidyr包的学习
R数据分析:扫盲贴,什么是多重插补
临床大数据文献【6】|缺失值多重插补的高级方法介绍
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服