打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
当纯生信遇到计较的统计学家,是一种什么样的体验?

现在纯生信数据挖掘基本离不开构建模型,而构建模型往往会涉及样本量的问题,有人会问到底至少需要多少样本?有很多统计学教材就是建议满足以下条件:终点结局事件数目不少于纳入模型因素个数的10到15倍

以构建多因素Cox回归模型为例,例如你的模型纳入了8个基因,你数据的status为1(1:死亡,0:存活)的数目就不能少于8*10=80。你想想看,就status为1不少于80,那么总的样本量肯定远远不止这个数。现在的纯生信基本都是以TCGA和GEO为主,有些TCGA数据总的样本才100多,达到这个要求根本不可能,特别是GEO数据,大部分数据总样本就是100以内的,更不要说终点结局事件数目了

如果都是按照上面的标准执行的话,有很多很多纯生信根本就没有办法发表但是在实际的纯生信审稿中,遇到这样计较的审稿人的机会还是比较渺茫的。构建模型一般是样本越多越好,但是往往我们的物力和人力都是有限的,只能在有限的资源和条件下开展。

就好比测序一样,你目前只能收集到20个临床样本,也只有大概20个样本测序的经费预算,但是审稿人觉得20太少了,你应该测200个样本,你觉得能实现码?这样的实际情况还有很多,纯生信需要补实验、补自己测序数据就更加准确,补充大样本的验证更可信,只是经费等资源的问题而已。对于有一千几百万经费的大佬把全套分析做完都是很轻松的问题,但是对于一个没有任何经费的临床医生,可能连纯生信的版面费都给不起,这就是资源的差距

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
仇子龙:自闭症基因探秘,只为来自星星的你
统计学
16S测序结果解读—稀释性曲线和Rank Abundance 曲线
如何学习统计学,或我的学习之路——初学者写给初学者
深度学习研究综述
全基因组表达谱分析方法(DGE)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服