打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
你的数据挖掘文章真的有人在看

居然有粉丝咨询我黑色素瘤和小耳畸形这两个疾病的关系,其实我蛮吃惊的,因为我一直分享的都是纯粹的数据处理技术,基本上不会涉及到疾病的认知层面,因为我确实没有医学背景,甚至也不会去谈论那些生信数据挖掘文章套路,因为感觉很low!

我就跟粉丝聊了一下,我这里先整理和细化一下这个咨询:

  • 粉丝她自己的父亲60岁患黑色素瘤,自己的女儿生下来就是小耳。
  • 现在自己的弟弟结婚,弟媳担心胚系突变的癌基因导致了癌症(黑色素瘤)和发育出问题(小耳畸形)

而他们之所以担心,是因为看到了一篇论文,里面提到了黑色素瘤和小耳畸形的联系。我看了看他们提到的论文,真的是很普通的一个数据挖掘文章:

全文就是去MGI数据库搜索跟疾病相关的基因,拿到了68个基因,列表如下:

所有的的分析都是针对于这68个基因,包括使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释。全文就是这些分析图表的罗列,其中一个KEGG数据库注释里面:

就是这个黑色素瘤的KEGG通路,让外行人看起来觉得是黑色素瘤和小耳畸形有联系,所以担惊受怕!

这些分析,我在:什么时候P值大于0.05也无所谓呢 讲解过,看起来这样的注释结果统计学非常显著,但其实是因为作者前面进行数据库搜索的时候,拿到的基因就是具有这个倾向性!

人类有2万个左右的编码蛋白的基因,但实际上被几百万生物学家研究过的就七八千个基因,能被疾病关联到的基因就更少了,你搜索拿到的基因本来就是有意义的居多啊!

数据挖掘文章价值几何

至少这个文章对疾病相关的68个基因使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释,然后罗列的各种图表在我看来是没有太多意义的,纯粹是为了分析而分析!

即使大量的分析结果的基因集是来源于差异分析,处理组合对照组,疾病组合对照组,只需要有分组,就可以使用芯片或者测序技术手段来看全局表达量,走差异分析流程,如果是蛋白质组或者代谢组也是类似的分析策略。基本上读一下表达芯片的公共数据库挖掘系列推文 就明白了;

但是这样的文章,在外行眼中看起来又的确是“高大上”,但本质上就是一些数据分析游戏,比如我在生信技能树多次分享过生存分析的细节;

其中看到多了,就不会在心里神话这些分析结果。

科普到底应该是走向何方

我本来是想驳斥这个文章得到的黑色素瘤和小耳畸形的联系,但是却无从下笔,亲爱的生信技能树粉丝们,你们大家有什么建议吗?

目前的情况是,外行人看到这样的中文科研论文就感觉是高大上,必须相信,假如读者具备英文阅读能力,看到了成千上万的肿瘤数据挖掘3~5分文章会不会奉为经典,误入歧途?他们外行人不可能知道99.99%的数据挖掘文章都是凑数啊,还以为是高深莫测的科学研究啊!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
数据挖掘,我们有秘密武器(下)
GEO、TCGA、Oncomine、GO富集分析、KEGG分析一网打尽~非CEL文件的处理视频已经更...
浅谈GSEA分析和KEGG富集分析的异同
RNA-seq中GO、KEGG结果图如何解读
Reactome——一款小清新的信号通路数据库
KEGG数据库,除了pathway你还知道哪些
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服