1.我们要感谢的就是生信
这是“感谢ta”系列推文的第三篇,今天讲的是CRN数据库。
首先,什么是生信(生物信息学)?我觉得这个问题的答案应该是因人而异的。对于那些生信专业的人来说,生信是他们的专业,是他们未来要从事的行业;对于一般的科学研究者来说,生信是科学研究的小帮手;而对于部分人来说,生信是毕业,找工作或者晋升职称的利器。根据对生信不同的定义,那么,不同的人做生信研究的目的也就会有所不同:有的人从事生信研究是为了开发相应的工具和数据库,整合当前的大数据,推动行业的发展;有的人从事生信研究是为了帮助自己的实验研究,验证自己当前的实验结果;有的人从事生信研究是为了发表文章和晋升职称。总之,学一学生信对自己不会有坏处。(此篇推文主要针对第二类和第三类人,第一类的大神,我只能跪拜,然后转身离开~~~)
那么,问题来了,我不会代码!想从事生信研究和发表生信SCI文章就一定需要学习R语言和perl语句吗?我的答案是:不一定。你要发表高分文章,也许真的要脚踏实地地学R语言和perl语句;但是,如果你只是想发表3分文章,我的答案肯定是NO!
其实这很好理解,生信研究的用途是什么?----通常是帮助我们找到差异分子,然后通过一步步分析和凝炼,浓缩到几个研究可能性最高的分子(例如:gene,miRNA,circRNA,lncRNA等)。
为了实现这个分析目标,完全不需要学习R语言和perl语句,完全不需要敲代码就可以实现。你想问为什么???因为有前面所说的第一类的生信研究者,他们开发了一些工具和在线网站,而我们这些平民通过点击鼠标就可以实现这些分析,包括差异分析、共表达分析、生存预后分析、相关性分析等等,这里只想对开发这些工具和免费在线网站的工作者们说:‘谢谢你们’。
2.生信分析数据库介绍
2.1. Oncomine数据库
2.2. GEPIA数据库
2.3. CRN数据库
2.3.1. CRN数据库介绍
CRN数据库,全称CancerRNA-Seq Nexus,是一个由南加利福尼亚大学和国立中兴大学联合开发的可以直接分析肿瘤转录组数据的网站。网站中的数据来源包括GEO数据库以及TCGA数据库等。下面,我来带大家学习下这个数据库。
数据库网址:http://syslab4.nchu.edu.tw/. 进入这个数据库网页后,我们可以发现它收录了包括肝癌、乳腺癌、肺癌和胃癌等在内的包括20多种的癌症。
我们先来看一下这个数据库有什么功能?
如上图所示,这个数据库可以直接分析得到差异编码基因(DE coding transcripts)、差异长非编码RNA(DE lncRNAs)、mRNA-lncRNA共表达网络。此外,这个数据库还提供直接通过检索基因或者lncRNA得到其表达情况。
2.3.2. CRN数据库操作简介
通过上述的介绍,相信大家对CRN数据库以及其功能有了一定的了解。接下来,我来简单介绍下应该如何在CRN数据库中做分析。想要更加详细地了解分析方法和原理,可以参考此文献:CancerRNA-Seq Nexus: a database of phenotype-specific transcriptome profiling incancer cells. Nucleic Acids Research, 2016.
整个分析只需要3步就可完成,简单粗暴。
第一步:在上图的框1中选择想要分析的癌症小组;
第二步:在上图的框2中选择想要分析的配对亚组;
第三步:在上图框3中选择想要呈现的分析结果,包括差异编码基因、差异长非编码RNA、mRNA-lncRNA共表达网络等。
下面我以TCGA中IV期膀胱癌和I期膀胱癌做分析为例子,带大家走一遍分析流程。如上所述,先选好框1中的TCGA BLCA,然后框2中的Stage IV vs Stage I,如下图。
选好之后,网页右侧会出现下图。图中上方的展示区域代表的是所选癌症小组的一些基本信息,包括分期,分级以及转移情况等。我们所选的TCGA膀胱癌在这里只有分期以及对应的样品数。图中下方就是我们主要的分析结果展示区域,如前所述,提供了4种分析模式。我们可以根据P值以及上下调对最终的结果做调整,也可以把结果下载,支持PDF以及CSV两种格式。
(1) DEcoding transcriptions:在这里,我们的结果如下。
(2) DE lncRNAs:在这里,我们的结果如下。
(3) mRNA-lncRNAcoexpression network:根据输入的gene以及lncRNA,我们还可以导出mRNA-lncRNA共表达网络,如下:
(4) Search:我们还可以查找自己感兴趣的基因在各组中的表达情况,这里以TP53为例,结果如下:
2.3.3. CRN数据库学习心得
我们一直在尝试着如何在不懂生信的前提下去挖掘别人的数据。但是,在这过程就会面临很多难题,两个比较关键的问题是:第一,我们不懂生信,如何才能在不懂生信前提下做分析;第二,别人的数据如何快速找到,或者说找到之后如何快速地建立有效的分组。而今天我们所讲的CRN数据库就能很轻松地解决这两个问题,不需要懂生信,只要会点击鼠标;不需要自己找芯片或测序数据,也不需要再做背景消除、数据标准化等。大家可以好好去用一下这个数据库,里面有很多很具体的分组。根据这些分组,我们就可以得到很多差异基因。拿到这些差异基因后,我们就可以做后续的分析。
其他数据库和工具介绍,待续。。。。。。。。。。。。。。
除了CRN数据库外,类似好用的工具和数据库有很多,还有神秘的SangerBox可视化软件。掌握和灵活运用这些工具,可以极大的提升科研效率,更是零成本SCI发表利器。
联系客服