ceRNA网络已经不属于一个很新的内容了,pubMed中输入ceRNA and TCGA,大量的文章可以被检索出来,关键是影响因子也不低。随便几张功能富集的图加上lncRNA,miRNA和mRNA比对的表格,就能轻轻松松上4分以上。
身边有小伙伴也是私下跟我请教关于ceRNA网络构建的方法。说实话,我自己做过这个网络,心里知道这个网络可不是说想建就能建的,里面涉及的步骤和程序确实有点复杂和繁琐,包括lncRNA的提取,查找miRNA成熟体,数据库的比对,网络的构建和优化等等。所以,我自己也是会了这个方法以后也懒得去做,但是今天,我想给大家推荐一款R包--GDCRNATools,这个包真的是做到了下载,分析,构建网络和功能富集于一体。整个过程也简便了很多。
PS:这个包的开发者又是咱中国人,太了不起了!
1
2
这边的数据下载包括mRNA,miRNA和lncRNA,貌似是一句废话。但是这里得跟大家交代一下,大家在数据下载的时候既可以用这个包去下载,也可以用我们之前交给大家的方法,即gdc-client.exe去下载,甚至用第三方提供的数据都是可以的。我们这边为了演示的方法,直接使用其内置的数据集。
大家可以看到上述的代码也是一键完成了数据的标准化,非常简单。这边细心的朋友会发现,我们这边只是提取了miRNA数据和RNA数据。大家不妨看一下结果。下面这张是miRNA的表达矩阵,且行名已经是miRNA的成熟体的命名形式了。不像从官网中下载的miRNA的数据,并没有3p和5p的结构。
接下来这张图是Ensemble ID的表达矩阵。从这里我们会分别提取出mRNA和lncRNA的数据。
3
在这边我们需要将上述的结果稍搁置一会儿,得简单处理一下metadata这个文件。这个文件大家也不陌生,里面含有样本的信息、文件的名字,部分的临床信息等等。我们通过下面的代码,将一些重复的样本,非原发性和非实质性肿瘤进行滤过。但在我们这个数据集中,没有样本被过滤出去。
4
紧接着,我们开始做差异基因的分析,同时将差异的lncRNA和蛋白编码的mRNA提取出来。注意这边做差异的方法采用了limma包。最后生成的deALL,deLNC和dePC分别是所有的,lncRNA和mRNA的差异基因。
5
差异做完以后,就是关键的一步——数据库的比对。将目前数据库记载的lncRNA-miRNA,miRNA-mRNA之间的作用关系对找出来,然后用我们上述得到的差异lncRNA和mRNA进行比对,最终确定该数据集中的这些关系对。这边用来比对的数据库是starBase。具体的结果大家可以自行跑程序查看。
不过通过上述的代码,我发现这边貌似没有做miRNA表达矩阵的差异,这个是跟我之前读到的文献有所出入的。另外这边仅仅使用了一个数据库进行比对,而我们如果是自行去做ceRNA网络的时候,尤其比对是miRNA数据库的时候,我们往往会寻找多个数据库。因为这些数据库单个拿出来假阳性率特别高,所以需要多个数据库综合一起分析。不知道他内部的程序运行是不是考虑到了这些,至少在代码方面,我没有看出来。
6
其实到了这里,主要的分析已经做完了,最后一步就是可视化的过程,我们会用到cytoscape这个可视化工具。我们就通过下面的代码将结果进行输出。其中edge是关系对文件,node是属性文件,通过这两个文件就能实现网络的可视化过程。
以上就是我们ceRNA分析的全部过程,其实这个包还有其他功能,包括绘制火山图、功能富集、生存分析,这些都会在后面的推文中一一给大家进行介绍。
联系客服