打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据挖掘专题 | TCGA数据下载及整理概述

在对 TCGA数据挖掘如何入门?有一定的了解之后,在进行数据分析之前,第一步当然是TCGA数据的下载和整理,在前面几期数据挖掘专题中,我们着重并详细的描述了4种不同的TCGA数据下载方法:

1、官网:

        TCGA表达数据下载(一)

        TCGA表达数据下载(二)

        一文读懂TCGA数据整理  【官网下载需要编程整理】

        TCGA数据下载有陷阱?【官网下载推荐GDC Legacy Archive

2、TCGAbiolinks:

        TCGA数据下载神器-TCGABiolinks

3、Firehose:

       GDAC Firehose下载 TCGA 数据

4、Xena:

        UCSC Xena下载 TCGA 数据

在介绍上示4种数据方法时,我们是以miRNA表达数据为例展开的,而实际对于其他例如mRNA、甲基化、SNP、临床信息等数据,都可以参照此过程进行,只不过在使用中需要对实际选项和参数进行调整。


对于这四种方法,官网和TCGAbiolinks可归为一类,因为都是可以下载TCGA数据库本身的数据,但是由于每个样本是一个独立的文件,故需要做整理,而Firehose则是对TCGA数据的初步整理,Xena则做了更进一步的数据处理工作,以下表为例,4种方法可得到的A1BG基因在COAD患者中的mRNA数据:

TCGA官网/TCGAbiolinks下载的mRNA表达数据包含read_count值和RSEM值;

Firehose下载的mRNA表达数据包含read_count值和RSEM值,与TCGA官网数据一致,值相同;

Xena下载的mRNA表达数据只有log2(RSEM+1),无read_count值。


结合 TCGA临床数据下载,简单总结如下:

细节来说:

1、官网下载方式数据全面,且实时更新,但是点击操作及数据整理起来很麻烦;

2、TCGAbiolinks,基于官方API可下载最新数据,需要R基础,表达数据易得,但临床信息需进一步整理;

3、Firehose更新相对最慢,表达数据已经整理好,但是临床信息易用性不强;

4、Xena整理的最人性化,但是无read_count值,生存信息非最新,无用药数据;


建议:

1、Xena相对来说最易用;

2、如果你想用最新最全的数据,可以用TCGAbiolinks下载表达数据,如果有编程基础,临床数据还是自己整理吧!


当然,可以下载TCGA的方法远不止上示4种,你可能会说cbioportal,但这个工具在小编看来,更适用于分析而不是数据下载,而其他多如牛毛的R包,例如TCGA2STAT、RTCGA、RTCGAToolbox...,也只不过是基于Firehose数据的引申版!


当然无论用哪种方法,都没有绝对的最优,看你用哪个最顺手咯~


下面是解答之前疑问时间:

1、更正一个 TCGABiolinks 中的脚本

library(stringr)    # 更正前是 library(strings


2、同时,在近期测试TCGAbiolinks下载mRNA数据的时候也发现了一些小陷阱,小编把代码粘上,以下载COAD患者的原始count数据为例,供大家参考:

query = GDCquery(project = 'TCGA-COAD', legacy = TRUE, experimental.strategy = 'RNA-Seq', data.category = 'Gene expression', data.type = 'Gene expression quantification', platform = 'Illumina HiSeq', file.type = 'results')  

GDCdownload(query)

dataAssy = GDCprepare(query, summarizedExperiment = F)

dataAssy = dataAssy[grepl('^[A-Z|a-z]', rownames(dataAssy)),]

rownames(dataAssy) = gsub('SLC35E2\\|728661', 'SLC35E2B', rownames(dataAssy))

rownames(dataAssy) = gsub('\\|.*', '', rownames(dataAssy), perl = T)

countdata = dataAssy[,grepl('raw_count', colnames(dataAssy))]

colnames(countdata) = str_match(colnames(countdata), '(TCGA-[^-]*-[^-]*-[^-]*)')[,2]

countdataout = cbind(rownames(countdata), countdata)

colnames(countdataout)[1] = 'Symbol'

write.table(countdataout, paste(cancerpath, 'mRNA_readcount_data.txt', sep = '/'), row.names = F, sep = '\t', quote = F)


3、关于Xena下载临床信息,从这里下:


4、如果你还有什么疑问的话...

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
TCGA-mRNA数据下载
我们不一样——不同TCGA门户网站的HNSC的临床数据记录不一样
TCGA数据库又㕛叒叕更新了(文末免费送书)
数据挖掘:是时候更新一下TCGA的数据了
数据挖掘专题 | UCSC Xena下载 TCGA 数据
TCGA数据挖掘 | Xena - TCGA数据下载
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服