生信教程（一）实例展示如何使用TCGA数据库

相对于基础实验来说，生信分析已经越来越融入科研工作者的生活中，作为基础实验的验证和辅助手段，帮许多老师省下了很多工作，许多老师已经很熟练的在使用了生信分析这个当下，此次分享，主要是针对还没有熟练生信分析和初学者的简易教程，废话不多说，小编就直接进入今天的主题：

TCGA 全称为The Cancer GenomeAtlas Program ，即癌症基因图谱计划，是05 年时由美国发起一项用来研究癌症中基因组变化的计划。相较于GEO 数据库，基因数据更加规整，因此更具可信度，用来发文章影响因子也更高。

废话不多说，我们以结肠腺癌为例，来实战一番吧。

TCGA入口：

https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

点击上方链接就可以进入这个页面啦（要用Google 浏览器，或者搜狗浏览器，亲测360 浏览器只能打开TCGA 主页面却没有办法进入数据库的页面。）：

我们所需要用到的基因数据要进入Access TCGA Data才能获取到哦，这样我们就顺利进入TCGA的基因组数据共享数据门户。

进入上面这个界面后，就可以正式开始啦。

例如，我们以结肠腺癌为例，有两种方式进入结肠腺癌的数据库。

第一种方法：直接在搜索框中搜索Colon adenocarcinoma ，按下回车键就可以看到下图：

黑色的部分告诉我们这一条数据的数据类型：

TCGA-COAD 就意味着是TCGA 工程里一个项目，项目名是COAD 。

为了更加方便大家查询TCGA数据库，我将TCGA下的所有项目列了出来：

简称	全称	中文	备注
BRCA	breast invasive carcinoma	乳腺浸润癌
PAAD	pancreatic adenocarcinoma	胰腺癌
COAD	colon adenocarcinoma	大肠腺癌
ESCA	esophageal adenocarcinoma	食管腺癌
BLCA	bladder urothelial carcinoma	膀胱尿路上皮癌
STAD	stomach adenocarcinoma	胃腺癌
CHOL	cholangiocarcinoma	胆管癌
CESC	cervical squamous cell carcinoma and endocervical adenocarcinoma	宫颈鳞癌与宫颈腺癌
LUAD	lung adenocarcinoma	肺腺癌
LIHC	liver hepatocellular carcinoma	肝细胞癌
ACC	adrenocortical carcinoma	肾上腺皮质癌	只有01样本
KICH	kidney chromophobe	肾嫌色细胞癌
READ	rectum adenocarcinoma	直肠腺癌
PRAD	prostate adenocarcinoma	前列腺癌
LUSC	lung squamous cell carcinoma	肺鳞癌
GBM	glioblastoma multiforme	多形性胶质母细胞瘤	miRNA数据中只有正常样本
HNSC	head and neck squamous cell carcinoma	头颈部鳞状细胞癌
KIRP	kidney renal papillary cell carcinoma	肾乳头状细胞癌
THCA	thymoma carcinoma	胸腺瘤癌
DLBC	lymphoid neoplasm diffuse large B-cell lymphoma	淋巴肿瘤弥漫性大B细胞淋巴瘤
LGG	brain lower grade glioma	脑低级别胶质瘤
OV	ovarian serous cystadenocarcinoma	卵巢浆液性囊腺癌
UCEC	uterine corpus endometrial carcinoma	子宫体子宫内膜癌
SKCM	skin cutaneous melanoma	皮肤黑色素瘤
KIRC	kidney renal clear cell carcinoma	肾透明细胞癌
THYM	thymoma	胸腺瘤	正常样本只有两个
PCPG	pheochromocytoma and paraganglioma	嗜铬细胞瘤和副神经节瘤	正常样本只有三个
SARC	sarcoma	肉瘤	miRNA数据中没有正常样本
LAML	acute myeloid leukemia	急性髓性白血病	没有正常样本
TGCT	testicular germ cell tumors	睾丸生殖细胞瘤	没有正常样本
MESO	mesothelioma	间皮瘤	没有正常样本
UVM	uveal melanoma	葡萄膜黑色素瘤	没有正常样本
UCS	uterine carcinosarcoma	子宫癌肉瘤	没有正常样本

第二种方法是直接在右侧的图片上选择感兴趣的部位，这种方法多用于不太明确自己想要做的癌症这种情况。

在我们这个例子中，就是选择colorectal 这个部位。

数据的下载，进入了数据库之后，我们就可以开始数据的下载了。

现在网络上很多教程是从网站直接下载，但这种方式不稳定，而且不支持断点续传；还有一些支持断点续传的方法是加入到cart中，且使用cmd下载，这些都非常的麻烦，所以这里要介绍一个TCGA下载神器，TCGAbiolinks这个R包，它的下载方式与网站下载差不多，但是支持断点续传，而且不麻烦。

library(TCGAbiolinks)

library(SummarizedExperiment) # 加载R 包

work_dir <- "D:/colonadenocarcinoma" # 选择工程地点（也就是数据下载的位置）

project <- "TCGA-COAD" # 选择工程

data_category <- "TranomeProfiling" # 类似于在网站上直接进行选择，选择转录数据

data_type <- "Gene ExpressionQuantification" # 选择基因表达谱数据

workflow_type <- "HTSeq -Counts" # 选择counts 数据

legacy <- FALSE # 使用hg38

DataDirectory <-paste0(work_dir,"/GDC/",gsub("-","_",project))

FileNameData <- paste0(DataDirectory,"_","RNAseq_HTSeq_Counts",".rda")

query <- GDCquery(project = project,

data.category =data_category,

data.type = data_type,

workflow.type =workflow_type,

legacy = legacy) # 查询下载的数据情况

# 显示下载数据的总样本量

samplesDown <-getResults(query,cols=c("cases"))

cat("Total sample to download:",length(samplesDown))

# 显示下载数据的肿瘤样本量

dataSmTP <-TCGAquery_SampleTypes(barcode = samplesDown,

typesample ="TP")

cat("Total TP samples to down:",length(dataSmTP))

# 显示下载数据的正常样本量

dataSmNT <-TCGAquery_SampleTypes(barcode = samplesDown,

typesample ="NT")

cat("Total NT samples to down:",length(dataSmNT))

# 下载并整合数据

GDCdownload(query = query,

directory = DataDirectory,files.per.chunk=6,

method='client')

data <- GDCprepare(query = query,

save = TRUE,

directory = DataDirectory,

save.filename =FileNameData)

data_expr <- assay(data)

dim(data_expr)

gene_expr_file <- paste0(DataDirectory,

"_",

"Gene_HTSeq_Counts",

".txt")

write.csv(data_expr,file ='raw_mRNAdata.csv')

最终数据就是可以直接进行数据分析的数据

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。