相对于基础实验来说,生信分析已经越来越融入科研工作者的生活中,作为基础实验的验证和辅助手段,帮许多老师省下了很多工作,许多老师已经很熟练的在使用了生信分析这个当下,此次分享,主要是针对还没有熟练生信分析和初学者的简易教程,废话不多说,小编就直接进入今天的主题:
TCGA 全称为The Cancer GenomeAtlas Program ,即癌症基因图谱计划,是05 年时由美国发起一项用来研究癌症中基因组变化的计划。相较于GEO 数据库,基因数据更加规整,因此更具可信度,用来发文章影响因子也更高。
废话不多说,我们以结肠腺癌为例,来实战一番吧。
TCGA入口:
https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
点击上方链接就可以进入这个页面啦(要用Google 浏览器,或者搜狗浏览器,亲测360 浏览器只能打开TCGA 主页面却没有办法进入数据库的页面。):
我们所需要用到的基因数据要进入Access TCGA Data才能获取到哦,这样我们就顺利进入TCGA的基因组数据共享数据门户。
进入上面这个界面后,就可以正式开始啦。
例如,我们以结肠腺癌为例,有两种方式进入结肠腺癌的数据库。
第一种方法:直接在搜索框中搜索Colon adenocarcinoma ,按下回车键就可以看到下图:
黑色的部分告诉我们这一条数据的数据类型:
TCGA-COAD 就意味着是TCGA 工程里一个项目,项目名是COAD 。
为了更加方便大家查询TCGA数据库,我将TCGA下的所有项目列了出来:
简称 | 全称 | 中文 | 备注 |
BRCA | breast invasive carcinoma | 乳腺浸润癌 | |
PAAD | pancreatic adenocarcinoma | 胰腺癌 | |
COAD | colon adenocarcinoma | 大肠腺癌 | |
ESCA | esophageal adenocarcinoma | 食管腺癌 | |
BLCA | bladder urothelial carcinoma | 膀胱尿路上皮癌 | |
STAD | stomach adenocarcinoma | 胃腺癌 | |
CHOL | cholangiocarcinoma | 胆管癌 | |
CESC | cervical squamous cell carcinoma and endocervical adenocarcinoma | 宫颈鳞癌与宫颈腺癌 | |
LUAD | lung adenocarcinoma | 肺腺癌 | |
LIHC | liver hepatocellular carcinoma | 肝细胞癌 | |
ACC | adrenocortical carcinoma | 肾上腺皮质癌 | 只有01样本 |
KICH | kidney chromophobe | 肾嫌色细胞癌 | |
READ | rectum adenocarcinoma | 直肠腺癌 | |
PRAD | prostate adenocarcinoma | 前列腺癌 | |
LUSC | lung squamous cell carcinoma | 肺鳞癌 | |
GBM | glioblastoma multiforme | 多形性胶质母细胞瘤 | miRNA数据中只有正常样本 |
HNSC | head and neck squamous cell carcinoma | 头颈部鳞状细胞癌 | |
KIRP | kidney renal papillary cell carcinoma | 肾乳头状细胞癌 | |
THCA | thymoma carcinoma | 胸腺瘤癌 | |
DLBC | lymphoid neoplasm diffuse large B-cell lymphoma | 淋巴肿瘤弥漫性大B细胞淋巴瘤 | |
LGG | brain lower grade glioma | 脑低级别胶质瘤 | |
OV | ovarian serous cystadenocarcinoma | 卵巢浆液性囊腺癌 | |
UCEC | uterine corpus endometrial carcinoma | 子宫体子宫内膜癌 | |
SKCM | skin cutaneous melanoma | 皮肤黑色素瘤 | |
KIRC | kidney renal clear cell carcinoma | 肾透明细胞癌 | |
THYM | thymoma | 胸腺瘤 | 正常样本只有两个 |
PCPG | pheochromocytoma and paraganglioma | 嗜铬细胞瘤和副神经节瘤 | 正常样本只有三个 |
SARC | sarcoma | 肉瘤 | miRNA数据中没有正常样本 |
LAML | acute myeloid leukemia | 急性髓性白血病 | 没有正常样本 |
TGCT | testicular germ cell tumors | 睾丸生殖细胞瘤 | 没有正常样本 |
MESO | mesothelioma | 间皮瘤 | 没有正常样本 |
UVM | uveal melanoma | 葡萄膜黑色素瘤 | 没有正常样本 |
UCS | uterine carcinosarcoma | 子宫癌肉瘤 | 没有正常样本 |
第二种方法是直接在右侧的图片上选择感兴趣的部位,这种方法多用于不太明确自己想要做的癌症这种情况。
在我们这个例子中,就是选择colorectal 这个部位。
数据的下载,进入了数据库之后,我们就可以开始数据的下载了。
现在网络上很多教程是从网站直接下载,但这种方式不稳定,而且不支持断点续传;还有一些支持断点续传的方法是加入到cart中,且使用cmd下载,这些都非常的麻烦,所以这里要介绍一个TCGA下载神器,TCGAbiolinks这个R包,它的下载方式与网站下载差不多,但是支持断点续传,而且不麻烦。
library(TCGAbiolinks)
library(SummarizedExperiment) # 加载R 包
work_dir <- "D:/colonadenocarcinoma" # 选择工程地点(也就是数据下载的位置)
project <- "TCGA-COAD" # 选择工程
data_category <- "TranomeProfiling" # 类似于在网站上直接进行选择,选择转录数据
data_type <- "Gene ExpressionQuantification" # 选择基因表达谱数据
workflow_type <- "HTSeq -Counts" # 选择counts 数据
legacy <- FALSE # 使用hg38
DataDirectory <-paste0(work_dir,"/GDC/",gsub("-","_",project))
FileNameData <- paste0(DataDirectory,"_","RNAseq_HTSeq_Counts",".rda")
query <- GDCquery(project = project,
data.category =data_category,
data.type = data_type,
workflow.type =workflow_type,
legacy = legacy) # 查询下载的数据情况
# 显示下载数据的总样本量
samplesDown <-getResults(query,cols=c("cases"))
cat("Total sample to download:",length(samplesDown))
# 显示下载数据的肿瘤样本量
dataSmTP <-TCGAquery_SampleTypes(barcode = samplesDown,
typesample ="TP")
cat("Total TP samples to down:",length(dataSmTP))
# 显示下载数据的正常样本量
dataSmNT <-TCGAquery_SampleTypes(barcode = samplesDown,
typesample ="NT")
cat("Total NT samples to down:",length(dataSmNT))
# 下载并整合数据
GDCdownload(query = query,
directory = DataDirectory,files.per.chunk=6,
method='client')
data <- GDCprepare(query = query,
save = TRUE,
directory = DataDirectory,
save.filename =FileNameData)
data_expr <- assay(data)
dim(data_expr)
gene_expr_file <- paste0(DataDirectory,
"_",
"Gene_HTSeq_Counts",
".txt")
write.csv(data_expr,file ='raw_mRNAdata.csv')
最终数据就是可以直接进行数据分析的数据
联系客服