打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
TCGA越来越火,但问题是……你连脚本是啥都不知道

在上周四的直播课堂《零基础入门TCGA》,很多小伙伴全程是这样滴

看到弹幕上漂的这些,顿时轻松许多有木有


还有很多人特意跑过来给我定义了下零基础,但讲真,老师也很为难啊。SO,多刷几遍视频,有问题欢迎交流讨论。

 

01



 TCGA

  数据下载、整合及简单应用


课上以寻找神经胶质瘤差异基因为例,一步步讲解TCGA数据下载、整合及差异基因筛选方法和步骤。



ps: 课件,数据demo和代码上点原文链接下载。


由于具体操作的不可描述性,这里给大家简单梳理了一下概要,具体的看视频。


 1. 数据下载

TCGA数据下载 : https://portal.gdc.cancer.gov/

工具:GDC data transfer tool


这里要下神经胶质瘤的表达数据,先在 Projects 中找到TCGA-GBM(神经胶质瘤),点击进入,选择RNA-Seq数据。


找到数据后,下载方式有两种,一种是直接加入购物,另一种是先下manifest,再用TCGA提供的GDC data transfer tool 下载。

ps:建议采用后者,因为当数据文件太大时加入购物车直接下载很容易断,而且它不支持断点续传。

 

使用GDC下载步骤如下,具体操作见视频。


下载下来的数据酱紫,是不是一头雾水看不懂?表达数据在哪?癌和癌旁信息呢?没关系,数据整合完之后就ok了。


 2. 数据整合

数据整合: R-stutio       ID转换:curl/Cygwin


数据整合用R就可以了,主要三步,一是读取各个文件夹中的数据,二是将表达数据整合到一个列表中,最后是ID转换,将文件夹名转化成TCGA的Case Submitted ID。整合完后得到下面两个文件:

 

表达数据整合文件

每一列就是上面的一个文件夹信息,这里已经将文件夹的名称替换成了TCGA ID。


组别信息文件

TCGA ID对应的组别信息。


具体步骤见视频。

 

 3. 差异基因筛选

R包 : ballgown (差异分析)      ggplot2(火山图)          pheatmap (聚类图)


整合好数据之后就可以做差异分析了,还是用R,运行之后就可以得到差异基因表格。

ps:直接输出的表格没有做任何筛选,做后续的筛选脚本里有相应的程序,当然你也可以自己直接用excel筛选。

 

 4.绘制火山图和聚类图

差异分析最直观的展示就是火山图和聚类图,还是用R包,火山图可以用ggplot2,聚类图用pheatmap,具体代码操作见视频,看下用demo数据(为方便演示,只用了20个样本)做好的结果。  

火山图

 

聚类图


好了,下面就看你的了。


差异分析太基础

想要学习更高阶的TCGA数据挖掘

7月22日来南京

带你复刻TCGA大文章

还能和老师面对面交流


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
TCGA入门——数据下载、整合及简单应用
生因生物RNAseq售后5:TCGA多肿瘤mRNA, lncRNA, miRNA数据挖掘
不研究肿瘤,就用不了TCGA的测序数据库,那要用啥……
在线聚类分析网站
TCGA数据分析ceRNA的套路
老瓶新装:TCGA+GEO分子分型发5+分
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服