打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
安利一波TCGA数据可视化分析工具(含操作步骤及结果解析)

用TCGA数据制作sci论文中的图表,只要三分钟。


资源来自于格致书院12班班长的分享


提及大名鼎鼎的癌症基因信息数据库TCGA,科研界中可谓是家喻户晓。现阶段围绕着TCGA已经有很多重量级文章,显然,对TCGA数据库的熟练掌握绝对是提升科研bigger的神兵利器。


其实,针对TCGA的数据检索、查询、分析,解螺旋已经研发了单元课傻瓜版图文教程,可确保学员们即学即会。可即便如此,平日里就已经分身乏术的医生仍是没有时间进行系统的学习,因而面对数据分析只能望而兴叹。


其实也不用愁,大数据时代中已有不少网页服务器工具可针对TCGA数据库的庞大信息量进行可视化分析,方便科研人员高效的使用TCGA中的癌症相关的生物数据。



01

GEPIA

网址:http://gepia.cancer-pku.cn/index.html


GEPIA是基因表达数据交互式分析网站,其界面友好,富含极大的信息量,可以帮助科研人员用来进行数据挖掘后的验证;且其操作简单、结果清晰实用,非常适合临床医生做前期研究的探索性工作,因为只要点点点就可看到结果了。


目前,该网站已经收录了9736个癌症组织样本(33种癌症)和8587正常组织样本的表达数据(主要来自于TCGA和GTEx),可提供基因差异表达分析、基于基因表达的生存分析、表达相似基因分析、基因表达相关性以及主成分分析,功能十分强大。



1.由于基因的表达差异是研究该基因功能的前提,首先应该了解基因在肿瘤组织和正常组织之间的表达情况,那么以ERBB2为例,在输入框中输入ERBB2点击GoPIA,可进入到以下界面。



同时可以获得ERBB2基因在肿瘤样本以及配对正常组织的柱状图和点状图,其结果非常容易看懂,可以说一目了然。



此外,还可依据共表达来确定与ERBB2基因相似的基因,点击Gene Symbol下的基因名称,则进入相应基因的信息界面。



2.如果想要了解某个肿瘤组织的基因表达水平,则进入Differential Genes模块,选择相应的癌种、分析方法以及基因的表达状态(过表达、沉默或两者都有),设置好表达差异FC以及q值的cutoff值,点击Plot可获得以下图片以及列表信息。



结果显示出位于不同染色体上的基因表达水平,绿色表示低表达,红色表示高表达。



3.研究基因功能时,如果该基因能与生存息息相关,那么就真是锦上添花了。而在GEPIA这个网站,基因的生存曲线图制作也是非常简单的。


点击survival,输入相应基因名称,依据研究需要更改相应参数如HR、时间等,选择癌种并添加至数据集Datasets中,点击plot即可获得以下结果。



如果要找出某个特定癌症中跟生存最相关的一串基因,同样点击Survival板块下的Most Differential Survival Genes,选择相应癌种后,点击list可以获得以下列表。



在结果列表中,可以翻页查询自己所感兴趣的基因,也可在search右侧的输入框输入基因名称,查看该基因与癌症生存相关性的强弱。同样点击相应的基因名称,可进入该基因的单基因分析界面。



4.此外,GEPIA还能查询靶基因的共表达基因,只要选择好肿瘤和对应的正常组织,提交,就能查看共表达趋势了。



值得注意的是,一般选择TCGA的Normal组织作为对照,但是当结果不显著时,也可用GTEx的正常组织数据来替代,不过要在文章中进行说明。


5.而关于两个基因在特定组织的相关性,此网站也是可以查询的。同样,输入好基因名称以及特定组织,点击plot可获得相应散点图。基因间相关性的分析方法一般选择Pearson,而基因与lncRNA、microRNA相关性的分析方法则选择Spearman。




02

TCGAportal

网址:http://tumorsurvival.org/index.html


该网站的发布时间是2018年5月11日,目前还没有相关文章对其进行介绍,据估计应是还在研发中。该数据库的研发者是美国佐治亚大学的Shutan Xu。



界面左侧是按照人体组织的名字分类,上面是不同的分析项目,点击TCGA,选择肾脏的第一个肿瘤组织,并输入基因AGMAT,点击submit。



结果中首先展示的是生存分析的图,显然AGMAT高表达的患者生存获益,说明该基因很可能是抑癌基因。



其次是该基因在各个Stage的表达,结果并无差异。



还有该基因在肿瘤的突变情况的结果展示、按照AGMAT突变和非突变分组表达最相关的基因以及该基因表达跟甲基化的关系。




03

CRN

网址:http://syslab4.nchu.edu.tw/


这也是一个基因表达数据分析数据库。其表达数据主要来源于GEO与TCGA。目前收录了28种癌症共11447个样本的表达数据,并根据样本的临床信息将每种癌症分成了若干个子数据集。该数据库使用简单直接,只需选择了癌症类型和配对子集,就可以进行差异表达分析与mRNA-lncRNA共表达网络构建。




04

ISOexpresso

网址:http://wiki.tgilab.org/ISOexpresso/


这是一个提供癌症样本中转录本表达信息和分析的数据库。该数据库目前收录了TCGA中30种癌症类型、共10422样本的基因和转录本表达信息。


通过选择不同组织、癌症类型和基因名进行搜索,查询结果包含了该基因转录本的注释信息以及不同转录本之间的表达情况;如果同时选择了癌症和正常样本(Normal-tumor comaprison选项),数据库还会给出转录本肿瘤特异性信息。



另外,还可以上传癌症突变数据,该数据库会基于该癌症中转录本表达信息,对突变数据进行注释。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
神器GEPIA2在手,不会编程也能轻松挖掘TCGA | 癌症研究数据库推荐
大数据时代最全的医学公共数据库合集整理
生信工具 | TCGA数据分析工具GEPIA最新更新,用于免疫细胞浸润分析
癌症组学大数据的可视化与再挖掘
【能力建设】肿瘤生物信息学常用数据库介绍
可能是最出名的TCGA表达相关数据库介绍(一)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服