cBioPortal
在生物信息领域,高通量数据非常重要,毕竟谁也不想感受“巧妇无米之炊”的窘迫。随着大数据时代的到来,各种大型生物公共数据库也不断完善,其中就包括The Cancer Genome Atlas(TCGA)数据库。TCGA数据源大部分都是公开的,如何有效的进行收集(机械的鼠标操作)和预处理是一个头疼的问题。
目前来能够从TCGA数据库中提取数据的处理工具有很多:
cBioPortal(http://www.cbioportal.org)
UALCAN(http://ualcan.path.uab.edu/index.html )
starbase3.0(http://starbase.sysu.edu.cn/ )是常用的,上图来源于2018年的一篇cell(PMID: 29625050)
今天小编想给大家简单介绍下cBioPortal。该工具极大的方便了生物信息研究者获取数据,而且其中的数据集多数为已发表的数据集,增大了样本的可研究性。但是使用起来还是有一定的局限性。
首先进入数据入口的主界面:
在cBioPortal中你可以完成visualize,analyze,discover三种功能。目前包含了88个已发表的癌症研究中的20263个癌症样本。
那么该工具除了引用频率高之外,具体可以实现那些功能呢?我们引用一篇文献(PMID:28930697)的图片结果(Fig5)给大家展示一下。
想要做的上图的内容(突变热图、元件图、预后分析等),需要掌握cbioportal数据的操作流程。
让我们先看下数据的查询功能:
1.Select Cancer Study,例如我们选择2013年MSKCC在Nat Genet上发表的 “The mutational landscape of adenoid cystic carcinoma.”
2.Select Genomic Profiles 分为突变谱和拷贝数谱
3. Select Patient/Case Set:选择样本集合,也可以用户自定义样本
4.Enter Gene Set:输入基因集合,某一通路或者生物学过程中的基因或者是用户自定义基因集合。
之后我们可以看到该基因集合在样本中的改变情况,例如红色代表扩增,绿色代表突变,可以将图片以pdf或者svg形式保存到当地。
基因间的互斥性(mutually exclusive)和共发生性。
查看每个基因在样本中突变的情况
以基因集合中改变的样本和非改变的样本之间做生存曲线(很明显该例子并没有明显分开)。
网络分析这部分比较有意思除了包含已知的基因集合还包括发现的改变的邻居基因,而且我们还可以显示基因的药物靶点。
最后该入口提供了IGV可视化拷贝数变异的功能和下载功能。
那么,cbioportal数据库还可以实现哪些重要的功能,以及怎么实操呢?具体可以关注我们的TCGA数据库生信学习班。计划如下:
要点预览
全国TCGA,GEO生信高通量数据挖掘专题学习班
第7期成都班:2019/07/13-14(12号报到)
第8期广州班:2019/08/08-09(7号报到)
培训简介
癌症是临床医学中非常重要的疾病方向。TCGA数据库中包含了常见了40种癌症方向(含30000个样本)的高通量数据及临床信息。大家对TCGA数据库的使用近几年也在逐渐增加!如图1所示。
图1 基于 pubmed数据库检索的包含“TCGA”发表的SCI 文章数量(2018年11月7日)
关键靶标分析是指基于生信的方法从高通量数据中挖掘到与研究方向最相关的靶标基因(mRNA,miRNA,lncRNA或蛋白)。
因此,需要我们自己掌握高通量数据挖掘的能力以及逻辑性的生信分析思路,从海量信息中获得自己想要的关键基因!
培训预期:
1. 通过整整两天的培训,掌握TCGA,GEO数据库的使用、下载及分析思路和实用操作技能。
2. 可以独立完成一篇基于公共数据库的高通量数据挖掘分析。
3. 课后还可以赠送1小时的全场串联视频,用于学员的复习。
4. 赠送一份最近5年的高价值国自然标书(医药加高价值标书库里面选择)
5. 讲师团队赠送TCGA数据库甲基化,基因表达谱整合分析报告与疾病mRNA+lncRNA分析报告。
讲师简介
宋伟博士
研究成果:参与完成了近百篇软件著作权和发明专利的撰写和申请;肺癌、胰腺癌、骨肉瘤、胃癌等数据库的分析和构建;完成个体基因检测流程和无创唐筛流程的开发。
研究方向:有近十年的生信分析经验,擅长方向有转录组测序分析、芯片数据分析、疾病机理研究分析、疾病预后与基因关联分析、项目分析思路设计以及个性化分析等,精通perl、R等编程语言。
培训经历:在上海、沈阳、济南、武汉等城市举办过十几场培训班。培训的对象有:医生、学生、科研工作者、生信爱好者等。
培训方向:《测序与芯片数据分析》、《生物信息学的魅力》、《生信文章实例解读》、《生信与实验的密切关系》、《生信与临床医学的关系》、《生信实用工具培训》、《多组学整合分析流程》、《R语言培训》等
课程安排
分析示例图
示例图 通路富集分析结果图
示例图 聚类热图分析
示例图 GO富集分析结果图
示例图 蛋白互作网络图
示例图 pathway map图
示例图 关键基因的KM生存曲线图
学习费用
2800元/每位(学习费包含电子版教材、午餐,住宿费自理,保证学员完全掌握。)
优惠政策:
1. 提前支付转账的可提前拿到学习资料
2. 三人组团报名,每人收费2700元
3. 四人组团报名,每人收费2600元
4. 五人组团报名缴费,额外带一人免费注册!
可以开正规会务发票,纸质邀请函(盖红章)。
注意事项:携带windows系统的电脑,苹果电脑请务必提前做好双系统。现场不得录音录像。
联系客服