1.导读:
当年我看过嘉因写的转录调控的帖子,技术含量很高,就收录在了一篇合集(下文有介绍)。
这一篇帖子里面要网站有网站,要技术有技术,称之为神贴都不过分,考虑到我的读者群体大部分是临床医生以及研究生,每年到了这个时刻,最虐心的就国自然基金申请,大部分读者都可以轻易地找到要研究的方向,但是在机制探索部分几乎阵亡,希望这一篇能够助你一臂之力,我们静候嘉因。
需要特别强调的是,虽然这一篇帖子绝对能够提升发文章和写基金的深度,但是,基金申请是个系统的工程,基金需要结合自身的情况,要联系到已经发表的文章,甚至需要提前6个月到1年去做预实验来铺垫。从这个意义上来讲,盲目地指定一个学生来写标书是万万使不得的。所以,最好的方法就是,自己的标书自己写,别人只能起到铺垫的作用。
我们应当做到:能写标书,但不写任何人的标书。
下面是正文:
2.背景介绍
从基础研究人员到临床医生,TCGA,无人不知无人不晓。
没听说过 TCGA?你一定错过了这些:
《TCGA 教程大合集:不会编程是常态,但永远难不倒努力前行的临床医生》
TCGA 能回答什么问题?
基因在哪个癌症里变异(mutation/deletion/amplification)频率高、表达量高?
基因的哪个结构域经常出现变异?
哪些基因跟它一起 / 不一起变?有没有可能是合成致死基因对?
这个基因的变异 / 高低表达影响了生存期吗?甜过初恋!这次是真的批量做TCGA的生存分析
基因的蛋白质水平和翻译后修饰水平有木有变化?
回答这些问题有什么用?如果不知道,你需要看这篇:《课题设计:收不完的病人查不完的房,临床医生如何快速地设计一个靠谱的课题?》
从 TCGA 看到突变和表达差异,推测功能,做实验看到表型,证明了功能,能发 paper;想发高分,要做机制。
3.机制探索
基因通过怎样的调控机制发挥功能?
转录调控是机制研究的永恒主题。从转录调控这个最核心的调控机制入手,回答这个问题,无非是谁调控了它,它又调控了谁的问题。
(备注:以下两个是神贴)
《哪个蛋白质调控我感兴趣的基因?》给出了研究某个基因受谁调控的策略和方法:
Plan A:基于大量 ChIP-seq 公共数据挖掘
Plan B:motif 分析预测
Plan C:ATAC-seq 结合 motif 分析
《转录因子调控了谁?》给出了从基因组水平找靶基因的策略和方法:
Plan A:RNA-seq。直接调控?间接调控?傻傻分不清
Plan B:ChIP-seq。最直接,最有效,与 RNA-seq 整合分析更准确
Plan C:ATAC-seq + motif 分析。没有 ChIP 级别抗体,也能准确找到靶基因
Plan D:基于 motif 预测,这是个垫底儿的
上面这两套策略挖掘了转录因子和靶基因之间的关系,怎样才能把 TCGA 数据分析或实验发现的表型跟这些机制结合起来呢?下面回答本篇的核心问题:
怎样把 TCGA 中看到的表型跟转录调控联系起来?
Cistrome 家族的新成员——CistromeCancer 解决了这个问题,文章发表于 2017 年 11 月的 Cancer Research。
CistromeCancer,http://cistrome.org/CistromeCancer/(以下操作请先打开这个网址),整合了 Cistrome Data Browser 的 23000 套 ChIP-seq 和 DNase/ATAC-seq,以及 TCGA 33 个癌症类型 10000 个肿瘤患者的 RNA-seq、WGS、WES、DNA 甲基化和生存数据,把转录因子在各种癌症中的靶基因,以及各种癌症中 enhancer 的分布情况清晰直观的呈现出来。从近距离调控到远距离调控,一网打尽。
RNA-seq 和 ChIP-seq 还有另外一种整合方式——BETA,同样出自 Cistome。
小美女介绍 CistromeCancer 的功能和用法的视频。
用 TCGA 的 RNA-seq 算出表达相关性高(包括正负相关)的基因,用 ChIP-seq 找 TF 结合在哪些基因附近,综合考虑以上两条证据,准确预测靶基因。
4.介绍四个功能:
功能一:
点击进入 Cancer Transciption Factor Targets,
搜索转录因子的名字,
就会看到它在哪个癌症中表达量高(RPKM,绿色方块),
更 active(Expression Ratio,紫色方块),
靶基因预测更可信(TF ChIP-seq prediction power,青色方块)。
下方红色方块矩阵列出 ChIP-seq 找到的靶基因,
能看到哪些癌症类型中靶基因多,
哪个靶基因跟 TF 表达变化趋势一致(方块呈红色),
哪些相反(方块呈蓝色),
ChIP-seq regular potential score 越高,方块越大。
功能二:计算两个 TF 的靶基因有多少是重叠的,推测它俩的关系。
上面两个功能是 CistromeCancer 特有的。
下面两个功能其他工具也有,在这里一站解决,很贴心的设计。
功能三:生存分析
功能四:肿瘤跟 normal 对比表达量 RPKM
另外,CistromeCancer 还有一个 enhancer 功能模块,用 H3K27ac 的 ChIP-seq 数据和 DNase-seq 数据标出了 TCGA 每个癌症类型的 enhancer 分布,改天详细介绍其应用。
5.举两个例子:
用 CistromeCancer 阐释调控机制的案例
研究一个转录因子,用 TCGA 数据推测出它是原癌基因,想知道它发挥作用的机制。通过回答下面两个问题来阐释这个转录因子的作用机制:
它的靶基因参与哪些生物学通路?
它跟哪些转录因子的 binding profile 相似?
这篇文章还很贴心的举了两个应用案例,Figure 和结果描述都可以放到 research paper 的正文里。
例子一
FOXM1 在大多数癌症中都高表达(下图中的 a),高表达 FOXM1 的乳腺癌患者预后较差(b)。FOXM1 跟 MYBL2, EZH2, E2F1, E2F2, E2F8, CBX3, TTF2, BRCA1, NCAPG, SSRP1, LIN9 的靶基因有很大重叠(c)。其中 FOXM1、E2F1、MYBL2 的重叠最多,推测这 3 个转录因子在癌症中形成了 regulatory module(d)。
这跟已有的报道一致:FOXM1 在癌症相关生物学过程中高表达,包括细胞增殖、细胞周期、DNA 损伤修复。
FOXM1 的靶基因包括细胞周期调控因子 cyclin B1 和 CENP-A,这与很多癌症类型中发现它们是 FOXM1 的靶基因一致。
例子二
STAT4 在一种肾癌(KIRC)中高表达,高表达 STAT4 的患者预后差。STAT4 的靶基因在 KIRC 中也都高表达,而且靶基因富集在免疫相关的功能,例如 T - 细胞激活、白细胞激活、免疫应答,这跟已知的 STAT4 的免疫相关功能一致。
同样有免疫细胞特异活性的 IRF4,情况却不同。IRF4 及其靶基因在结直肠腺癌(COAD-READ)中下调表达,高表达 IRF4 的患者预后更好。
用计算肿瘤免疫渗透的计算方法 TIMER 分析后发现,跟正常组织相比,KIRC 的 CD8 T 细胞水平高,COAD-READ 的 CD8 T 细胞水平低。CD8 T 细胞的量跟 KIRC 中的 STAT4 和 COAD-READ 中的 IRF4 呈正相关。这表明 KIRC 中的 STAT4 和 COAD-READ 中的 IRF4 的转录活性影响的是免疫细胞的水平,而不是肿瘤细胞本身。
6.其他跨项目的整合分析(点击蓝色字,链接到技术贴):
TCGA + GTEx
GE-mini,用 GTEx 的健康人数据做为 TCGA 癌症样本的对照,在手机 App 上检索某个基因在癌症和 normal 中的表达量差异,发生差异表达的器官一目了然;
GTEx + TCGA + SRA
recount2,用 GTEx、TCGA 的 RNA-seq 和表型数据训练模型,建立方法,能够实现用 RNA-seq 数据预测表型。
GTEx + ENCODE
eGTEx 项目,打算把 GTEx 跟 ENCODE 整合起来,建立基因型、基因表达和疾病的联系。
联系客服