打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
SURVIV:更精准的癌症大数据分析工具 | 科学人

1990年正式启动的人类基因组计划,为人类打开了一扇通往自身遗传信息奥秘的大门,自此,“基因组学”的研究进入了高速发展的历史阶段,越来越多的科学家也逐渐将生物信息学与传统生物学手段相结合,从而寻找各领域的新突破。


基因组计划是人类为了探索自身的奥秘所迈出的重要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。图片来源:www.slate.com

高通量测序技术(新一代测序)诞生是基因组学研究领域的一个里程碑,所谓“高通量”,顾名思义,就是这种技术一次能测得大量核酸分子的序列,得到丰富的数据信息。在高通量测序技术中,有一类主要针对某种生物或细胞转录产生的多种mRNA进行的测序,则被称为转录组测序(RNA-Seq)技术

“巧妇难为无米之炊”,对科研工作者来说,如果没有有用的数据,研究工作就无法取得有效的进展。不过,随着RNA-Seq技术的发展,拿到数据已经不成问题,接下来就要看“巧妇”如何准确、高效地处理铺天盖地而来的庞大数据,亦即如何“精准”地分析“大数据”了。“精准医疗”不是随便提一提,“大数据”也不是为了分析而分析,最终的目的是用来研究基因或蛋白质的结构与功能,以及细胞增殖、分化、凋亡乃至各种疾病发生、发展的调控机制。为此,科学家们可谓八仙过海,各显神通。

最近,来自加利福尼亚大学洛杉矶分校(UCLA)的邢毅教授及其团队,通过对癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中682例乳腺浸润性导管癌样本的RNA-Seq数据进行分析,提出了一种名为“SURVIV”的统计学方法,用mRNA异构体的比率来预测癌症患者的生存时间。相关结果于2016年6月9日发表在《自然通讯》(NatureCommunications)杂志上。

“调皮”的外显子

一个预测癌症患者生存时间的算法和“外显子”有什么关系?“外显子”又是个什么鬼?

不要着急,为了弄懂SURVIV算法,先要讲一个关于“选择性剪接”的故事。话说很久很久以前,有一个基因,它通过“选择性剪接”过上了幸福的日子……开什么玩笑,要是生物学过程都像小时候的睡前童话故事一样简单有趣,那万年生科老博士生还怎会如此苦不堪言?言归正传,大多数真核生物的基因上,都有两种核酸序列,一种名为“外显子”,另一种名为“内含子”。有意思的是,外显子和内含子在基因上是依次间隔排列的。基因序列上的外显子和内含子,“手拉手”一起进行转录,产生前体mRNA。在形成成熟mRNA的过程中,前体mRNA上那些对应内含子的序列会被剪切掉,只剩下对应外显子的部分拼接在一起,这就是“剪接”的过程。


内含子OS: 我和外显子一起转录得好好的,干嘛把我裁掉啦。RNA剪接过程。图片来源:mt.sohu.com

其实,对于含有多个外显子的基因来说,有时候就连其中一些外显子也不能逃脱被剪掉的命运,但至于具体什么时候哪个外显子能被保留,哪个外显子会被剪切掉,这可就不好说了,科学家们都解释不清楚,只知道前体mRNA形成成熟mRNA的剪接过程可谓五花八门眼花缭乱,“选择性剪接(alternative splicing)”的名字便由此而来。在一个基因所能产生的多种成熟mRNA中,有的多了这个外显子,有的又少了那个外显子,它们互为异构体,相应翻译出来的蛋白质自然也互为异构体。的确,我们神奇的自然界就是如此喜欢千变万化不拘一格。


选择性剪接过程及其产生的mRNA、蛋白质异构体。图片来源:www.bbioo.com

在互为异构体的这些成熟mRNA中,可能会出现两种类型的mRNA,其中一种比另一种少了某一个外显子。没错,科学家们将这种现象叫做“外显子跳跃(exon-skipping)”,由此产生的两种异构体一种是包含此外显子的异构体,另一类则是不包含此外显子的异构体,也就是发生了外显子跳跃的异构体。虽然是专业名词,却赋予了小小外显子以“跳跃”的动态和“调皮”的感觉。

外显子跳跃只是选择性剪接的模式之一。在人类含多个外显子的基因中,超过95%都要经历选择性剪接,从而使细胞产生多种mRNA和蛋白质,这对蛋白质结构和功能的多样性有至关重要的作用。研究表明,在诸如细胞增殖或凋亡、组织缺氧、免疫逃逸、肿瘤转移等各种致癌过程中,都涉及到选择性剪接。在邢毅教授最近发表于《自然通讯》的文章中,则主要通过模拟和计算外显子跳跃过程产生的两种异构体的比率,来预测癌症患者的生存时间,并将这种新的统计学方法命名为“SURVIV(Survival analysis of mRNA IsoformVariation)”。

SRUVIV:更准确的算法

目前利用癌症RNA-Seq大数据对选择性剪接进行的研究,主要将注意力集中在癌症组织与正常组织之间,或不同亚型的癌症组织之间剪接模式的比较,而对于这些RNA-Seq数据中包含的选择性剪接与癌症患者表型、治疗效果、生存时间的关系等,则需要新的运算工具来对其进行分析和处理。正是基于这样的考虑,邢毅教授及其团队在先前对选择性剪接的调控和功能进行了多年研究的基础上,通过对TCGA数据库中乳腺浸润性导管癌样本的RNA-Seq数据进行分析,开发了SURVIV算法,用于模拟不同患者个体中mRNA异构体比率的不确定性和预测mRNA异构体比率与患者生存时间的关系


外显子跳跃产生的两种异构体比率与患者生存可能性的关系,ψ:包含某外显子的mRNA异构体占异构体总数的水平。图片来源:原论文

其实,此前也有一些模拟癌症患者生存时间的统计学方法,比如Cox回归。本着“长江后浪推前浪”的原则,一个新的方法总要比旧的方法更有优势才能被大家所认可和接受。因此,邢毅教授及其团队设计了一套模拟研究,来对比SURVIV与传统的Cox回归生存分析的准确性。结果显示,不管什么水平的RNA-Seq测序深度,SURVIV都比Cox回归更准确。值得一提的是,这种压倒性的优势,在测序深度较低时表现得尤为突出。这一点具有重要的实用价值,因为很多临床RNA-Seq数据都有较大的样本规模,但却相对较低的测序深度。


SURVIV与Cox回归准确度对比。图片来源:原论文

SRUVIV还能干啥?

既然SURVIV算法更准确,而SURVIV算法又是通过外显子跳跃异构体比率来预测癌症患者生存时间的,那么接下来就需要鉴定到更多与生存时间有关的外显子跳跃事件,才能更好地发挥SURVIV的预测作用。令人兴奋的是,邢毅教授及其团队按各种临床参数将TCGA数据库中的682例乳腺浸润性导管癌患者分为26个亚组,对这26个亚组的RNA-Seq数据进行SURVIV分析,确实鉴定到与癌症患者生存时间有关的229个外显子跳跃事件


TCGA乳腺浸润性导管癌样本RNA-Seq数据中外显子跳跃事件的SURVIV分析。青色表示包含外显子的异构体水平与生存概率呈正相关,即较高的包含外显子的异构体水平对应较高的生存概率;洋红色表示两者成负相关,即较低的包含外显子的异构体水平对应较高的生存概率。图片来源:原论文

在鉴定到的这229个选择性剪接事件中,是否涉及能调控这些选择性剪接的因子——剪接因子呢?接下来,该团队进行了剪接调控网络分析。结果显示,有3个选择性剪接调控因子:TRA2B、HNRNPH1和SFRS3,它们的基因表达水平与乳腺浸润性导管癌患者的生存时间有很大关系,较高的基因表达水平意味着较短的生存时间和较差的疾病预后效果。总体来说,在229个与生存相关的选择性剪接事件中,有84个(占37%)与这3个剪接因子有关。



剪接因子调控网络。3个剪接因子分别被放在3个核心位置。蓝色线条表示剪接因子与选择性外显子呈正相关,红色线条表示剪接因子与选择性外显子呈负相关;蓝色圆点表示包含该外显子的异构体水平与生存时间呈正相关,红色圆点表示包含该外显子的异构体水平与生存时间呈负相关。图片来源:原论文

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
DNA测序与RNA测序的不同
生存相关的选择性剪接事件
RNA剪接失调与癌症
转录组测序问题集锦
科研 | Nat Commun:mRNA异构体的鉴定揭示神经细胞表面分子多样性及在视网膜发育和疾病中的作用
RNA-seq这十年(3万字长文综述)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服