打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature|AI预测基因启动子序列的有效性和进化
2022 年 3 月 9 日,Nature发表评论,对同期文章 AI predicts the effectiveness and evolution of gene promoter sequences 进行了简要介绍。

以下是全文内容。

生物学的一个长期目标是从 DNA 序列预测基因表达的能力。一种被称为神经网络的人工智能,结合高通量实验,现在让这一目标更近了一步。

基因表达影响生活的方方面面,例如细菌在特定环境中的生存方式,以及人体的解剖学和生理学研究。若人们能够借助调节基因表达方式的 DNA 序列,准确预测基因表达水平,那么我们探索生物领域的方式将迎来重大突破。然而,调节基因表达背后的生化机制极其复杂,50多年来,生物学家一直未能实现这一目标。近期,麻省理工学院的 Vaishnav 等人在 Nature 杂志上发表文章称,他们构建了从序列到表达模型(sequence-to-expression models),利用两项关键技术实现对酿酒酵母中基因表达的预测,这可以说为日后的目标实现带来了曙光。

这些研究者们使用的第一项技术是,测定在大量酵母中编码黄色荧光蛋白(YFP)的基因表达这些酵母中,不同的细胞携带不同的调控 DNA 序列,这些序列被称为启动子,它们位于一小段环状DNA上,位置靠近YFP基因,这使得它们能够驱动YFP的表达。研究者们使用了一个含超过3000万启动子(每个含80个碱基对)的集合,一个细胞一个细胞地定量测定了表达的YFP。

接下来,研究者们借助第二项技术,将得到的表达数据输入一种称为卷积神经网络的人工智能,并训练该网络根据这些数据中预测基因表达然后,他们验证了网络以一种令人印象深刻的规模预测基因表达的能力(图1)。

图1 学习预测基因表达。

a. Vaishnav 等人创建了一个含3000万启动子的文库,每个启动子长80个碱基对。他们探索了酵母细胞中这些启动子驱动YFP基因表达的能力。b. 研究者使用这些数据训练神经网络,以预测不同启动子序列对基因表达的驱动程度。c. 研究者检验了网络的预测能力。他们设计了数千个启动子(为简单起见,这里只显示了一个),发现该网络能够非常准确地预测每个启动子对基因表达的驱动程度。

例如,研究者们合成了数千个未用于训练的启动子序列,测定了它们驱动基因表达的能力,发现该神经网络非常准确地预测了每个启动子对基因表达的驱动程度另外,研究者们将随机起始序列输入这个神经网络,发现其根据启动子序列预测基因表达的能力,可将这些起始序列转换为预测驱动表达水平处于极端(非常高或非常低)的启动子序列,这项能力经过了十轮计算机模拟的进化。然后,研究人员合成了500个这样的序列,并测定了它们驱动YFP表达的能力。这些计算机模拟的序列确实可以驱动表达水平非常高和非常低的基因进行表达。这项实验和其他验证实验表明 Vaishnav 等人,确实创造了一个高效的系统来预测基因表达水平

这种预测还有助于阐明基因表达进化的其他方面。例如,研究者们通过计算预测出,对于大多数起始序列,三四个突变足以使那些表达量非常高或者低的序列发生进化,这一预测得到了后续的实验验证。本研究的另一个发现是,约70%的酵母基因在表达上得到了稳定的选择,这一选择偏好那些不会导致表达产物发生巨大变化的突变。此外,研究者们还发现,得到稳定选择的基因对调节性DNA突变的耐受性更强。即,这些基因的启动子改变表达水平的程度更小。

本研究意义重大。首先,它为后续研究者设计具有特定表达水平的基因提供了参考。其次,它揭示了基因调控进化的许多方面。另外,更重要的地方在于,它像过去几年生物领域内使用的其他深度学习工具(例如预测蛋白质折叠的工具)那样,为科学家解决更广阔范围内的问题铺平了道路。

尽管如此,这项研究仍有其局限性。首先,它只改变了基因序列中的启动子,而启动子只是能够影响基因表达的几种序列之一。它并没有对编码区序列的变异进行研究,编码区突变也可以影响基因表达产物。其次,本预测系统针对酵母开发,而酵母中的基因调控远没有人类中的复杂。例如,酵母中的调控DNA通常距被调控基因只有几百个碱基对的距离,而动物中这一距离可能为数百万个碱基对。因此,我们尚不确定本研究提出的方法是否适用于更复杂的基因调控过程。能够让我们略微感到乐观的一点在于,尽管用于训练的这3000万个序列只占所有80个碱基对组合(480种排列方式)的一小部分(约2*10-41),但是这个模型的预测成功率很高。序列空间中采样较为稀疏可能不是它的致命缺陷。

最后要说的是,这个方法类似于神话传说中的“神谕”,它只是预测了基因表达水平但并未对此做出解释。它没有告诉我们为什么启动子驱动基因表达的水平显示出高和低的区别,以及哪些转录因子结合在启动子上,或者它们如何相互作用。换句话说,它在阐明基因表达的调控逻辑方面仍处于一片空白。阐述调控逻辑方面需要我们做更多的工作。然而,考虑到预测基因表达这个问题长期存在,生物学家对于这项研究的结果就已经感到非常欢欣鼓舞了。

参考资料

doi:https://doi.org/10.1038/d41586-022-00384-0

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
如何预测lncRNA的靶基因?
启动子分析-----------转录因子结合位点
如何预测转录因子靶基因!
RegRNA2.0: 解决lncRNA从哪里来,到哪里去的问题
转录因子研究方法!
STEM:基因表达趋势分析工具
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服