打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
​将专家知识与深度学习结合,清华团队开发DeepSEED进行高效启动子设计

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 萝卜皮

设计具有所需特性的启动子在合成生物学中至关重要。人类专家擅长识别小样本中的强显式模式,而深度学习模型擅长检测大数据集中隐式的弱模式。生物学家通过转录因子结合位点(TFBS)描述了启动子的序列模式。然而,顺式调控元件的侧翼序列长期以来一直被忽视,并且经常在启动子设计中任意决定。

为了解决这一限制,清华大学的研究团队引入了 DeepSEED,这是一种人工智能辅助框架,可通过将专家知识与深度学习技术相结合来有效地设计合成启动子。

该研究以「Deep flanking sequence engineering for efficient promoter design using DeepSEED」为题,于 2023 年 10 月 9 日发布在《Nature Communications》。

启动子是调节基因表达的核心遗传元件。设计具有所需特性的合成启动子以精确控制基因表达是生物合成工程和基因治疗的必要条件。强或诱导型启动子对于实现高转基因表达和最大化治疗效果是必不可少的。人们认为启动子的特性主要由顺式调控元件决定,即转录因子结合位点(TFBS),例如原核生物中的–10/–35元件和真核生物中的TATA-box。

TFBS 的序列偏好通常概括为基序并由位置权重矩阵 (PWM) 表示。由于 TFBS 的序列和功能通常是众所周知的,因此大多数研究人员通过操纵 TFBS 基序的组合和排列来设计新的启动子。然而,最近的证据强调 TFBS 侧翼序列也显著影响启动子特性。

TFBS 周围的侧翼序列的作用涵盖各个方面,包括物理化学特性(例如 DNA 形状)的影响、某些 TFBS 的特定侧翼序列偏好以及侧翼区域中存在增强 TF 结合的潜在低亲和力结合位点。很难将这些特征概括为明确的启动子设计规则;因此,在当前的启动子设计方法中很大程度上尚未探索侧翼序列的优化。

深度学习模型在真核和原核启动子工程中都显示出巨大的潜力。在这里,清华大学的研究团队提出了 DeepSEED(基于深度学习的侧翼序列工程,用于高效启动子设计),这是一种用于合成启动子设计的人工智能辅助侧翼序列优化方法。

图示:DeepSEED 方法概述。(来源:论文)

DeepSEED 旨在将专业知识与数据驱动模型的力量相结合,以促进高效的启动子设计。DeepSEED 由两个深度学习模型组成:一个是基于预设序列元素生成侧翼序列的条件生成对抗网络 (cGAN),另一个是基于 DenseNet-LSTM 的模型(其中 LSTM 表示「long short-term memory」),用于预测启动子属性。

为了设计具有所需特性的合成启动子,用户可以根据他们的先验知识,首先在任何位置输入任意数量的感兴趣的序列元件(例如 TFBS)作为「seed」,然后 DeepSEED 将根据「种子」生成侧翼序列,以适应启动子的隐式模式。随后,为了评估侧翼序列的重要性,研究人员使用预测模型和显著性图研究了功能性大肠杆菌启动子中侧翼区域的不同影响模式。此外,研究人员采用 t 分布随机邻域嵌入(t-SNE)来进一步分析和确认启动子活性与侧翼序列中 DNA 形状特征之间的关系。

图示:DeepSEED 捕获侧翼序列中的隐含模式。(来源:论文)

接下来,该团队将 DeepSEED 应用于三种不同的启动子设计任务:原核组成型启动子、原核 IPTG 诱导型启动子和真核强力霉素诱导型启动子。在所有这三种情况下,DeepSEED 通过优化侧翼序列,在实现所需的启动子特性方面表现出显著的改进,并且成功率很高。DeepSEED 生成的合成启动子表现出高度的序列多样性,同时保留了关键特征,例如 k 聚体频率和 DNA 形状特征。这些合成启动子表现出与天然基因组的低序列相似性,以及与随机侧翼序列相当的编辑距离。

这项研究强调了侧翼序列在确定启动子特性中的重要性。该团队强调在启动子设计中考虑更广泛的侧翼序列的重要性,而不是仅仅关注相邻的基序。DeepSEED 成功学习了侧翼序列的隐式模式,显著图和嵌入空间探索的结果表明 DeepSEED 提取的特征与启动子活性相关。可解释性分析对于理解基因表达调控至关重要。

这里重点关注了模型学到的 k 聚体频率和 DNA 形状特征来提供部分解释,但侧翼序列调节背后的生物学机制仍不清楚。深度学习模型的可解释性仍然是一个挑战。随着深度学习模型解释方法的快速发展,将深度学习和生物实验结合起来,以明确的方式揭示侧翼序列的特征如何影响启动子特性是可能的。

图示:大肠杆菌中 IPTG 诱导型启动子的设计。(来源:论文)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Nature子刊:清华大学汪小我团队开发AI辅助的启动子序列优化方法——DeepSEED
OmicShare Forum 专业的生物信息学论坛
Nat. Commun. | 预测肽特性的模块化深度学习框架
Brief Bioinform | RLBind:预测RNA-配体结合位点的深度学习方法
【深度学习】用于蛋白质功能特性预测的语言模型基准研究
机器学习与深度学习常见面试题(下)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服