打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据驱动的计算蛋白质设计

计算蛋白质设计可以生成采用所需结构并执行新功能的自然界中未发现的蛋白质。尽管理论上可以使用从头开始的方法设计蛋白质,但实际成功来自使用大量描述现有蛋白质及其变体的序列、结构和功能的数据。研究人员展示了最近在计算蛋白质设计中多序列比对、蛋白质结构和高通量功能分析的创造性用途。方法范围从使用实验数据增强基于结构的设计到构建回归模型,再到训练生成新序列的深度神经网络。展望未来,深度学习对于最大化蛋白质设计数据的价值将变得越来越重要。

1

介绍

计算蛋白质设计的目标是产生新的蛋白质,使其折叠成所需的结构并执行有用或有趣的功能。这个问题的早期表述令人信服,它被认为是寻找适合天然骨架的残基组合,很像立体化学拼图。使用这种方法重新设计天然蛋白质或复合体以提高或改变其稳定性或功能的例子很多。这一中心设计概念已被详细阐述,并取得了巨大的成功,现在可以利用二级结构和环的片段或现有折叠的重新组合片段从头开始构建蛋白质。为了评估候选的原子分辨率设计模型,广泛使用的Rosetta程序根据伪物理势对序列-骨架的拟合进行量化,其中包括扭转应变、残基脱溶、范德瓦尔斯、静电和氢键相互作用的贡献。为了获得最佳的性能,Rosetta 评分函数融合了使用现有结构参数化的分析和统计术语。

目前,计算蛋白质设计研究正在快速变化。高通量DNA 合成和测序的革命以及机器学习的进步正在塑造该领域。很快,大多数设计方法将以远远超过当今所做的方式使用数据。本文中,研究人员强调了将不同类型的数据纳入计算蛋白质设计的方式,有时与基于结构的建模结合使用,但通常作为这种方法的替代方法。研究人员关注三种类型的数据:进化相关蛋白质的多序列比对 (MSA)、实验蛋白质结构和来自高通量实验的数据。

2

MSAs数据

来自不同生物体的同源物可以提供多达数十万个具有相关结构和功能的蛋白质示例,并且可以挖掘同源序列的比对以获得具有统计意义的模式。对大型MSA中成对位置的残基协变的定量分析可用于对突变对稳定性的影响进行评分,并预测蛋白质结构和蛋白质-蛋白质相互作用。从大比对中预测残基-残基距离图的能力使 DeepMind 的蛋白质结构预测方法AlphaFold 取得了惊人的成功。

许多小组已经研究了蛋白质序列比对如何为设计提供信息。正如Weinstein 等人所讨论的,一种方法是将 MSA 中的进化信息与基于结构的设计相结合。且如Zhang实验室的EvoDesign。这种对传统基于结构的建模的补充可以帮助识别潜在的破坏性突变,将设计搜索集中在具有功能的残基组合上,并补偿设计能量函数中的错误。Goldenzweig 等的研究表明这是一种在大肠杆菌中设计具有更高稳定性和表达水平的蛋白质的有效方法。

另一种方法是仅使用进化相关序列比对中的信息,绕过构建全原子模型的需要。一种简单的方法是共识设计,它涉及在同源物比对中选择每个位置上最常见的残基;这不需要任何复杂的算法。共识设计有着悠久的历史,包括作为设计高度稳定和通用的锚蛋白重复蛋白的基础。最近,Barrick实验室测试达成共识的设计方案在七个结构不同的蛋白质家族。共有设计与任何现有域序列具有最多 63-80% 的序列一致性。所有七种共有蛋白协同折叠。值得注意的是,对于五个家族,共识设计在热力学上比报告的最稳定的天然变体更稳定。考虑到简单的设计过程并没有明确说明残基之间的相互作用,这个结果最初似乎令人惊讶,但共有序列可能保留了许多有利的耦合。

使用MSA进行蛋白质设计的另一种方法是从比对中的信息导出潜在函数。Tian等使用伪似然优化从GA、GB 和SH3 域的大型 MSA推导出形式的 Potts 模型。作者使用此评分函数生成了能量与原生域相似的人工序列。在 15 个测试设计中,11 个展示了协同折叠,3 个通过 NMR 确认具有预期结构。Russ等人使用 1259 个不同的分支酸变位酶序列构建Potts模型,然后使用 Potts模型生成新序列。当测试大肠杆菌的功能互补时在缺失菌株中约 40% 的天然酶是有活性的。引人注目的是,对于与天然酶具有相似能量的设计酶,相似的部分具有功能性。为了与设计的酶进行比较,另外制备了 326 种蛋白质,它们与天然蛋白质具有相似的序列同一性,但具有更高的统计能量。这些序列都没有功能,作者得出结论,描述残基之间相互作用的配对对于设计至关重要。前瞻性地使用数据来理解设计的蛋白质中,大肠杆菌中的功能被证明可以通过对 1259 种天然酶的实验数据进行训练的回归模型得到很好的预测。

在相关序列上训练的神经网络也可用于设计。理论上,深度学习模型可以捕捉更复杂的关系,例如,超越残基对相互作用,并且可以更准确地描述复杂的序列景观。Wu等使用在 20,000 个分泌蛋白实例上训练的神经网络设计了功能信号肽序列。

基于MSA 的设计方法可以在由蛋白质家族现有成员定义的序列空间中表现良好。先前描述的设计蛋白质与天然家族成员具有至少 50% 的序列同一性,功能性蛋白质具有更高的同一性(通常 >60%)。如何使用从已知家族中提取信息的模型引入非本地函数并不明显,而且到目前为止,在序列数据上训练的方法似乎无法推广到训练中没有代表的家族。尽管如此,基于MSA 的方法可以设计新的家族成员,这些成员可能具有更高的稳定性、溶解性、改变的特异性或其他所需的特征。

3

蛋白质结构的数据

设计方法,例如Rosetta,FOLD-X,和EvoDesign/ EvoEF2得分方面使用的蛋白质结构量化蛋白质稳定性的贡献参数。几个小组探索了更直接地评估序列-结构兼容性的可能性,使用实验结构中的信息,无需构建全原子模型或将能量分解为难以准确近似的物理项。

Grigoryan 实验室利用了观察结果,即蛋白质由三级结构基序 (TERM) 组成,这些基序经常在不相关的蛋白质中重复出现。MacKenzie等人表明使用 TERM 可以有效地覆盖结构空间,并且在解决的结构中存在足够的基序简并性以提供序列偏好的定量估计。用于估计给定结构上序列概率的基于TERM 的模型已被用于预测突变对稳定性的影响并识别预测结构的错误区域。基于TERM 的评分是“使用TERM 能量设计”或 dTERMen 的基础,它以蛋白质骨架坐标作为输入,并使用蛋白质数据库(PDB) 中的TERM 序列-结构统计数据以外的任何信息来求解相应的序列图谱。

Frappier等展示了基于 TERM 的计算可以预测与 Bcl-2 家族蛋白结合的短α-螺旋肽的相对亲和力,其准确度等于或优于 Rosetta 和 FoldX。dTERMen用于设计与家族成员Mcl-1和Bfl-1结合的肽,从而产生了与天然结合物仅有15-38%序列同一性的高亲和力肽。dTERMen 还用于重新设计mCherry的表面,同时保留其荧光。

Polizzi和DeGrado 设计了一种类似于TERM 的方法来设计与小分子结合的蛋白质。COMBS 方法在 PDB 中搜索功能基团的重复排列,例如羧酸盐和蛋白质骨架结构的接触单元;这种排列被称为“van der Mers”,类似于离散的侧链旋转异构体。van der Mers 用于柔性小分子阿哌沙班中的羧酰胺和羰基,用于鉴定螺旋束骨架库中的候选结合位点。这导致了阿哌沙班结合剂的从头设计,其解离常数为 0.6 和 5 μM。

在 PDB 上训练的神经网络可用于预测仅由骨架坐标组成的输入结构在每个位置的残基偏好。这种类型的模型包括 SPIN 和 SPIN2、Wang 等人的模型以及 ProDCoNN 的backbone-only 版本。这些方法不考虑特定的残基-残基相互作用,但在使用与训练集序列相同小于 30% 的结构的交叉验证测试中,给出了令人印象深刻的原生序列恢复率,约为 30-39%。研究人员注意到,这个指标很难在使用不同测试结构集的研究之间进行比较。

其他团队提出了图神经网络作为捕获残基相互作用的一种方式。Ingraham等人建立了一个生成模型,该模型可以通过以先前选择的序列和蛋白质骨架构象为条件,从N到C方向逐步预测下一个残基来设计蛋白质。模型性能在一组与训练集中任何结构无关的域上进行了仔细的基准测试。相同的测试集上,该模型比 Rosetta 固定主干设计提供了更好的本地序列恢复。编码详细的骨架几何形状和残基方向信息被证明对最佳性能很重要。Strokach 等人使用更简单但相似的图神经网络生成许多具有类似天然特性的序列,并设计了两种蛋白质,它们的模板结构具有 38% 和 48% 的序列同一性。两种蛋白质均折叠,其中一种蛋白质的 CD 光谱与模板结构非常相似。图神经网络模型经过训练后运行速度非常快;Ingraham等人的模型设计蛋白质序列的速度比 Rosetta 快三个数量级以上。

在更高的分辨率下,在全原子结构上训练的 3D 卷积神经网络可以捕捉特定侧链构象的影响。Anand-Achim等实现了与 Rosetta 结构建模类似的序列和旋转异构体恢复,并设计了八个 TIM 桶,其中三个,其序列同一性范围为初始模板的 53% 至 64%。与图神经网络相比,该模型的计算强度更高,并且序列设计比使用Rosetta时慢。

基于结构的方法可用于重新设计现有蛋白质骨架上的序列或生成具有新折叠的蛋白质。迄今为止,在序列和结构空间中设计蛋白质的能力超出了自然界采样的范围,这使结构方法比基于序列的设计具有显着的优势。

4

实验数据

基于序列的设计可以生成类似于已知家族成员的新蛋白质,但深度 MSA 并不总是可用。基于结构的方法在蛋白质设计方面取得了显著进展,但在困难问题上的成功率非常低。将实验数据引入设计过程可以促进成功。

解决困难设计问题的一种越来越常见的方法是进行第一轮基于结构的设计,测试许多候选物,然后对最有希望的分子进行深度突变扫描。突变扫描测量每个可能的点突变对蛋白质功能的影响,有益的残基可以纳入后续的优化轮次。Cao等人使用这种策略设计了SARS-CoV-2受体结合域的从头微型蛋白质结合剂。将Kd值为 100 nM 至 2 μM 的基于结构的设计用作深度突变扫描的输入,然后进行组合筛选,提供有效的皮摩尔结合剂。

用于基于结构的设计的评分函数可以使用实验数据进行微调。在这种方法的早期例子中,Grigoryan 等人。使用实验确定的耦合能量来改进用于coiled-coil 相互作用的评分函数。Rocklin等人使用大量稳定性数据来分析与蛋白水解抗性相关的设计蛋白质的特征。有了这些信息,就可以对评分函数进行重新参数化,以增加对疏水性埋藏的奖励,从而在随后的设计回合中获得更高的成功率。这种将实验数据反馈到设计过程中的过程,而不是简单地使用它来实现一个项目中的特定设计目标,对于该领域的未来发展非常重要。

数据驱动设计的局限性源于获得关于蛋白质结构和功能的高质量、高通量数据所需的大量时间和费用。然而,随着新技术使检测能够在小型化流动装置中运行或通过 DNA 深度测序读出,这种情况正在发生变化。汇总和组织实验数据的数据库将有助于推动该领域的发展。值得注意的是,ProtaBank 目前包含来自 1667 项实验研究的数据,描述了超过 180 万种蛋白质变体。ProtaBank 和其他存储库将变得越来越重要,因为计算蛋白质设计方法结合了数据以推动未来的成功。

5

On the horizon

深度学习社区已经认识到蛋白质序列和结构数据包含神秘但有价值的模式。蛋白质设计的深度学习方法,包括最初为自然语言处理开发的方法,出现在会议记录和预印本中的频率很高。在一个有趣的方向上,计算小组正在研究在深度学习中代表蛋白质的最佳方法。最直接的方法是使用氨基酸序列,但其他低维表示或“嵌入”可以直接从大量蛋白质序列中学习。这样的模型从所有已知的蛋白质序列中提取信息,而不仅仅是从一个靶标家族中提取信息,并且具有捕获更多一般属性和上下文依赖的潜力。与任何本地示例不同的新蛋白质的设计和实验验证是一项艰巨的测试,并为这种类型的学习方法设定了很高的标准,但有令人兴奋的证据表明这是可能的。

参考资料

Frappier, V., & Keating, A. E. (2021). Data-driven computational protein design. Current Opinion in Structural Biology, 69, 63-69.

https://doi.org/10.1016/j.sbi.2021.03.009

Shin, JE., Riesselman, A.J., Kollasch, A.W. et al. Protein design and variant prediction using autoregressive generative models. Nat Commun 12, 2403 (2021). 

https://doi.org/10.1038/s41467-021-22732-w

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
AlphaFold2的原理和架构及其在生物学和医学领域的应用
【AlphaFold】增加采样数量可以提高蛋白质结构和功能预测
我国科学家建立蛋白质设计新方法
头秃元凶「真面目」首次被揭穿,鹅厂程序员立功了
Nature子刊:百图生科宋乐团队开发新型蛋白质结构预测工具,不依赖多序列对比,效率更高
热点综述 | 利用宏基因组数据促进蛋白质结构预测和新功能蛋白的发现
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服