【蛋白设计】利用天然序列来指导和探索蛋白质工程与设计的序列空间

近期，来自Okinawa Institute of Science and Technology的Laurino教授课题组在Biochemistry上发表了题为“Efficient exploration of sequence space by sequence-guided protein engineering and design”的综述，讨论了序列数据在蛋白质工程和设计中的应用，重点关注了三个主要领域的最新进展: 1）基于系统发育进化分析的方法，包括共有设计和祖先序列重构；2）基于结构的计算蛋白设计；3）机器学习相关工作。其中Laurino教授长期从事蛋白质工程与进化相关的研究。

——背景介绍——

蛋白质在医药，商业，和科学领域有广泛的应用，而蛋白质工程的核心试图改变其功能或优化某些性质，如热稳定性、催化活性、溶解性以及立体选择性等。常用的方法如理性设计定向进化等是非常有效的，但是这只能考虑到与初始序列序列非常的相似的序列。多于30%的突变通常会对蛋白稳定性和功能有影响。另一方面，蛋白质工程与设计都试图探索远离天然序列的序列空间，并寻求更多更大的蛋白适应性的序列。任何单纯的实验或计算的方法穷举对序列空间探索都是不太可行的（例如10个残基的序列理论上有10^20种可能性，随着序列长度的指数增长，这是一个天文数据）。而对序列空间探索的中立办法就是围绕天然蛋白序列并考虑到突变替换是否能被预测进行。

其中一个非常有用朝向蛋白功能序列空间探索的数据资源就是蛋白质序列数据库。Uniprot至今包含了近2.19亿条非冗余的数据，并仍然在快速增长。虽然大部分测序实验没有解析这个序列特性，但是我们可以假设经过自然选择他们可以维持特定结构和功能，至此，我们可以对其进行功能预测。约54%的蛋白质家族在Pfam中可以找到超过500条同源序列，这些都可以用常用的搜索比对工具如blast，HMMER等。而这些序列包含了蛋白质家族丰富的有价值的信息促使产生折叠稳定和有功能的蛋白，例如催化位点的保守残基和他们之间的依赖性。蛋白质工程一直试图利用这些信息来提高其性能。并且最近随着序列的快速扩增，这一方法更好地揭露和提高了探索更远序列空间的潜能。

——方法——

这里主要讨论了三方面内容，1）基于系统发育进化分析的方法，包括共有设计和祖先序列重构；2）基于结构的计算蛋白设计；3）机器学习相关工作。

1）共有序列设计和祖先序列重构是蛋白质工程中常用的两种方法，它们的思想核心都要先做多序列比对。具体而言，对共有设计而言，在多序列比对完之后，把各个位点上频次最高的氨基酸找出来（图1），其他残基替换可以逼近这些频次最高的氨基酸。这些替换可以引入单个蛋白质，也可以引进库里面做定向进化。这些信息有一个很大的不足是没有考虑共变化的残基信息，以及将非常相似序列囊括进进化分析造成偏差。

祖先序列重建也是基于多序列比对，基于系统进化树用极大似然估计或贝叶斯估计来重建一个蛋白质家族的祖先序列。通过这种方法重构出来的祖先序列热稳定性都一致高于祖孙后代序列，这也证明祖先生活在相对比较热的环境。与此同时，在蛋白质工程中，只基于这些蛋白数据来生成热稳定的蛋白是非常可信的。目前祖先序列重构的主要障碍来源于大量人工构件的序列数据集以及精准的进化树推断所需的多序列比对工具。这里推荐一个比较友好的自动化的工具FireProt^ASR。包括数据构建和比对时候插空重建等。

图1 共有设计和祖先序列重构流程图

2）序列信息指导基于结构的设计

基于结构的能量函数计算限制了计算蛋白设计的准确性，因为要权衡用于计算的能量函数的计算可行性和准确性这一问题使得精准预测蛋白结构或功能单个替换的影响。这有一个最实际的问题就是同时引入多个替换，因为一个不好的替换可能或破坏另一个有效替换。这里介绍两种有用的工具来解决基于序列和基于结构的组合，他们的目标都是重新设计蛋白来增加热稳定性和表达。如图2，PROSS利用在多序列比对中观察到的每个位置的氨基酸频次来定义一系列允许替换的位置。然后用Rosetta去打分。而在FireProt中，可能能够稳定基于能量和基于进化的替换通过基于结构的能量计算和共有设计被分别识别出来。基于能量替换的假阳性可以用基于进化的评判标准过滤掉，最终兼容的替换组合来获得少量的多变突变，方便后续实验验证。另一个用序列数据作为约束的基于结构的酶功能设计是FuncLib方法。这个方法的目标是用酶功能位点的多个替换以获取稳定和功能多样性的酶变体。

图2 囊括序列数据到基于结构的蛋白设计。

3）蛋白质序列和功能的统计建模：机器学习和其他方法

机器学习试图找到数据中的模式，而不是尝试准确建立产生数据的物理或生物过程。广泛用于蛋白质工程中的监督学习方法来定量建立一个蛋白质适应性能量景观模型。这些方法最近取得了一些成功。如果能用这些已经可以得到的序列数据来学习这种序列模式或者设计规则，例如定义一个蛋白质结构或者功能，然后产出新的或者更高的序列并表现出这些定义好的模式，同时排除或减少实验需要。如图3，最近也有一些用无监督和半监督学习的工作，这里介绍几个实验验证过的一些例子。Repecka 等人在苹果酸酶序列训练了一个生成对抗网络，这些生成的序列占据了不同的序列空间并占多更高的多样性，随后实验验证发现55个中的13个是可溶并有功能，这些大部分都有66%的序列一致性。（笔者之前也在组会上讲过这篇文章，觉得这个工作的写的有点大，首先活性位点残基没有变，其次这么高的sequence identity（similarity预估会达到了90%以上了），个人感觉还是很容易做到的）。用生成模型到蛋白质工程中的关键挑战在于目标不是生成多样性序列，而是产生性质相似的蛋白，并提高相应的性质。而一个非常有用的应用是构建库来发现抗体和其他特异性binders。

例如，Shin等人用骆驼纳米抗体训练自回归模型来设计了一个小的多样性更稳健也更好表达的纳米抗体，一个大的优势在于他们用的是没有比对的序列（即长度不等），这是因为抗体序列有可变长度的互补确定区域，这在比对中是很难做准的。这个库包含了近185000条多样性序列。另一个用深度生成模型的策略是生成我们希望的某些属性的序列。Hawkins-Hooker等人在约7w条荧光素酶序列上训练了一个条件自编码器。基于计算预测，这些序列标记上了低溶，中溶和高溶的标签。用这个模型测试的生成的23个是中溶和高溶，最终经过验证8个是有功能的，并溶解度大于10%。尽管如此，这个模型前提高度依赖精准的基于序列的性质预测器，换句话说如果溶解度预测不对，后边的生成的序列的实验就很难展开。

图3蛋白质工程和设计中的无监督和半监督的学习方法

——总结——

序列数据在蛋白质工程中依然是非常重要的部分，这个范围会随着方法的发展不断扩大。机器学习方法开发目前虽然能够用于设计与天然蛋白相比更好的性质，但是最大的问题在于实验验证。当感兴趣的蛋白质特性问题不能序列预测时（有监督学习），如催化特异性，半监督学习方法可能会有用，可以学习这个家族的信息。最后，序列数据库仍然在快速发展，提高方法对宏基因组和代表性不足的进化组的战略性测序正在提供有用和非冗余的蛋白质序列，利用更先进的测序手段对某些数据缺少或没有的蛋白质家族增强序列，这可以将基于序列的工程方法延申到其他蛋白质家族上，在有了这些测序的数据后，就可以利用现在或发展中的方法对蛋白质进行改造和设计。

参考文献：

Clifton B E, KozomeD, Laurino P. Efficient exploration of sequence space by sequence-guided protein engineering and design. Biochemistry, 2022.

https://doi.org/10.1021/acs.biochem.1c00757

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。