【深度学习】用于蛋白质功能特性预测的语言模型基准研究

2022年3月，土耳其哈斯帕特大学的Tunca Doğan教授课题组在Nature Machine Intelligence上发表了题为“Learning functional properties of proteins with language models”的综述文章，全面地整理了2015年以来提出的蛋白质特征向量表示方法，并在四种任务上比较了其中部分方法捕捉蛋白质功能特性的能力。

——背景——

蛋白质的功能表征对于开发新型有效的生物医学策略和生物技术产品至关重要。截至2021年5月，UniProt蛋白序列和注释知识库中约有2.15亿个蛋白质条目；然而，其中只有56万份(~0.26%)得到了专家管理员的人工审查和注释，这表明目前的测序(数据生产)和注释(标签)能力之间存在很大差距。这一差距主要来源于湿实验和人工注释所需要花费的大量时间和金钱成本。在这种背景下，许多研究小组一直致力于开发新的计算方法来预测蛋白质的酶活性、生物物理性质等并最终预测它们的功能。而其中基于深度学习的技术更适合于解决较为复杂高维的计算问题，同时输入深度神经网络的生物分子特征向量对最后的预测性能有着密切的影响，因此选择合适的蛋白质特征向量生成方法是蛋白质功能预测成功的关键前提。

——方法——

蛋白质表示方法（即构建蛋白质特征向量的方式）

目前的蛋白质表示方法可以分为两大类：（1）传统表示（即模型驱动方法）。这种方法是使用预定义的属性规则生成，如用基因/蛋白质之间的进化关系或氨基酸的物理化学属性来表示；（2）数据驱动的表示方法。这种方法使用统计和机器学习算法，通过在预定义的任务上进行训练（比如预测蛋白质序列上的下一个氨基酸），将训练好的模型输出的特征向量表示用于其他与蛋白质信息学相关的任务，如功能预测等。文章全面地将2015年以来40种蛋白质特征表示方法整理成表格，大部分算法是基于自然语言处理模型Word2vec、Transformer等，有少部分只使用了简单的卷积神经网络或长短时神经网络等框架。这个表格提供了很好的查阅功能，但篇幅过长，具体可点击原文链接查看。

测试方法

研究者共选取了15种数据驱动的蛋白质表示方法：Learned-Vec, SeqVec, Mut2Vec, Gene2Vec, TCGA-EMBEDDING, ProtVec, TAPE-BERT-PFAM, MSA-Transformer, CPCProt, ProtBERT-BFD, UniRep, ESM-1b, ProtALBERT, ProtXLNet, ProtT5-XL；以及9种传统表示方法 BLAST, HMMER, PFAM, AAC, APAAC, K-Sep, InterPro2GO, UniRule2GO, Ensembl-Orthology。

基准任务

为了比较上述24种方法捕获功能信息的能力，研究者将这些表示方法应用于四类具体任务进行比较：（1）蛋白质之间的语义相似度推断；（2）基于基因本体语言（GO）的蛋白质功能预测；（3）药物靶蛋白家族分类；（4）蛋白-蛋白亲和力估计。

图1 研究的示意图（a）蛋白质表示方法基准研究流程总览。（b）可以使用各种数据源来构建表征向量，这些数据也可以用来训练无监督或有监督的模型，模型输出的特征向量可以用于不同的应用。

——结果——

在四种不同任务上表现最佳的特征向量构建方法有所差异，但研究者对四个试验进行仔细的分析研究后可以得到如下结论：

（1）在蛋白质功能分析中，基于深度学习的数据驱动表示方法往往比经典方法表现更优。另一方面，在预测分子功能类别的蛋白质功能预测任务中，基于隐马尔可夫模型（HMMs）的经典方法HMMER可以与基于深度学习的表示方法相竞争，因为序列相似性与蛋白质的生化特性有着高度的相关性，使用这一特征的简单向量表示几乎可以和复杂的序列建模方法达到一样好的效果。

（2）模型设计和训练数据类型是影响任务性能的关键因素。实验表明，使用相同的训练数据集时，更复杂的模型（如ProtT5-XL）在大多数基准测试中表现得更好。另一个发现是，目前的大多数模型只是用一种类型的数据（如蛋白质序列）进行训练，但合并多种数据类型可能会在功能相关的预测任务中获得更好的性能表现。例如，ACC和APAAC方法都使用氨基酸组成来表征蛋白质，但APAAC还在其模型中加入了物理化学性质，在语义相似性推断和蛋白质功能预测基准测试中表现明显更好。同样，Mut2Vec方法融合了突变信息、蛋白质蛋白质相互作用和文本数据，并在测试中取得了最好的性能。

（3）该文章还提供了基准测试软件（Protein Representation Benchmark, PROBE），允许研究者在上面定义的四个基准测试任务中轻松地评估任何表示方法的性能，并将结果与本研究中报告的结果进行比较。

图2 蛋白-蛋白结合亲和力估计的基准测试结果。（a）皮尔逊相关系数百分比，表示预测值与真实结合亲和力之间的相关性(值越高越好)。（b）MSE值乘以10²(值越低越好)。（c）MAE值乘以10²(值越低越好)。

——小结——

蛋白质表示学习（可理解为蛋白质特征向量的构建方法）是一个年轻但高度活跃的研究领域，主要受自然语言处理(NLP)方法的启发，因此蛋白质表示学习方法在文献中经常被称为蛋白质语言模型。本研究在四个具体任务上对多种蛋白质表示方法进行了基准测试，希望能够帮助那些想要将机器/深度学习技术应用于生物分子数据的研究人员进行预测建模，并为开发新颖、复杂和稳健的以数据为中心的方法来解决蛋白质科学中的开放问题提供新的思路。

Reference

S. Unsal et al., Learning functional properties of proteins with language models. Nature Machine Intelligence 4, 227-245 (2022). DOI: 10.1038/s42256-022-00457-9.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。