用 Transformer 评估蛋白质结合界面，区分天然蛋白复合物和不正确构象

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

计算蛋白质结合研究广泛用于研究基本生物过程，从而促进现代药物、疫苗和疗法的开发。评分函数旨在评估和排序预测蛋白质复合物的结合强度。然而，蛋白质结合界面的准确评分仍然是一个挑战。

佛罗里达国际大学（Florida International University）的研究人员展示了 Protein binding Interfaces with Transformer Networks (PIsToN) 的方法来区分天然蛋白复合物和不正确构象。

蛋白质界面被转化为二维图像（界面图）的集合，每个图像对应于一种几何或生化特性。其中，像素强度代表特征值。其神经网络改编自视觉 Transformer，同时进行了多项增强：接受基于经验的能量术语的混合组件、突出基本特征和结合位点的多注意力模块以及使用对比学习，从而获得更好的性能。

该研究以「Evaluating protein binding interfaces with transformer networks」为题，于 2023 年 9 月 7 日发布在《Nature Machine Intelligence》。

随着基于机器学习的 AlphaFold 等工具的出现，蛋白质结构预测变得更加容易处理。该领域的下一个挑战是蛋白质对接。给定两种蛋白质结构（例如，设计的分子和受体或抗体和抗原），对接方法旨在通过计算预测可以形成稳定复合物的最佳结合位置和构象。蛋白质对接工具对于药物、疫苗和疗法的成功开发至关重要。

虚拟筛选已被证明可以节省药物设计过程中的财力和劳动力资源。然而，用于对接的现代计算工具预测了大量具有良好结合分数的候选复合物，但它们在实验室中尚未得到确认。

科学家已经提出了几种方法来将复杂的 3D 信息简化为紧凑的标签，同时保留与绑定相关的空间特征，从而用于评估蛋白复合物的结合界面。例如，PatchBag 根据小表面单元的几何特征来表征蛋白质界面区域，从而搜索蛋白质之间的进化和功能关系。深度局部分析使用局部定向立方体评估 3D 构象信息。

当前比较优秀的方法，分子表面相互作用指纹 (MaSIF) 采用「patch」数据表示来预测蛋白质相互作用。Patch 被定义为溶剂排除的蛋白质表面上的区域，其围绕潜在接触点具有固定的测地线半径。表面上的每个点都与几何和物理化学特征相关。训练暹罗图卷积网络以最小化交互 patch 的嵌入之间的距离，同时最大化非绑定patch的嵌入距离。据报道，MaSIF 比现有对接工具快 1,000 倍，与标准对接工具相比，精度仅略有下降。

但是，MaSIF-Search 存在许多局限性。首先，Siamese网络只能将属于单个蛋白质的特征作为输入，而排除显式的相互作用属性。虽然 Siamese 方法可以超快速扫描分子表面相容性，但它忽略了基本的相互作用项，例如范德华力、氢键、去溶剂化、相对侧原子之间的距离等等。

其次，MaSIF 训练方法通过随机选择界面区域之外的表面来生成负patch对。因此，负面实例由易于区分的非互补 patch 组成。研究人员假设使用近乎原生的非交互 patch 对可以实现更好的训练。

第三，MaSIF 网络架构仅由卷积层组成，而可以考虑更好的选择，例如基于注意力的模型和时间序列预测。

以 MaSIF-Search 为参照，佛罗里达国际大学的研究人员提出了一种名为 Protein Interface Scoring with Transformer Network (PIsToN) 的工具。

图示：PISTON 的特征工程流程。（来源：论文）

研究人员将蛋白质复合物的界面表示为 2D 多通道图像。与 MaSIF 方法一样，蛋白质表面的圆形「patch」首先与几何和物理化学特征相关。该团队执行额外的步骤，将 patch 转换为图像，其像素强度对应于与 1Å 分辨率的表面点相关的特征值。与 MaSIF 的单 patch 方法不同，该方法考虑来自蛋白质结合界面的成对 patch，使研究人员能够计算基本的相互作用特性，例如原子之间的距离、相对可及表面积 (RASA)、范德华相互作用、互补表面电荷和疏水性等等。

图示：PIsToN 网络架构。（来源：论文）

该方法为视觉 Transformer（ViT）模型提供了新颖的适应性，从而提高了预测性能并提供了可解释性。由于 ViT 最适合图像分类，因此选择用于表示特征的图像是一个理想的补充。

除了 ViT 的标准空间注意力之外，该方法还附加了另一个与特征类型（几何或物理化学）相对应的注意力轴。每个蛋白质特性的潜在表示是通过独立的 ViT 网络学习的，并使用 Transformer 编码器在潜在空间中组合。

图示：PIsToN 的可解释性。（来源：论文）

同时，研究人员使用将经验能量项与表面特征表示相结合的混合组件增强了 ViT 模型。另外，多注意力 ViT 允许通过两种方式进行解释：要素类和分类决策所必需的绑定位点。

并且，研究人员引入了一种具有新颖损失函数的对比学习策略，以学习本地绑定器和诱饵的判别性嵌入。先前对蛋白质界面进行评分的方法使用正随机对或多个正负蛋白质复合物的混合批次。在该方法中，每次训练迭代都包含同一蛋白质复合物的可接受和不正确的结合姿势的多个视图。损失函数中监督对比、边缘排序和二元交叉熵项的组合有助于在嵌入空间中聚集正确的对接模型，同时分离不正确的预测。

图示：蛋白质结合评分函数的分类性能。（来源：论文）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。