DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

1、研究背景

鉴定新的药物-蛋白质相互作用对于药物发现至关重要，基于机器学习的方法利用药物描述符和一维（1D）蛋白质序列已经开发了许多鉴定方法。这些方法一般都是通过将配体，蛋白质及其相互作用的信息整合到一个统一的框架中，将是否存在相互作用的预测作为二元分类的任务。

最近的研究证明，由于大多数药物包含少于100个重原子，所以具有相对较小的结构空间，当前的深度学习技术可以根据药物分子的线性表达式SMILES准确预测结构特性。然而，蛋白质分子要大得多，通常包含1000多个重原子。而从1D序列到3D结构的预测是众所周知的具有挑战性的问题。因此，传统的一维蛋白质序列表示法不足以捕获3D空间中决定DPI预测的结构特征。尽管在最近的研究中尝试了3D结构的直接输入，由于一些原因，它们获得了相对较低的精度。首先，不规则蛋白质3D结构需要一个大的3D矩阵才能包含整个结构，高维稀疏矩阵导致大量无关的输入变量；其次，这些研究受稀缺的高质量3D蛋白结构数据的困扰，因为它们需要蛋白质-配体对的共晶结构，而这些结构很难通过实验确定。

为了解决上述问题，中山大学杨跃东教授的团队提出了一种端到端的深度学习框架DrugVQA，该框架利用二维成对距离图来表示蛋白质，因此DPI任务可以转换为经典的视觉问答（VQA）问题。在这里，图像是蛋白质的距离图，问题是药物的分子线性符号，答案是它们是否相互作用。该框架使得可以进行蛋白质单体结构的训练，而无需与其结合配体的共晶结构，从而大大扩展了可用于训练的数据集。为了对模型进行有效的训练，引入了动态注意力卷积神经网络（dynamic attentive convolutional neural network）以学习将长度不定的蛋白质变为固定大小的表示形式，并引入了自注意力顺序模型（self-attentional sequential model）以自动从分子SMILES中提取语义特征。大量的实验表明，相较于目前最先进的预测方法，DrugVQA在DUD-E，Human和BindingDB基准数据集上都表现出了竞争优势。该模型进一步的注意力可视化还为DPI提供了生物学解释，以描绘蛋白质和药物分子的相互作用区域。

2、方法

2.1将药物化合物以SMILES格式表示

SMILES格式是基于化学键规则的拓扑信息文本字符串。为了保存更多的化学特征，利用了如下正则表达式标记药物分子：

此外，还使用以下规则替换了多字符符号：

2.2将蛋白质以2D距离图表示

蛋白质可以简单地描述为由一系列氨基酸残基组成的线性序列，其中是一个利用one-hot表示的长度为20的向量，为蛋白质的氨基酸序列长度。计算二维成对距离图的方式如下：

对于第个氨基酸残基，它的向量就表示为

，对于整个蛋白质大分子，它的2D成对距离图即为

2.3动态注意力CNN（Dynamic attentive CNN）

在DrugVQA中，采用自适应的CNN模型将蛋白质的2D距离图编码为固定大小的向量表示形式。CNN模块使用了改进的残差网络（Resnet）和基于序列的自注意力机制（sequential self-attention）处理蛋白质输入。

每个残基块可以定义为：

与通常将图像预处理为相同大小的VQA任务不同，现实世界中的蛋白质具有不同的氨基酸长度，无法缩放。因此，需要设计一个动态神经网络使它既可以处理可变长度的输入，又可以预测每种氨基酸的重要性。因此需要去除残差块之间的池化层，并对输入的两侧使用零填充以确保残差块的结果与输入的大小相同，处理过后的输出就可以看作是蛋白质顺序表示。由于大多数位点与药物结合并不直接相关，因此识别小部分结合位点对于准确预测DPI至关重要，此时便引入了多头顺序注意力机制来充分利用这些特征进行预测。由于蛋白质结合口袋由空间上相邻的多个连续位点组成，因此是一个的矩阵以捕获结合口袋的整体结构信息。

然后通过将注释矩阵与之前得到的特征图相乘得到一个特征图，它是一个特殊的特征图，包含了相互作用里位点贡献的潜在关系。

2.4自注意力BiLSTM（Self-attentive BiLSTM）

每个药物分子的SMILES字符串被编码为一个两维嵌入矩阵M，矩阵中的词条向量彼此独立，为了获得分子中相邻词条之间的某种依赖性，使用BiLSTM（双向LSTM）处理分子。

接下来想要知道分子的哪个部分对相互作用的预测贡献最大，这样可以将其用于化学家设计或改进化合物。与上述处理蛋白质过程一样，通过引入多头自注意力机制来实现这一目标。注意机制将整个LSTM隐藏状态作为输入，然后输出权重矩阵。

通过将注释矩阵与LSTM隐藏状态相乘来计算加权总和，得到的矩阵是自注意力分子嵌入，这当中包含相互作用的药物化合物分子位点贡献的潜在关系。

2.5分类器

对于和，对所有注意力向量求和，然后对所得的权重向量进行归一化处理使其和为1，在此过程中得到的两个一维向量，将它们送进分类器并计算分类得分。

2.6训练

给定数据集

，利用交叉熵损失函数进行训练。

3、实验

3.1 DUD-E数据集

杨教授团队依据[Ragoza et al., 2017]提出的策略，采用了三重交叉验证的方式在DUD-E数据集上训练和评价DrugVQA模型。折叠在靶标之间进行，相同靶标的所有配体属于同一折叠。为了避免同源蛋白质的影响，将属于相同蛋白质家族的靶标严格地以相同的倍数保留。为了快速训练模型所以使用了平衡集（每个目标的所有正值和随机选择的等效负值）进行训练，但评价模型时包括了整个集合（非平衡值）。

3.2 Human数据集

在Human数据集中，根据[Tsubaki et al., 2018]的方法，选取了正负样本数量比为1:1的平衡集，得到了6,675种相互作用和1,998种蛋白质，然后利用了原文提到的五折交叉验证方法进行训练和评价。

3.3 BindingDB数据集

杨教授团队进一步选择BindingDB数据集作为实际数据集来评估DrugVQA模型。BindingDB是结合亲和力的公共数据库，主要关注小分子与蛋白质的相互作用。在实验中，团队使用[Gao et al., 2018]构建的自定义BindingDB数据集进行了头对头比较（head-to-head comparisons）。数据集包含39,747个阳性实例和31,218个阴性实例。

3.4 在DUD-E数据集上的比较

将DrugVQA与DUD-E数据集上的最新DPI方法进行比较：（1）传统对接方法Vina、Smina；（2）机器学习评分功能NN-Score；RF-Score；（3）基于深度学习的3D-CNN方法、AtomNet、GNN。

3.5 在BindingDB数据集上的比较

进一步在BindingDB数据集上评估DrugVQA。分别与四个方法进行比较：（1）基于相似度的方法Tiresias；（2）一种使用预定义分子指纹和蛋白质描述符中级特征的深度学习方法DBN；（3）分别使用GCN和LSTM处理药物分子和蛋白质高水平信息的方法E2E；（4）GNN。

3.6 可解释性

DrugVQA的另一个优势是其可解释性。为了说明这一点，团队研究人员在DUD-E数据集中选择了两个预测最好的相互作用：蛋白Hsp90（PDB：3EKR）和CDK2（PDB：2DUV）及其相应的活性物质。如图所示，绿色突出显示了绑定袋中高度受关注的位置，红色云层表示受关注的药物原子。较深的颜色表示较高的注意力系数。在这两种情况下，重量大于0.6的分子组分基本上与分子和蛋白质之间的相互作用位点重叠。同时，对于Hsp90（左），口袋重要性图突出显示了残基Asn51A，Asp93A和Met98A，它们与在共晶复合物中观察到的关键口袋残基高度重叠（PDB：2DUV）。对于CDK2（右），重要性图中突出显示的关键残基（Phe80A，Asp145A）和配体官能团与3EKR中观察到的相互作用具有高度相似性。这个结果表明DrugVQA可以为药物-蛋白质结合模式提供合理的依据。

4、结论

本文提出了一种新颖的端到端深度学习框架，利用视觉问答（VQA）模型以预测药物-蛋白质相互作用。在DPI研究中，这是第一次使用自注意力卷积和递归结构同时从蛋白质2D距离图和分子语言中提取特征。实验评估表明，DrugVQA模型在三个公共数据集上都显示出了最佳性能。此外，DrugVQA还能从生物的角度出发去解释分子间相互作用的本质。

参考资料

Zheng S, Li Y, Chen S, et al. Predicting Drug Protein Interaction using Quasi-Visual Question Answering System[J]. bioRxiv, 2019: 588178.

DrugAI

（扫描下方二维码订阅获取最新消息！）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。