Int J Mol Sci｜CSatDTA：带自注意力机制的卷积模型预测药物-靶标亲和力

2022年7月14日，韩国全北国立大学电子与信息工程系的Kil To Chong研究团队和美国得克萨斯大学达拉斯分校生物科学系的Zhenyu Xuan研究团队在期刊International Journal of Molecular Sciences上合作发表一篇论文《CSatDTA: Prediction of Drug–Target Binding Affinity Using Convolution Model with Self-Attention》。本论文仅使用药物的SMILES和蛋白质的序列信息、借助注意力机制增强的卷积网络来预测药物-靶标亲和力，得到了较好的效果。作者还提供了一个Web服务器供研究者使用。

1 摘要

在药物开发的早期阶段，预测药物-靶标的亲和力 (Drug-Target Affinity, DTA) 是至关重要的。本文所提出的模型，即带自注意力机制的卷积模型 (a Convolution model with Self-attention) 预测药物-靶标亲和力 (CSatDTA)，将基于卷积的自注意力机制应用于分子药物和靶标序列，以有效地预测药物-靶标亲和力（DTA），而不像以前的卷积方法那样，在这方面表现出明显的局限。卷积神经网络（CNN）只对某一特定区域的信息起作用，不包括全面的细节。另一方面，自注意力机制是一种相对较新的捕捉远程相互作用的技术，主要用于序列建模任务。

对比实验的结果表明，CSatDTA超过了以前基于序列或其他的方法。

2 材料与方法

2.1 材料

本文利用了公开的KiBA和Davis两个数据集，用于评估模型，数据的统计情况如表1所示。

表1 数据集的详情

2.2 药物和靶标的表示

作者用SMILES字符串序列表示药物，并将每个字符通过一个标签表示方法编码为唯一的整数，一共包括64个整数。SMILES序列长度限制为100个字符。

作者将蛋白用one-hot编码表示，并将蛋白序列长度通过截断或者补齐限制为1000个氨基酸残基。

作者还分别统计了两个数据集中药物和蛋白的序列长度，如图1所示。

图1 KiBA和Davis数据集的分析：(a)KiBA数据集中SMILES长度的分布，(b)KiBA数据集中蛋白序列长度的分布，(c)Davis数据集中SMILES长度的分布，(d)Davis数据集中蛋白序列长度的分布。

2.3 模型：CSatDTA

图2 本文所提模型CSatDTA的框架

仅基于CNN的模型不能捕获原子间远程交互的信息，本文利用自注意力技术来克服这个问题，具体的模型框架如图2所示。具体细节如下所述。

注意力机制

作者首先通过多头注意力机制来学习特征。对于输入特征维度为

，将第一、二维展平为

，得到单头注意力：

将单头注意力输出拼起来，再做线性变换：

为了与之前的维度相对应，作者亦将此维度重新调整为

。

注意力机制特征和卷积特征结合

作者将两者学到的表示拼接起来，成为注意力增强的卷积，即

之后，作者将学到的药物和蛋白表示，对应拼接起来，通过MLP，即可得到对应的预测值。

3 结果

3.1 超参数设置

表2总结了实验中所用的超参数。

表2 CSatDTA模型的参数

3.2 模型的比较

表3和表4分别展示了对比模型与CSatDTA在KiBA和Davis数据集上的表现。作者采用了三个指标来综合评价模型的表现，分别是均方差(Mean-Squared Error, MSE)、均方根差（Root-Mean-Squared Error, RMSE）和一致性指标（Concordance Index, CI）。可以看到，本文所提出的模型CSatDTA在两个数据集上均取得了较好的表现。

表3 模型在KiBA数据集上的预测表现

表4 模型在Davis数据集上的预测表现

作者还将CSatDTA模型对KiBA和Davis数据集上的预测值和真实值进行了可视化，分别展示在了图3和图4中。

图3 Davis数据集上的CSatDTA模型预测值与实际的结合亲和力值

图4 KiBA数据集上的CSatDTA模型预测值与实际的结合亲和力值

3.3 Web服务器

作者建立了web服务器实现CSatDTA模型，供研究者使用，截图如图5所示。该工具接受药物的SMILES和靶标的蛋白质序列作为输入，以计算亲和度得分，网址是：http://nsclbio.jbnu.ac.kr/tools/CSatDTA/。

图5 结合亲和力预测的Web服务器示例

4 讨论

本研究中，作者用自注意力机制增强的卷积网络建立回归模型。本文提出了一种新的2D相对自注意力回归技术，其允许使用序列数据训练具有竞争力的自注意力亲和力预测模型。作者证明了这种自注意力机制优于其他的注意力机制方案，并将其作为卷积算子的补充。此外，广泛的验证表明，注意力的增强系统性地改进了以前的卷积神经网络方法。

结果显示，具有注意力机制的深度学习方法明显优于基线方法或以前的方法。该研究通过提出一个独特的基于深度学习的模型，可以预测药物与靶标的亲和力，该模型仅简单地采用了蛋白质和药物的字符串表示，而做出了重大贡献。对于药物和靶标，作者取得了与基线方法相当或更好的结果，基线方法依赖于各种技术和策略来从原始序列数据中提取特性。本文的实验预测了已知药物和靶标之间新的相互作用。未来的研究将专注于为新药物预测现有的靶标。此外，作者打算将这一方法扩展到预测已知药物的新靶标的应用中去。

参考资料

Ghimire A, Tayara H, Xuan Z, Chong KT. CSatDTA: Prediction of Drug-Target Binding Affinity Using Convolution Model with Self-Attention. Int J Mol Sci. 2022 Jul 30;23(15):8453. doi: 10.3390/ijms23158453.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。