——背景——
在药物开发中的一大难点是实验测量或模拟计算得到大量现有药物分子与靶点的相互作用,以及药物分子与脱靶蛋白的意外相互作用。药靶结合的强度常用结合亲和性常数来描述,包括解离常数(Kd)、抑制常数(Ki)和最大半抑制浓度(IC50)等指标。实验测量结合亲和性常数费时费力,因此计算方法得到药物开发者的青睐。
2021年4月27日,来自中山大学智能工程学院智能医疗中心主任陈语谦等人在J. Phys. Chem. Lett.上发表题为ML-DTI: Mutual Learning Mechanism for Interpretable Drug–Target Interaction Prediction的论文,提出了一种基于相互学习机制、无三维结构信息、具有可解释性的药靶相互作用预测方法。
计算方法分为传统的对接模拟(Docking simulations)和基于机器学习的方法。对于没有药物与靶点蛋白结合的三维结构信息的情况,对接模拟往往难以胜任或者耗时巨大。对此,Bock等人在2005年提出一种不借助三维结构信息的预测药靶结合(Drug-target interaction,DTI)的机器学习方法,仅从蛋白序列信息与药物分子的二维、一维表示出发,预测结合亲和力。之后深度学习算法也被应用到无三维结构信息的DTI预测任务中。其中主要用一维卷积神经网络(CNN)来捕捉蛋白序列局部的残基组合模式,再借助图神经网络(GNN)来编码药物分子。此外还可以结合集成学习方法提高算法效果、加入自注意力机制增加模型可解释性以及用多标签学习来解决单标签学习的局限性。
作者注意到之前的工作中,蛋白编码与药物编码过程是独立的,因而对此开发了一种交叉依赖的网络架构,在利用CNN编码的同时,使得蛋白与药物编码器协同工作,从而在编码阶段捕捉药物分子与蛋白的相互作用,模型架构如图1所示。
图1 ML-DTI模型架构示意图。
——数据集——
无三维结构信息的DTI预测benchmark数据集有Metz、KIBA与Davis,分别用Ki,KIBA分数与Kd来衡量结合亲和力,清洗数据后的情况如Table 1所示。其中靶点蛋白的信息为残基序列,药物分子的信息为SMILES。
表1 Metz、KIBA与Davis三个数据集的概况
——模型——
DTI结合亲和力的预测是一个回归问题,模型整体构架如图1所示。药物分子与蛋白序列中的字符先用整数编码,再经过Embedding layer,经过三层卷积层来提取局部模式,并用最大池化操作整合不同位置的特征,最后经过三层线性变换层预测结合亲和力。
在药物分子与蛋白序列编码过程中,作者加入相互学习机制,如图2所示。
图2 相互学习机制示意图。
通过多头注意力(Multihead Attention)得到靶蛋白的多个全局描述子,每个全局描述子是靶蛋白特征向量的加权和。通过对多个全局描述符进行均值运算,可以得到蛋白质的鲁棒性的全局描述符。通过计算蛋白质与药物分子每个原子之间的相互作用概率,可以利用位置感知注意力(Position-Aware Attention)得到药物分子特征向量的概率图,如图3所示。
图3 多头注意力与位置感知注意力的架构细节。
作者在实验中用了5-fold cross-validation,同时将数据集按照三种方式分割:(1)随机分割;(2)孤立靶蛋白分割(验证集与测试集中不含训练集中出现过的靶蛋白);(3)孤立药物分子分割(验证集与测试集中不含训练集中出现过的药物分子)
——结果与讨论——
作者将开发的ML-DTI模型分别与传统机器学习方法(RF、SVM、XGB)与深度学习方法(GraphDTI、LSTM-DTI、DeepDTI)进行比较,在不同数据集与不同分割方法中,大部分情况下ML-DTI有着更好的表现,尤其是在随机分割中的表现明显优于其他方法,其R2=0.727(KIBA数据集,随机分割)。在孤立靶蛋白分割与孤立药物分子分割的情形下,所有机器学习、深度学习模型表现下降,尤其是孤立药物分子,这说明药物分子的信息相比靶蛋白,对于DTI预测发挥了更大的作用。
同时作者尝试分别去除ML-DTI模型中的多头注意力与位置感知注意力,表现(MSE)都有所下降,从而验证这两个模块的有效性。
为了给深度学习“黑箱模型”提供解释性,作者将相互学习机制得到的概率图进行了可视化。作者选择人表皮生长因子受体(EGFR)作为靶蛋白(与乳腺癌有关的热门靶点),随机选择两个已知的DTIs(Afatinib与Gefitinib)进行预测,并从第二层互学习层提取概率图,并映射到分子结构与蛋白序列中,得到的结果如图4所示。
图4 ML-DTI药靶结合亲和力预测得到的概率图可视化(a)Afatinib分子结构中原子权重示意图;(b)Gefitinib分子结构中原子权重示意图;(c)EFGR与Afatinib结合结构示意,橙色为蛋白序列的权重较高的残基;(d)EFGR与Gefitinib结合结构示意,橙色为蛋白序列的权重较高的残基。
由可视化图可见,药物分子中形成氢键的关键杂原子都有着较高的权重,而蛋白序列中与药物分子有相互作用的残基也有着较高权重。
最后作者针对EFGR靶蛋白,找了9241个化合物(都未出现在训练集中;其中8个与EFGR有已知的DTI),得到预测的KIBA分数前20名中,出现了4个已知DTI的化合物(4/8),且前2名都是已知DTI的化合物。相比之下,其他深度学习算法的得分前20名中包含已知DTI化合物的情况如下:Graph-DTI 3/8;LSTM-DTI 1/8;DeepDTI 3/8。
——总结——
ML-DTI的工作亮点在于利用Attention机制提高模型表现的同时,还可以进行可视化分析,为模型提供可解释性,可以在药物设计时,预测靶蛋白与分子结合的残基位置与关键原子,同时由于只基于蛋白序列信息,无需三维结构信息,因此可以辅助药物设计时的快速高通量虚筛。
笔者认为作者最后的EFGR药靶结合虚筛的应用实例结果还不够严谨,在预测结果中,已知DTI化合物排名靠前不能完全说明预测的优越性,排名高的未知分子可能本身就是结合亲和力更优越的。在没有实验数据的验证下,该结果无法横向比较来说明模型的优势。
参考文献:
[1] Yang, Ziduo, et al. "ML-DTI: Mutual Learning Mechanism for Interpretable Drug–Target Interaction Prediction." J. Phys. Chem. Lett., 12(2021): 4247-4261. DOI:10.1021/acs.jpclett.1c00867
联系客服