Bioinformatics｜基于图的多任务学习方法预测药物协同作用

2023年6月1日，同济大学刘琴教授团队在Bioinformatics上发表文章。本文提出了完全基于图的多任务学习方法预测协同药物组合（Complete Graph-based approach with Multi-task learning for predicting Synergistic drug combinations，CGMS）。

CGMS将药物组合和细胞系建模为异构完全图，并利用异构图注意网络生成全图嵌入来表征它们之间的相互作用。基于全图嵌入，CGMS可以进行稳定的、与顺序无关的预测。为了提高CGMS的泛化能力，本文采用多任务学习技术对模型进行药物协同预测任务和药物敏感性预测任务的同时训练。结果表明CGMS在药物组合场景中显著优于其他方法。

背景

药物联合治疗比单一治疗有明显的优势。由于组合空间难以通过实验遍历，基于计算方法识别新的协同药物组合已成为预筛选的有力工具。其中，基于深度学习的方法远远优于其他方法。然而，大多数基于深度学习的方法是不稳定的，即使只是简单地改变药物的输入顺序，也会给出不一致的预测。此外，药物联合筛选的实验数据不足，限制了现有模型的泛化能力。这些问题阻碍了基于深度学习的模型投入使用。

方法

药物反应预测（drug response prediction）旨在预测不同细胞系对药物的敏感性，常通过半抑制浓度IC50来度量和进行回归预测。然而，临床治疗中往往将多种药物联合使用，因此，有必要进行协同用药预测（drug synergy prediction），考察不同的药物组合在特定细胞系上的协同分数（synergy score）。CGMS采用多任务学习框架，即同时预测单个药物在细胞系上的敏感性（本文中通过相对抑制率RI来度量）和两种药物的组合在细胞系上的协同分数（本文中通过Loewe分数来度量）；输入药物d1，药物d2和细胞系c组成的三元组，输出协同分数的回归预测。

CGMS采用药物协同作用数据集进行训练。从DrugComb数据库中收集药物分子及药敏信息。接着利用分子指纹图谱和SMILES描述符构建药物特征向量，利用RDKit工具包提取每种药物的指纹图谱和分子描述符，计算了半径为3的Morgan指纹，并将指纹转换为1024维二进制向量，还计算了189个收集药物的非零方差分子描述符。然后将药物指纹向量与分子描述符进行拼接，并进行z-score归一化，形成原始的药物特征矩阵。最后，使用自编码器将药物特征编码到256维。

细胞系特征的构建主要基于Cancer cell line Encyclopedia (CCLE)提供的RNA-Seq transcript per million (TPM)基因表达数据，其中TPM值进行了对数处理；筛选出基因表达水平差异最大的基因，保留了可能携带更多信息的5001个基因。基因表达数据也用z-score归一化进行预处理，并编码为256维向量。

CGMS是一种完全基于图的多任务学习的抗癌协同药物联合预测方法。在本文中，建立了一个异构完全图来描述药物组合与细胞系之间的相互作用。构建的图包含细胞系和药物类型的节点。有四种可能的元路径。药物-细胞系和细胞系-药物路径用于模拟单一药物对细胞系的治疗效果，细胞系-细胞系路径反映了疗效既取决于药物又取决于细胞系。药物通路反映了药物之间由于化学结构等因素的相互作用。自环的存在有助于在不忘记节点本身信息的情况下提取药物和细胞系特征。然后，CGMS可以生成与序无关的全图嵌入来表示药物组合和细胞系，以供后期预测。

如图1A所示，对于构建的图，使用三层异构图注意网络(HAN) 生成全图嵌入，HAN第三层将细胞系节点嵌入输出。如图1B所示，HAN层遵循分层注意力结构：从节点级注意力到语义级注意力。利用自注意机制自适应控制节点间的信息流，反映各节点对最终协同得分的重要性。

图1 CGMS结构图

图1B为单层HAN处理细胞系数据的过程。首先，将每个节点的特征用类型指定的投影矩阵投影到相同的特征空间中。然后，HAN对每个节点可通过同一元路径访问的节点执行节点级聚合。通过节点级注意力，可以得到元路径下节点的特征表示。类似地，计算语义级别的关注来聚合不同元路径下相同节点的表示。此外，还采用多头注意力机制，以获得更稳定的特征表示。完全图中每个节点的表示输出是所有节点的投影特征的加权和，其中权重是通过自注意力机制计算的。因此，全图嵌入与药物的输入顺序无关。

为了增强模型的泛化能力，采用多任务学习来训练模型。所选择的训练任务包括药物组合的协同评分预测和单一药物的敏感性评分预测，两者都使用均方误差(MSE)作为损失函数。协同作用评分是药物组合的观察疗效与预期疗效之差，而预期疗效的计算需要每种药物的药物反应。用于表征药物敏感性的RI值是根据单一药物的剂量-反应曲线下面积计算的。因此，这两个预测任务是相互关联的，CGMS可以从中了解更多关于药物对细胞系作用的一般知识。如图1A所示，将完全图的全图嵌入作为一般知识，由两个独立的全连接层MLP接受，用于不同的任务。每个MLP有一个隐藏层，其神经单元数量是全图嵌入维数的一半，然后是一个校正的线性单元激活层和一个dropout层。值得指出的是，在敏感性评分预测任务中，将同一药物的特征作为两个药物节点的节点特征作为输入，这样得到的全图嵌入可以表示一种单一药物与一种细胞系之间的相互作用。

考虑到药物敏感性数据和协同数据量不一致，本文提出了一种改进的联合训练策略来训练CGMS模型。在每个训练步骤中随机抽取一批数据，只针对一个任务，并在连续的步骤中累积梯度。只有在协同预测任务上训练了模型之后，才会反向传播梯度来更新模型参数。由于敏感性数据集的体积较小，对药物敏感性数据进行重复采样，并控制协同数据集的非替代采样。

结果

作者将模型与一些具有代表性的药物协同预测工具进行了比较，对比结果如表1所示。CGMS方法的MSE和RMSE最低，PCC（皮尔逊相关系数）最高，MSE的95%置信区间最窄。结果表明，CGMS在预测药物联合协同评分方面优于其他先进的方法。

表1 与其他方法对比

作者设计了模型消融实验，探究多任务学习对CGMS模型的影响。如前所述，本文选择协同（Syn）预测任务和灵敏度（Sen）预测任务来训练CGMS。在消融研究中，构建了CGMSyn和CGMSen两种只执行单任务的CGMS变体，并分别在两个任务上与CGMS进行了比较。每种变体都具有与CGMS相同的主要结构，但只保留一个用于预测的MLP，并且只针对单个任务进行训练。表2总结了消融研究的结果。与仅在单一任务上训练的两种变体相比，CGMS的预测误差减小了。从结果可以看出，多任务学习增强了CGMS模型在两种任务上的预测能力。

表2 消融实验

作者还进行了案例分析。CGMS生成全图嵌入来反映药物组合与细胞系之间的相互作用。为了探索全图嵌入如何很好地代表样本，用t-SNE可视化了四种细胞系的全图嵌入。所选细胞系是在强协同性样本中出现次数最多且协同性评分高于30的细胞系。图3为样品的t-SNE结果分布。如图所示，正协同得分高的样本(蓝点)和负协同得分低的样本(橙色叉)被清晰地分开，这表明CGMS通过HAN获得了判别性的全图嵌入，可以区分某一细胞系的协同药物组合。

图3 案例分析

总结

本文提出了一种完全基于图的预测抗癌协同药物组合的方法，称为CGMS。CGMS创新地将药物组合与细胞系之间的关系建模为异构图，并使用HAN生成全图嵌入，以进行稳定的、顺序无关的预测。采用多任务学习技术来训练CGMS。

结果表明，CGMS预测误差显著低于其他比较方法。基于CGMS的优越性能，其预测得分可为药物预筛选提供参考。预测协同作用得分较高的药物组合可能更值得进行试验。CGMS仍有进一步改进的潜力。有研究探索了如何整合更多信息特征来进行协同药物联合预测，因此，可以考虑更好地设计CGMS的输入特征。

参考文献

[1] Wang et al. A complete graph-based approach with multi-task learning for predicting synergistic drug combinations. Bioinformatics. 2023

[2] Wang et al. GADRP: graph convolutional networks and autoencoders for cancer drug response prediction. Brief Bioinform. 2023

[3] Preuer et al. DeepSynergy: predicting anti-cancer drug synergy with Deep Learning. Bioinformatics. 2018

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。