打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基于语义不变的分子对比学习
userphoto

2023.04.20 韩国

关注

今天为大家介绍的是来自复旦大学研究团队的一篇分子预训练论文。本文首先提出了一种通过适当地将分子图分解成片段对的方法生成语义不变视图。然后,基于该视图生成方法,本文开发了一种基于片段的语义不变对比学习(FraSICL)模型,用于分子属性预测。

当前,基于深度学习技术的分子属性预测(MPP)已成为AI辅助药物研发(AIDD)领域的热门研究课题。由于大多数药物研究所关注的分子属性需要进行体内或体外湿实验来测量,获取这些数据既昂贵又耗时,因此分子属性预测的标记数据通常很少。与此同时,领域内有大量公开可用的未标记数据。因此,如何利用这些大规模的未标记分子数据来训练深度神经网络以学习更好的分子表示,对AIDD领域具有重要意义。

近年来,自监督预训练模型在自然语言处理(NLP)和计算机视觉(CV)领域已经表现出显著的优越性,因此自监督学习(SSL)已成为利用大规模未标记分子数据进行分子属性预测研究的主流方法。这些自监督学习方法通常利用样本内或样本间的一些固有特征构建预处理任务,以便利用未标记数据训练深度模型。在分子属性预测研究中,对比学习、掩码语言模型和预测学习是目前三种设计预处理任务的方法。受SimCLR启发,对比学习方法旨在通过将正数据对与负数据对进行对比来学习表示。原始的分子结构被增强为多个视图,通常使用从同一分子生成的视图作为正数据对,而将不同分子的视图视为负数据对。

当将噪声添加方法应用于MPP任务时,研究人员尚未注意到一个事实,即分子对噪声非常敏感。通过随机屏蔽一些区域向一张狗的图像中添加噪声,不会改变所生成视图的语义,它仍然是一只狗,但是,对于苯乙酮分子,删除一个子图会导致子图变成苯分子等不同的分子,说明苯乙酮的化学语义已经完全改变。分子结构的小改动可能会导致修改后分子的性质发生巨大变化,包括生物活性和其他理化性质。因此,将这两个视图(分子)视为对比学习中的正对样本是不合理的。为了解决这个语义不一致性问题,作者提出了一种基于片段的语义不变对比学习分子表示模型,命名为FraSICL。该模型采用一种语义不变的分子视图生成方法,通过改变消息传递拓扑结构并保留拓扑信息,适当地将分子图分解成片段。

模型设计

FraSICL的对比学习部分设计如上图所示。作者在这里提出了语义不变视图的概念。(1)避免语义模糊情况:目标分子的子视图不会与其他分子的子视图相同;(2)避免语义冲突情况:目标分子的子视图不会与其他分子的视图相同。为了满足目标,构建非假阳的样本对,作者选择在构建分子子视图时,同时保留断键后的两部分分子结构,用以满足语义不变视图的概念。随后,模型会将目标多个子视图融合,用以构建对比学习中的阳性样本对。模型具体采用的对比学习方式如下图所示,红色部分为阳性样本对,蓝色为阴性样本对。

结果评估

FraSICL在7个下游分子属性预测任务中有5个达到了最佳预测性能,并且在一个任务中排名第二。由于FraSICL使用的预训练样本数量仅为20万,这是与其他比较基准模型相比最少的,实验结果表明,FraSICL可以更好地利用分子图片段中包含的信息,产生具有更好预测性能的分子表示。与使用相同数量的预训练数据的MEMO模型相比,FraSICL在7个下游任务上的预测性能显著提高,甚至在BBBP数据集上超过20%。与GROVER和DMP-TF等模型相比,FraSICL仅使用约1/50的训练样本就可以实现可比甚至更高的预测性能。这些结果表明,FraSICL在分子属性预测任务上具有优越性,优于现有的模型。

结论

本文重点研究了在自监督分子属性预测研究中,使用噪声添加生成新视图时可能出现的语义不一致性问题。为了解决这个问题,本文首先通过引入两种可能导致误报对的语义不一致视图,定义了语义不变的分子视图。然后,提出了一种语义不变视图生成方法。该方法生成的视图不会引起语义不一致,实现了GNN的输入图拓扑和消息传递拓扑的解耦,从而有望促进GNN编码器提取更好的分子表示。

参考资料

Zhang, Ziqiao, et al. "Molecular Property Prediction by Semantic-invariant Contrastive Learning." arXiv preprint arXiv:2303.06902 (2023).

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
引入对抗训练的对比学习
自然语言处理简介
独家下载!阿里如何用 AI 写代码?
「对齐」太强是坏事?人大最新研究:完美正样本反而会损害「图对比学习」
360 首席科学家颜水成:有关机器视觉的六个洞见
丹琦女神新作:对比学习,简单到只需要Dropout两下
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服