背景
生成具有3D结构的化学分子对于药物发现具有重要的意义。现有的生成模型一般着眼于逐个原子的生成,这使得在生成环等大的局部结构时,生成的质量较差。为了解决这一问题,近期ICML 2023会议上的一篇名为"Coarse-to-Fine: a Hierarchical Diffusion Model for Molecule Generation in 3D"的工作,发展了HierDiff算法。该算法先使用diffusion model生成分子中的片段与中心坐标,再通过后续的神经网络精细化地生成全原子与对应的坐标。
图1. HierDiff方法的示意图
算法
3D分子生成的目标是学习
,其中
包含了原子的类型与坐标信息,
包含了分子的键连关系。作者引入了隐变量
代表分子中的粗粒化片段,将优化目标设定为下式:
式中的θ与Φ分别代表生成3D粗粒化片段的模型与精细化生成全原子3D结构的模型。该优化目标的下界可以写作下式:
其中的
为常数项。
图2. HierDiff方法中粗粒化片段节点的表示
这项使用一个等变神经网络按照DDPM范式来学习每步降噪的噪声。其中分子中每个片段节点的特征有两种表达方法:第一种为property特征(包含了氢键数目、环的大小以及片段表面积等);第二种为element特征(包含了价电子个数)。片段节点的坐标为片段中全原子的坐标的中心。模型的优化目标为variational diffusion的损失函数:
由于生成的片段节点性质中既有连续变量,又有离散的整数变量。因此其中
仿照EDM算法中对整数变量周围±0.5积分计算:
生成阶段初始化时,片段节点性质和坐标中心都采样高斯噪声初始化。
为根据已生成粗粒化片段重构全原子类型的等变神经网络。
图3. HierDiff方法中基于粗粒化片段生成全原子分子的流程
其包含四个步骤:(1)从已被精细化为全原子的片段中预测一个片段作为focal node。(2)从粗粒化片段中预测一个与focal node成键。(3)预测选出成键片段的片段类型。(4)迭代优化focal node的片段类型。
在划分片段时,片段间会有一个原子的交叠,因此最终在拼接分子的时候,要决定不同片段间哪些原子被融合。作者在这里遍历相邻片段的所有连接方式,再通过RDkit生成构象,选择与前面生成的粗粒化中心RMSD最接近的拼接构象。最终的分子坐标会由Kabsch align生成的局部坐标与RDkit生成的构象坐标得到。
表现
根据粗粒化片段的两种特征:property特征与element特征,作者分别得到了两个模型:HierDiff-P与HierDiff-E。
作者分别以GEOMdrug与CrossDock2020为训练集,将HierDiff模型与近期的SOTA方法进行了比较,HierDiff-P与HierDiff-E在生成分子的类药性、合成可及性、logP等指标上分别取得了最好的效果。
图4. 不同的3D分子生成方法生成分子的性质
为了评估生成分子结构的质量,作者对所有生成的分子都进行了分子动力学模拟,使用COV与MAT来评估模型生成构象相较分子动力学模拟结果的覆盖度与准确度。下式中,与分别表示模型生成的分子结构与MD得到的能量稳定的分子结构,为2 Å。
结果显示,HierDiff生成的构象相较EDM算法更加合理。
图5. HierDiff方法与EDM在生成构象合理性上的比较
总结
作者开发的HierDiff方法可以有层次地生成分子,可以回避自回归生成范式存在的误差累积问题,生成的分子具有更理想的性质。
参考文献
[1] https://arxiv.org/pdf/2305.13266v1.pdf
[2]https://arxiv.org/pdf/2203.17003.pdf
作者:顾仲晖
审稿:幻 幻
GoDesign
ID:Molecular_Design_Lab
联系客服