Chem Rev｜分子科学中应对小数据挑战的机器学习方法

2023年7月29日，密歇根州立大学Guo-Wei Wei研究团队与武汉纺织大学数理科学学院江健副教授研究团队在Chemical Reviews发表综述论文“Machine Learning Methods for Small Data Challenges in Molecular Science”。

这篇综述中，作者总结并分析了应对分子科学 (包括化学和生物科学) 小数据挑战的几种新兴潜在解决方案。作者回顾了基本的机器学习算法，如线性回归 (linear regression)、逻辑回归 (logistic regression, LR)、k近邻 (k-nearest neighbor, KNN)、支持向量机 (support vector machine, SVM)、核学习 (kernel learning, KL)、随机森林 (random forest, RF) 和梯度增强树 (gradient boosting trees, GBT)，以及更先进的技术，包括人工神经网络 (artificial neural network, ANN)、卷积神经网络 (convolutional neural network, CNN)、U-Net、图神经网络 (graph neural network, GNN)，生成对抗性网络 (generative adversarial network, GAN)、长短时记忆神经网络 (long short-term memory, LSTM)、自动编码器 (autoencoder)、transformer、迁移学习 (transfer learning)、主动学习 (active learning, AL)、基于图的半监督学习 (graph-based semi-supervised learning)、将深度学习与传统机器学习相结合以及基于物理模型的数据增广。

作者还简要讨论了这些方法的最新进展。最后，作者讨论了分子科学中有可能缓解小数据问题的有希望的研究趋势。

1 摘要

由于各种限制 (如时间、成本、道德、隐私、安全和技术等)，小数据经常被用于科学和工程研究。然而，大数据一直是过去十年的焦点，小数据及其挑战很少受到关注，而且它们在机器学习和深度学习研究中在技术上面临更大困难。总体而言，小数据挑战往往因数据多样性、插补、噪声、不平衡和高维等问题而加剧。幸运的是，当前大数据时代的特点是ML、DL和人工智能的技术突破，这使得数据驱动的科学发现成为可能，而为大数据开发的许多先进ML和DL技术无意中为小数据问题提供了解决方案。因此，在过去十年中，ML和DL在解决小数据挑战方面取得了重大进展。

2 引言

近年来，包括深度学习在内的机器学习技术在科学、工程、技术、医学和工业等广泛的研究领域取得了显著进展，标志着数据驱动研究的一个重要里程碑。复杂的算法，如图卷积网络 (GCNs)、卷积神经网络 (CNNs)、循环神经网络 (RNNs)和生成对抗网络 (GANs)，借助强大的计算资源，如图形处理单元 (GPU)，在ML和DL中取得成功。这些成就背后的主要原因是通过从足够数量的训练样本中定量学习模式来准确估计未知领域中的行为的能力。

然而，在科学领域，由于隐私、安全、伦理、高成本和时间限制等因素，获得大的标记训练样本往往具有挑战性。计算机视觉、语言翻译、语音识别和游戏等领域可能拥有数十亿甚至数万亿个数据点的大规模数据集，但在科学研究中通常不是这样。例如，在药物发现中，预测新分子的属性，预测分子的成药性受到毒性、效力、副作用、分配系数 ()、溶解度 () 以及各种其他药代动力学和药效学指标的约束。对于给定的靶点，几乎没有成功的临床候选记录。当训练样本的数量非常少时，基于ML或基于DL的模型从观测数据中学习的能力急剧下降，导致预测性能较差。因此，科学界从极少数的训练样本中有效地学习和归纳数据是非常重要的。

从小数据集中有效地学习在ML和DL领域具有重要的理论和实践意义。首先，它可以帮助避免在某些数据密集型应用程序中获取数据和执行昂贵注释的高昂成本。其次，它可以为只有少数临时可用样本的新兴任务构建一个低成本、快速的模型，从而在研究探索过程的早期阐明潜在的规律。在这些有前景的优势和对负担得起的学习的实际需求的推动下，从小数据集中学习已经成为一个热门的研究课题。然而，尽管有相关的ML方法，如small or one-sample learning、zero-shot learning、one-shot or few-shot learning，但由于其内在的困难，在过去十年中，与大样本学习相比，该问题的研究进展较慢。例如，如果在没有任何高级学习策略或特定模型设计的情况下，仅使用普通学习技术在训练样本非常少的任务上执行学习算法，则可能发生严重的过拟合，从而显著降低模型的预测能力。

总的来说，在处理小型科学数据集时，有几种可行的策略可以提高ML或DL模型的预测能力。常用的策略包括迁移学习，结合DL和ML，GANs，变分自编码器(VAE)，自监督学习(SSL)，长短期记忆网络(LSTM)，基于物理模型的数据增强，主动学习(AL)和半监督学习。然而，没有论文对这些技术进行系统的分类。本文使用小型科学数据集对ML或DL预测进行了综合研究，并旨在创建一个连接这些技术的分类法。

3 面向小分子数据集的方法总结

作者总结并分析了面向分子科学小数据挑战的新兴潜在解决方案。首先，作者介绍了一些基础的机器学习和深度学习算法及其在分子科学中的成功应用。

接着，作者简要概述了用于处理数据稀缺问题的几种主要方法，并介绍了迁移学习理论及其在小数据集背景下的应用 (图16、图17)，讨论了将DL与传统学习和基于GANs的方法相结合的方法 (图11)，概述了处理小训练集大小的基于VAE的方法(图12)，综合探究了自监督学习对小数据集的处理方法 (图13)，介绍了LSTM技术 (图9、图10) 和主动学习方法 (图18)，描述了Merriman–Bence–Osher方法 (图19) 和基于物理模型的数据增强方法。作者还讨论了应对分子科学中小数据挑战的几个视角，包括将DL与传统ML相结合 (图20、图21)、基于物理模型的数据增强 (图22、图23、图24)、自然语言处理 (NLP) 和生成网络 (图25)。

最后，作者总结了针对小数据挑战的各种算法（表1）。

LSTM技术：

图10 蛋白质同源性预测模型ProDec-BLSTM的结构图。输入层通过one-hot编码将伪蛋白质转换为特征向量。接下来，滑动窗口内的子序列被输入到BLSTM层中，用于提取序列模式。然后，时间分布的全连接层对提取的图案进行加权求和。最后，将提取的特征向量输入到输出层中用于预测。

将DL与传统学习和基于GANs的方法相结合的方法：

图11 通用目的的GAN模型框架，它包含一个判别器和一个生成器。

处理小训练集大小的基于VAE的方法：

图12 基于自编码器的多任务神经网络模型增强小数据集的工作流程。(a)序列到序列的自编码器模型用于创建不同数据集的统一特征。BLSTM和LSTM分别用于编码器和解码器网络。(b) MT-DNN模型连接到用于回归预测的自编码器。

自监督学习对小数据集的处理方法：

图13 AGBT模型的图示。对于给定的分子结构及其SMILES序列，AG-FP由元素特异的子图模块生成，BT-FP由双向transformer模块生成，如虚线矩形内所示，其中包含预训练和精调过程，然后使用特定于任务的SMILES作为输入最终完成特征提取。然后使用RF算法对ML进行融合、排序和选择最佳的分子指纹(AGBT-FP)。

迁移学习理论及其在小数据集背景下的应用：

图16 迁移学习辅助逆合成分析的图示。为了提高逆合成分析的准确性，采用了基于seq2seq和transformer模型的迁移学习策略。在该分析中，对大型化学反应数据集进行了预训练，以获得化学反应的专业知识。这样学习到的知识然后被成功地转移到较小的数据集。利用从预训练中获得的化学信息，最终模型产生更高的精度。

图17 多任务的DL模型框架结构图。通过元素特异性的持久同源性提取的拓扑不变性同时用于预在球状蛋白和膜蛋白。

主动学习方法：

图18 主动结构的神经网络用于多肽分类预测。这里，是数据集中肽的最大宽度(尽管卷积可以使用任何长度)，K是基序类的数量，a是氨基酸字母表的长度。肽首先被翻译成one-hot编码()和标准化氨基酸计数的载体()。最大池层的输出通过一个具有ReLU激活的完全连接层，然后，氨基酸计数被附加到输出。然后将其传递到两个全连接层中，对于正类标签和负类标签，最终输出维度为2。神经网络层下方的标签指示数据通过该层时的维度。

Merriman–Bence–Osher方法：

图19 MBO(红色显示)与其他方法(蓝色显示)在1%标记数据的五个基准分子数据集上的比较。

将DL与传统ML相结合：

图20 连续选择特征以提高药物相互作用准确性的三步过程。在第一步中，通过GPCR模块获得特征，并与分子指纹合并。然后，采用SMOTE(synthetic minority oversampling technique, 合成少数过采样技术)和ANN生成最终特征。最后，GBDT用于预测药物相互作用。

图21 GNN和XGBoost融合模型的工作流程。分子描述符由GNN模型提取，预测由监督学习器XGBoost产生，用于分类或回归。

基于物理模型的数据增强：

图22 使用DFT与ML计算100万个分子数据库的给定分子性质的速度差异说明。平均而言，QM模拟每个分子结构需要大约5小时，导致总处理时间为年。相比之下，经过训练的DL模型每个分子结构只需要5毫秒，100万个分子只需要几个小时。

图23 ORBNET工作流程示意图。(a) 对分子系统进行了低成本的平均场电子结构计算，并(b)构建了所得的SAAO和相关的量子操作符。(c) 利用与SAAO张量的对角线元素和非对角线元素相对应的节点和边属性来构建属性图表示。(d) 属性图由嵌入层和消息传递层处理，以产生转换后的节点和边缘属性。(e) 提取编码层和每个消息传递层的变换后的节点属性，并(f)将其传递到MPL解码网络。(g) 节点解析的能量贡献是通过逐节点对解码网络输出求和来获得的，并且(h)最终的扩展能量预测是通过对所有节点求和得到的。

图24 深度CNN的示意图。利用原子和分子特征构建了3D-CNN和空间图CNN来预测转移自由能。

自然语言处理和生成网络：

针对小数据挑战的各种算法总结：

表1 针对小数据挑战的各种算法在不同领域的主要机器学习和深度学习方法综述

4 展望

本文考察了在应对机器学习和深度学习中使用小型科学数据集的挑战方面的最新进展。由于数据采集中的各种约束和限制，小数据集在科学领域无处不在。机器学习中的小数据挑战可能与大数据挑战一样严重，甚至更严重。小型科学数据集带来的最直接的问题之一是过拟合，这种情况不仅可能发生在训练过程中，也可能发生在测试过程中，最终导致机器学习模型的准确性和可靠性降低。此外，小数据集往往与数据不平衡有关。例如，在药物发现中，只有少数候选药物可能是有活性的，而对于机器学习建模，活性和非活性样本本应该是平衡的。数据不平衡可能导致机器学习和深度学习模型不准确、不可靠和不稳定。此外，使用计算方法扩充小数据集很容易引入噪声或非均匀数据，这在机器学习和深度学习中也是一个具有挑战性的问题。

表9总结了几种应对小数据集挑战的方法，包括迁移学习或多任务学习，将传统ML算法与深度学习相结合，自监督学习，生成对抗网络，变分自编码器，Transformer，长短期记忆神经网络，主动学习，半监督学习，以及基于物理模型的数据扩充。尽管其中许多方法是在过去十年中提出的，而且仍处于发展的早期阶段，但近年来取得了巨大进展。然而，小数据挑战仍然是机器学习和深度学习中的一个紧迫问题，需要进一步的创新策略。

鉴于对处理大规模训练样本的机器学习技术的广泛需求，加上小数据研究的不断进步，小数据研究的概念和方法现在正被应用各个研究领域。这里总结了机器学习方法在多种科学问题中的应用，包括：机器学习力场、生物分子性质发现、蛋白质折叠预测、催化剂设计和逆合成路径等。

最后，作者总结了机器学习和深度学习中在处理小数据研究中需要着重解决的挑战：可建模性指标、小且多样的数据集、小且高维度数据集、小且多噪声数据集、小且不平衡数据集、小数据集中的数据插补、数据的代表性、机器学习与深度学习的融合、领域数据的专业性理解。

参考文献：

Dou B, Zhu Z, Merkurjev E, et al. Machine Learning Methods for Small Data Challenges in Molecular Science[J]. Chemical Reviews, 2023.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。