图片来源:Pixabay
近日,来自 MIT、Stanford、UIUC、NVIDIA 等14个机构的63位作者合作撰写了一篇263页的 AI for Science 重磅综述,详细阐述了 AI 在亚原子(波函数、电子密度),原子(分子、蛋白质、材料、相互作用),以及宏观系统(流体、气候、地下)等不同时空尺度的科学领域应用的关键挑战、学科前沿和开放问题。文章围绕对称性进行了深入而直观的讨论,同时也对可解释性、分布外泛化、大语言模型和不确定性进行了探讨。此外,研究者还创建网站(https://air4.science/)并绘制 AI for Science 的领域地图,提供了分类资源列表,希望能促进领域交流与合作。
集智俱乐部「AI+Science」读书会发起人、西湖大学工学院AI方向助理教授吴泰霖参与撰写了这篇综述。今天的文章是对综述文章的简要介绍(主要基于原论文 Introduction 部分和各章节 Overview),感兴趣的朋友可以进一步阅读原论文,并加入 AI+Science 社区深入交流!
研究领域:AI for Science,AI 可解释性,分布外泛化,大语言模型,对称性与等变性
图1. AI for science 研究领域概览。本文主要关注 AI for 量子力学、密度泛函理论(DFT)、小分子、蛋白质、材料、分子相互作用和偏微分方程(PDE)。最外层圆圈中直观地描绘了这些不同的领域,它们按物理世界建模的空间和时间尺度排列为:量子、原子和连续体系。最内部的圆圈中显示了这些研究领域中存在一系列常见的技术挑战,例如对称性、可解释性和分布外泛化等。
图2. 科学领域的时间和空间尺度。量子物理的空间尺度通常在原子和亚原子级别(10-12~10-9米);密度泛函理论(DFT)处理分子中的多体电子相互作用,尺度范围为 10-10~10-8 米;分子动力学模拟在更大的尺度上运行(10-9~10-6 米);偏微分方程(PDE)被用于研究连续介质系统的行为,尺度范围从流体动力学中的微米到气候动力学中的千米(10-6~103米)。本文将这些领域聚类为量子、原子和连续介质体系。
图3. 变分蒙特卡洛(VMC)的流程。神经量子态以自旋构型或电子位置作为输入,输出波函数值。在VMC中,根据波函数确定的概率分布,使用马尔可夫链蒙特卡洛(MCMC)采样自旋构型或电子位置;然后根据这些采样计算能量,并通过能量梯度更新神经量子态。
图4. DFT 计算和深度学习方法获取哈密顿矩阵的流程。DFT 计算使用与分子及其坐标相关的预定义原子轨道基底,通过在自洽场(SCF)循环中迭代优化哈密顿矩阵,直到达到总能量极小值/最小值的收敛。深度学习方法直接使用量子张量网络预测最终的哈密顿矩阵,以原子类型和坐标作为输入,消除了迭代优化过程,从而加速了 DFT 计算。
《深度学习与分子学习结合:从拓扑、几何和文本角度进行解析》 参看“AI+Science 读书会”中付襄介绍分子动力学模拟的内容: AI for 科学模拟:分子动力学与分子模拟 https://pattern.swarma.org/study_group_issue/484
图5. 现有的分子表征学习方法概述。可以根据特征的张量阶(tensor order,指特征的维度)和 GNN 层的体阶(body order,指 GNN 层的输入和输出维度)对现有方法进行分类,这是用于构建强大的三维 GNN的两个关键设计选择。
![]() | ![]() |
图6.(上左)蛋白质结构预测算法总结。(上右)蛋白质表征学习。(下)扩散模型用于蛋白质生成。
图7. 材料表征学习过程。首先非晶态材料转化为晶体图表征,随后作为晶体图消息传递神经网络的输入;然后模型被训练以准确预测晶体的性质。
图8. 分子相互作用研究概览。对于分子-蛋白质相互作用、分子-材料相互作用,将已有任务分为预测任务和生成任务。
![]() | ![]() |
图9. (左)多尺度动力学。许多系统展示出从局部到全局尺度的相互作用部分的动力学。比如湍流流动具有一系列衰减到最小尺度的层级涡旋。构建具有多尺度处理机制的机器学习模型对于高保真度模拟至关重要。这些机制在每个尺度上聚合信息,以更新每个格点的潜在表征。这里是一个按顺序在每个尺度上执行聚合和更新机制的可视化。(右)前向问题、逆向问题和逆向设计的说明和比较。
2. AI for Science 的技术挑战
关于如何提高 AI 可解释性,参看刘子鸣博士关于物理启发的机器学习理论的介绍:《探索“AI 大统一理论”:科学启发的机器学习理论》
参看“图神经网络读书会”黄文炳老师关于几何深度学习的介绍
图10. AI for science 领域的分布外泛化问题。科学领域的分布外泛化问题普遍存在。在分子科学中,不同的分子大小和骨架是分布偏移的主要来源。在蛋白质科学中,三维蛋白质结构的复杂性,以及蛋白质构成和折叠的潜在变化的广泛性,使得泛化到不同分布成为艰巨的挑战。对于偏微分方程,在时间演化建模中从高粘度泛化到低粘度是一项困难的任务,因为低粘度会导致更多的湍流流动,产生更多的混沌动力学,让建模充满挑战。
图11. 将大语言模型应用于科学领域的三种范式。(1)一种方法是构建由大量科学领域的文本组成的数据集,并以自监督的方式从头开始训练大语言模型。训练好的模型可以直接使用,或进一步微调以用于特定任务。(2)另一种方法是使用较少量的科学领域文本数据,以自监督的方式或配对样本的监督方式,对预训练的通用大语言模型进行微调。(3)对于具有 API 访问权限的专有大语言模型,可以通过使用精心设计的模板进行提示来训练模型,这里领域知识作为提示中的少样本、或者作为具有附加工具或模块的显式知识提供。
参看 AI+Science 读书会张坤老师团队和多位学者关于因果科学、科学发现与大模型的讨论:
重磅圆桌:因果推理、科学发现与大模型
https://pattern.swarma.org/study_group_issue/460
刘子鸣等人关于大语言模型和 AI for science 的讨论:
Science for LLM and LLM for Science
图13. 用户可以访问研究者创建的网站:https://air4.science/,探索 AI for Science 的各个领域。
联系客服