打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature | AI for science 的全面综述
userphoto

2023.08.10 湖北

关注

全文速览

人工智能(AI)正越来越多地融入科学发现,以增强和加速研究,帮助科学家产生假设,设计实验,收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解。最近《Nature》发表的一篇综述对AI for science 进行了全面介绍。生成式人工智能方法可以通过分析各种数据模式(包括图像和序列)来创建设计,例如小分子药物和蛋白质。将讨论这些方法如何在整个科学过程中帮助科学家,以及尽管取得了这些进步,但仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解这些方法何时需要改进,数据质量差和管理不善带来的挑战仍然存在。这些问题跨越科学学科,需要开发基础算法方法,有助于科学理解或自主获取科学知识,使其成为人工智能创新的关键重点领域。

背景介绍

通过如何收集、转化和理解数据,为形成科学的见解和理论奠定了基础。2010年代初深度学习的兴起大大扩大了这些科学发现过程的范围和雄心。人工智能(AI)越来越多地跨科学学科用于集成大量数据集、细化测量、指导实验、探索与数据兼容的理论空间,并提供与科学工作流程集成的可操作和可靠的模型。数据收集和分析是科学理解和发现的基础,这是科学的两个中心目标,而定量方法和新兴技术,从显微镜等物理仪器到引导等研究技术,长期以来一直被用于实现这些目标。20世纪50年代数字化的引入为计算在科学研究中的普遍应用铺平了道路。自2010年代以来,数据科学的兴起使人工智能能够通过从大型数据集中识别与科学相关的模式来提供有价值的指导。


自2010年代初以来,由于大型数据集的可用性,以及在快速和大规模并行计算和存储硬(图形处理单元和超级计算机)的帮助下。后者包括深度表示学习,特别是多层神经网络,能够识别基本的、紧凑的特征,这些特征可以同时解决许多构成科学问题的任务。其中,几何深度学习(方框1)已被证明有助于整合科学知识,以物理关系、先验分布、约束和其他复杂描述符的紧凑数学陈述呈现,如分子中原子的几何形状。自监督学习(Box 1)使得在标记或未标记数据上训练的神经网络能够将学习到的表示转移到一个不同的领域,例如,通过预训练大型基础模型并调整它们来解决不同领域的不同任务。此外,生成模型(方框1)可以估计一个复杂系统的底层数据分布,并支持新的设计。与人工智能的其他用途不同,强化学习方法(框1)通过探索许多可能的场景,并根据预期的实验信息收益等指标为不同的行动分配奖励,从而找到了环境的最佳策略。在人工智能驱动的科学发现中,科学知识可以使用适当的归纳偏差(框1)纳入人工智能模型中,这些偏差是表示结构、对称、约束和先验知识的假设。然而,应用这些定律可能导致方程过于复杂,人类无法解决,即使用传统的数值方法.一个新兴的方法是通过包含有关基本方程式的信息,如物理学定律或分子结构的原理和蛋白质折叠中的结合。这种归纳偏差可以通过减少达到相同精度
水平所需的训练示例的数量来增强人工智能模型并将尺度分析扩展到大量的未被探索的科学假设中 .与利用人工智能的其他人类努力领域相比,将人工智能用于科学创新和发现提出了独特的挑战。最大的挑战之一是科学问题中假设空间的巨大,这使得系统的探索不可行。例如,在生物化学中,估计有10的60次方个药物分子需要探索,人工智能系统有潜力通过加速过程并提供接近实验精度的预测,从而彻底改变科学工作流程。然而,为人工智能模型获得可靠的注释数据集存在挑战,这可能涉及耗时和资源密集型的实验和模拟.尽管存在这些挑战,人工智能系统可以实现高效、智能和高度自主的实验设计和数据收集,其中人工智能系统可以在人类的监督下运行,以评估、评估和对结果采取行动。这种能力促进了人工智能代理的发展,这些代理在动态环境中不断相互作用,例如,能够做出实时决
策来导航平流层的气球.人工智能系统可以在解释科学数据集和从科学文献中提取关系和知识方面发挥宝贵的作用。最近的发现表明,无监督语言人工智能模型具有捕捉复杂科学概念的潜力,这表明,关于未来发现的潜在知识可能会嵌入到过去的出版物中。最近的研究进展,包括成功地解开了已有50年历史的蛋白质折叠问题以及人工智能驱动的含有数百万粒子的分子系统模拟,展示了人工智能在解决具有挑战性的科学问题方面的潜力。然而,这一显著的发现前景也伴随着“人工智能对科学”(AI4科学)这一新兴领域面临的重大挑战。与任何新技术一样,人工智能4科学的成功取决于我们将其整合到常规实践中的能力,并理解其潜力和局限性。人工智能在科学发现中被广泛采用的障碍包括发现过程中每个阶段特定的内部和外部因素,以及对方法、理论、软件和硬件的实用性的关注,以及潜在的误用。我们探讨人工智能科学的发展并解决关键问题,包括科学的行为、传统的怀疑主义和实施挑战。

人工智能辅助数据收集和管理科学研究

由实验平台收集的数据集的规模和复杂性不断增加,导致在科学研究中越来越依赖于实时处理和高性能计算,以有选择地存储和分析以高速率生成的数据 .

数据选择

一个典型的粒子碰撞实验每秒产生超过100tb的数据1 8 .这种科学实验正在推动现有数据传输和存储技术的极限。在这些物理实验中,超过99.99%的原始仪器数据代表了必须实时检测并丢弃以管理数据率的背景事件.为了识别罕见的事件,为未来的科学探索,深度学习的方法用算法替换预先编程的硬件事件触发器,搜索异常信号,以检测不可预见的或罕见的现象。

数据注释

训练监督模型需要带有注释标签的数据集,这些数据集提供监督信息来指导模型训练,并从输入中估计目标变量上的函数或条件分布。伪标签和标签传播是费力的数据标签的诱人替代品,允许仅基于一小组精确的数据集自动注释大量未标记的数据集注释在生物学中,由于实验生成标签的困难,将新特征分子分配功能和结构标签的技术对于监督模型的下游训练至关重要。例如,尽管下一代测序技术激增,但只有不到1%的测序蛋白被注释具有生物学功能 .另一种进行数据标记的策略是利用对人工标记的数据进行训练的替代模型来标注未标记的样本,并使用这些预测的伪标签来监督下游的预测模型相反,标签传播通过基于特征嵌入构建的相似图将标签扩散到未标记标签的样本(框1)。除了自动标签,主动学习可以识别出人类要标记的信息最丰富的数据点或要进行的信息最丰富的实验。这种方法允许用更少的专家提供的标签来训练模型。数据注释中的另一个策略是开发利用领域知识的标签规则。

数据生成

深度学习的性能随着质量、多样性和规模的提高而提高训练数据集 .创建更好的模型的一个卓有成效的方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增强训练数据集。除了手动设计这样的数据增强(方框1),强化学习方法可以发现一个用于自动数据增强的策略,这是对下游模型的灵活和未知的。深度生成模型,包括变分自编码器、生成对抗网络、归一化流和扩散模型,学习底层数据分布,并可以从优化的分布中采样训练点。生成对抗网络(框1)已被证明对科学图像是有益的,因为它们在从粒子碰撞事件的许多领域合成真实图像,病理切片,胸部x光片 ,磁共振对比,三维(3D)材料微观结构 ,蛋白质功能 , 遗传序列.生成建模中的一种新兴技术是概率编程 ,其中数据生成模型被表示为计算机程序。

数据改进

精密仪器,如超高分辨率激光器和非侵入性显微镜系统,可以直接测量物理量,或通过计算真实世界的物体来间接测量,产生高度精确的结果人工智能技术显著提高了测量分辨率,降低了噪声,消除了测量圆度的误差,导致跨站点的高精度一致。人工智能在科学实验中应用的例子包括时空的可视化区域,如黑洞 ,捕捉到了一个物理粒子的碰撞,提高了活细胞图像的分辨率 以及更好地检测跨生物环境中的细胞类型.深度卷积方法,它利用了算法的进步,如频谱反褶,灵活的稀疏性 和生成能力 ,可以将时空分辨率较差的测量值转换为高质量、超分辨率和结构化的图像。在各种科学学科中,一个重要的人工智能任务是去噪,它包括从噪声中区分相关信号,并学习去除噪声去噪自动编码器可以将高维输入数据投影到更紧凑的基本特征表示中。这些自动编码器最小化了未损坏的输入数据点之间的差异和它们从其噪声损坏版本的压缩表示之间的重建。其他形式的分布学习自动编码
器,如变分自动编码器(VAEs;方框1) ,也经常被使用。VAEs通过潜在的自编码来学习一个随机表示,该自编码保留了基本的数据特征,而略了非基本的变异源,可能代表随机噪声。例如,在单细胞基因组学中,自动编码器优化数计细胞中基于计数的基因激活载体通常用于改善蛋白质-rna表达分析。学习有意义的科学数据表示深度学习可以在不同的抽象层次上提取科学数据的有意义的表示,并优化它们以指导研究,通常是通过端到端学习(方框1)。高质量的表示应该保留尽可能多的关于数据的信息,同时保持简单和可访问性 .在科学上是有意义的表示法是紧凑的 有判别力,解开变异的潜在因素并编码可跨多个任务进行概括的底层机制 .在这里,我们介绍了三种新兴的策略来满足这些要求:几何先验、自我监督学习和语言建模。

几何先验

集成几何先验在学习表示中,已被证明是有效的,因为几何和结构在科学领域起着核心作用 .对称性是几何学中一个被广泛研究的概念 .它可以用不变性和等方差(方框1)来描述一个数学函数的行为,如神经特征编码器,在一组变换下,如刚体动力学中的SE (3)组。重要的结构性质,如分子体系的二级结构含量、溶剂的可及性、残基的致密性和氢键模式,是不变的空间方向。在对科学图像的分析中,物体在图像中被平移时没有变化,这意味着图像分割掩模在平移上是等价的,因为当输入像素被平移时,它们的变化是等价的。将对称性结合到模型中可以利用有限标记数据集的人工智能,如3D RNA和蛋白质结构,通过增加训练样本,并可以提高外推预测输入明显不同于模型训练中遇到的输入。

几何深度学习

图神经网络已经成为对具有潜在几何和关系结构的数据集的深度学习的先方法 . 从更广泛的意义上说,几何深度学习涉及到发现关系模式并为神经网络模型配备归纳偏差,明确地利用以图和转换组的形式编码的局部信息通过神经信息传递算法 .根据科学问题,我们开发了各种图表示来捕获复杂的系统 .定向边缘可以促进玻璃系统的物理建模 ,带有边连接多个节点的超图被用于染色质结构的理解 ,在多模态图上训练的模型被用于创建基因组学中的预测模型,稀疏、不规则和高度关系的图已经应用于许多大型强子对撞机的物理任务,包括从探测器读数重建粒子和物理信号对背景过程的区分 .

自我监督学习

当只有少数标记样本可用于模型训练时,或者当一个特定任务的标记数据非常昂贵时,监督学习可能是不够的。在这种情况下,利用标记和非标记数据可以提高模型性能和学习能力。自监督学习是一种技术,使模型能够学习数据集的一般特征,而不依赖于明确的标签。有效的自我监督策略包括预测图像的遮挡区域,预测视频中过去或未来的帧,以及使用对比学习来教模型区分相似和不同的数据点 ) . 自监督学习可能是在大型未标记数据集中学习可转移特征的一个关键的预处理步骤 在对小标记数据集上的模型进行微调以执行下游任务之前。这样的预训练模型随着对科学领域的广泛理解,通用的预测器可以适用于各种任务,从而提高标签效率和超越纯粹的监督方法 .

语言建模

掩码语言建模是一种流行的自然语言和生物序列的自监督学习方法。.原子或氨基酸(标记)排列成结构以产生分子和生物的功能,类似于字母如何形成单词和句子来定义文档的意义。随着自然语言和生物序列处理的不断进化,它们相互影响了彼此的发展。在训练过程中,目标是预测一个序列中的下一个标记,然而在基于掩码的训练中 ,自我监督的任务是使用双向序列上下文恢复序列中的掩码令牌。蛋白质语言模型可以编码氨基酸序列来捕获结构和功能特性 并评估病毒变异的进化适应度.这种表示可以在各种任务中转移,从序列设计等 结构预测.在处理生化序列时 ,化学语言模型有助于对巨大的化学空间的有效探索.它们已经被用来预测性质,计划多步骤综合 并探索化学反应的空间.

Transformer架构

Transformer 是一种神经结构模型,它可以通过灵活地建模任意标记对之间的交互来处理标记序列,超过了早期使用递归神经网络进行序列建模的努力。变形者主导着自然语言的处理并已成功应用于一系列问题,包括地震信号检测 ,DNA和蛋白质序列建模,模拟序列变异对生物功能的影响,符号回归 .虽然变形者统一了图、神经网络和语言模型,变压器的运行时和内存占用可以随序列的长度进行二次缩放,这导致了通过远程建模来解决的效率挑战 以及线性化的注意机制.因此,无监督或自监督的生成式预训练变压器,然后是参数有效的微调,被广泛使用。

神经算子

标准的神经网络模型可能不适用于科学应用,因为它们假定一个固定的数据离散化。这种方法不适用于许多以不同分辨率和网格收集的科学数据集。此外,数据通常从连续区域的潜在物理现象中采样,如地震活动或流体流动。神经算子通过学习函数空间之间的映射来学习对离散化不变的表示.神经算子保证是离散化不变的,这意味着它们可以处理输入的任何离散化,并收敛到网格细化的极限。一旦神经操作员被训练好,它们就可以以任何分辨率进行评估,而不需要重新训练。比之下,当部署期间的数据分辨率从模型训练中发生变化时,标准神经网络的性能可能会下降。

基于人工智能的科学假设的生成

可验证的假设是科学发现的核心。它们可以采取多种形式,从数学中的符号表达到化学中的分子和生物学中的遗传变异。制定有意义的假设可能是一个费力的过程,例如约翰内斯·开普勒,他花了四年时间分析恒星和行星的数据,然后得出了一个导致行星运动定律被发现的假设.人工智能方法在这一过程的几个阶段都会有所帮助。他们可以通过从嘈杂的观测结果中识别出候选的符号表达式来产生假设。它们可以帮助设计物体,比如一个与治疗靶点结合的分子。

科学假设的黑盒预测器

为科学研究确定有希望的假设需要有效地检查许多候选假设,并选择那些能够最大限度地提高下游模拟和实验的产量的假设。在药物发现中,高通量筛选可以评估数千到数百万个分子,算法可以优先对哪些分子进行实验研究.模型可以通过训练来预测一个实验的效用,如相关的分子性质或者是符合观察结果的符号公式 .然而,这些预测因子的实验基础真实数据可能是许多分子无法获得的。因此,弱监督学习方法(Box 1)可以用于训练这些模型,其中有噪声的、有限的或不精确的监督被用作训练信号。这些作为人类专家注释的一个成本效益的代理,在硅计算或更高保真度的实验.经过高保真度模拟训练的人工智能方法已被用于有效地筛选大型分子库,如160万种有机发光二极管候选材料以及110亿个基于合成物的候选配体 .在基因组学中,训练后从DNA序列中预测基因表达值的Transformer结构可以帮助确定遗传变异的优先级 .在粒子物理学中,识别质子中的固有魅力夸克包括筛选所有可能的结构和拟合每个候选结构的实验数据 .为了进一步提高这些过程的效率,人工智能选择的候选者可以发送到中或低通量实验中,使用实验反馈持续细化候选者。这些结果可以通过主动学习反馈到人工智能模型中贝叶斯优化(方框1),允许算法改进他们的预测,并专注于最有前途的候选人。当假设涉及到分子等复杂物体时,人工智能方法已经变得无价。例如,在蛋白质折叠中,AlphaFold2 1 0 可以从氨基酸序列中预测蛋白质的三维原子坐标,即使是对于结构不同于训练数据集中任何蛋白质的蛋白质这一突破导致了各种人工智能驱动的蛋白质折叠方法的发展,如RoseTTAFold .除了正向问题外,人工智能方法也越来越多地用于那些旨在理解产生一组观察结果的因果因素的反问题。逆问题,如逆折叠
或固定主干设计,可以使用训练了数百万个蛋白质结构的黑箱预测器,从蛋白质的主干三维原子坐标中预测氨基酸序列1 0 5 .然而,这种黑盒人工智能预测器需要大量的训练数据集,尽管减少了对先验科学知识的依赖,但提供有限的可解释性。

导航组合假设空间

尽管对所有与数据兼容的假设进行抽样是令人生畏的,但一个可管理的目标是寻找一个好的假设可以表述为一个优化问题。而不是依赖于手工设计的规则的传统方法,人工智能策略可以用来估计每次搜索的奖励,并对具有更高价值的搜索方向进行优先排序。通常使用由强化学习算法训练的代理来学习该策略。代理学习在搜索空间中采取最大化奖励信号的行动,这可以被定义为反映生成的假设或其他相关标准的质量。为了解决优化问题,可以使用进化算法来解决一个符号回归任务,它生成随机符号律作为解的初始集。在每一代中,对候选解决方案都有轻微的变化。该算法检查任何修改是否产生了比之前的解更符合观察结果的符号定律,为下一代保留最好的解 .然而,强化学习方法正在越来越多地取代这一标准策略。强化学习使用神经网络从预定义词汇中添加数学符号,并使用学习策略来决定下一步添加哪个符号 .数学公式表示为解析树。学习到的策略以解析树作为输入,以确定要扩展的叶节点以及要添加的符号(来自词汇表). 另一种使用神经网络来解决数学问题的方法是将一个数学公式转换为一个符号的二进制序列。后,神经网络策略可以概率和顺序增长序列一次一个二进制字符.通过设计一种奖励来衡量反驳猜想的能力,这种方法可以在没有关于数学问题的事先知识的情况下找到对数学猜想的反驳。组合优化也适用于诸如发现具有理想药物特性的分子等任务,其中分子设计中的每一步都是一个离散的决策过程。在这个过程中,将一个部分生成的分子图作为学习策略的输入,对在哪里添加一个新的原子以及在分子中选定的位置添加哪个原子做出离散的选择。通过迭代地执行这一过程,该策略可以生成一系列可能的分子结构,并根据其对目标属性的适合度进行评估。搜索空间太大,无法探索所有可能的组合,但强化学习可以通过优先考虑值得研究的最有前途的分支来有效地指导搜索 .强化学习方法可以通过一个训练目标进行训练,该目标鼓励策略从所有合理的解决方案中取样(具有高奖励)的结果,而不是像强化学习中的标准奖励最大化那样,专注于单一的好解决方案 .这些强化学习方法已经成功地应用于各种优化问题,包括最大化蛋白质表达 ,计划开发水电建设,以减少对亚马逊盆地的不利影响并探索了粒子加速器的参数空间 .人工智能代理学到的政策是有远见的行动,最初看起来非常规,但被证明是有效的 .例如,在数学中,监督模型可以识别数学对象之间的模式和关系,并帮助指导直觉和提出猜想9 .这些分析指出了以前未知的模式,甚至是新的世界模式。然而,在模型训练过程中,强化学习方法可能不能很好地推广到看不见的数据,因为一旦找到一系列工作良好的操作,代理可能会陷入局部最优状态。为了改进泛化性,需要采用一些探索策略来收集更广泛的搜索轨迹,以帮助代理在新的和修改后的设置中表现得更好。

优化可微假设空间

科学假设通常采取离散对象的形式,如物理学中的符号公式或制药和材料科学中的化合物。虽然是组合优化其中一些问题的技术已经成功,可微空间也可以用于优化,因为它适合于基于梯度的方法,可以有效地找到局部最优。为了能够使用基于梯度的优化,经常使用两种方法。第一种方法是使用VAEs等模型将离散的候选假设映射到潜在可微空间中的点。第二种方法是将离散假设放松为可在可微空间中进行优化的可微对象。这种松弛可以采取不同的形式,例如用连续变量替换离散变量,或者使用原始约束的软版本。符号回归在物理学中的应用 .这些模型将离散符号表达式表示为使用上下文无关语法解析树,并将树映射到可微的潜在空间。然后采用贝叶斯优化优化符号定律的潜在空间,同时确保表达式在语法上有效。一项相关的研究中,布伦顿和他的同事们介绍了一种通过给预定义的基函数分配可训练的权值来微分符号规则的方法。采用稀疏回归方法在保持紧凑的同时选择准确表示动态系统的基函数的线性组合。与等变神经网络使用预定义的归纳偏差来增强对称性不同,对称性可以被发现为一个域的特征行为。例如,刘和泰格马克 将不对称性描述为一个平滑的损失函数,并最小化损失函数来提取以前未知的对称性。这种方法被应用于揭示黑洞波形数据集中隐藏的对称性,揭示了在历史上具有挑战性的意想不到的时空结构。在天体物理学中,VAEs已被用于估计基于预先训练好的黑洞波形模型的引力波探测器参数。这种方法比传统方法快6个数量级,使它可以捕获瞬态引力波事件.在材料科学中,热力学规则与一个自动编码器相结合,设计了一个可解释的潜在空间,用于识别晶体结构的相位图 .在化学中,模型,如简化的分子输入线进入系统(SMILES)-VAE  可以转换微笑串,这是化学结构的分子符号形式的离散符号,计算机可以容易理解,为一个可微的潜在空间,可以使用贝叶斯优化技术优化 . 通过将分子结构表示为潜在空间中的点,我们可以设计可微目标,并利用自监督学习基于分子的潜在表示来预测分子的性质。这意味着我们可以通过反向传播人工智能预测器的梯度来优化离散的分子结构,并一直延伸到分子输入的连续值表示。解码器可以将这些分子表示转化为近似相应的离散输入。这种方法被用于蛋白质的设计和小分子.在潜在空间中进行优化比在原始假设空间中进行机械性方法可以更灵活地建模底层数据分布。然而,在假设空间的稀疏探索区域的外推预测可能很差。在许多科学学科中,假设空间可以比通过实验可以检验的空间要大得多。例如,据估计大约有10的60次方 分子,而即使是最大的化学文库也包含少于10的10次方分子 .因此,迫切需要一种方法来在这些大部分未开发的地区有效地搜索和识别高质量的候选解决方案。

人工智能驱动的实验和仿真

通过实验来评估科学假设对科学发现至关重要。然而,实验室实验可能是昂贵的和不切实际的计算机模拟已经成为一种很有前途的替代方案,为更有效和更灵活的实验提供了潜力。虽然模拟依赖于手工制作的参数和启发式方法来模拟真实世界的场景,但与物理实验相比,它们需要在准确性和速度之间进行权衡,这就需要理解潜在的机制。然而,随着深度学习的出现,这些挑战正在通过识别和优化假设来进行有效的测试,并授权计算机模拟将观察结果与假设联系起来。

对科学假设的有效评价

人工智能系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需的实验数量,节省资源。具体来说,人工智能系统可以帮助完成实验测试的两个基本步骤:计划和指导。在传统的方法中,这些步骤往往需要反复试验,这可能低效,昂贵,有时甚至危及生命 .人工智能规划为设计实验、优化实验效率和探索未知领域提供了一种系统的方法。与此同时,人工智能转向指导实验过程转向高产假设,允许系统从以前的观察中学习,并调整实验过程。这些人工智能方法可以基于模型,使用模拟和先验知识,也可以单独基于机器学习算法。人工智能系统可以通过优化资源的使用和减少不必要的调查来帮助规划实验。与假设搜索不同,实验规划涉及到科学实验设计中所涉及的程序和步骤。其中一个例子是化学中的合成计划。合成计划包括找到一系列步骤,通过这些步骤可以从现有的化学物质中合成目标化合物。人工智能系统可以设计出所需化学化合物的合成路线,减少人工干预的需要 .主动学习也被用于材料的发现和合成 .主动学习包括与实验反馈的迭代互动,并从实验反馈中学习,以完善假设。材料合成是一个复杂且资源密集型的过程,需要有效的高维参数空间的探索。主动学习使用不确定性估计来探索参数空间,并以尽可能少的步骤减少不确定性 .在一个正在进行的实验中,决策必须经常进行实时调整。然而,当仅仅由人类的经验和直觉来驱动时,这个过程可能是困难的,而且容易出错。强化学习提供了一种替代方法,可以不断地对进化的环境做出反应,并最大限度地提高实验的安全性和成功性。例如,强化学习方法已经被证明对托卡马克等离子体的磁控制是有效的,其中算法与托卡马克模拟器交互,以优化控制过程的策略 ) . 在另一项研究中,强化学习代理使用实时反馈,如风速和太阳高度来控制平流层气球,并找到适合导航的有利气流 .在量子物理学中,实验设计需要动态调整,因为未来复杂实验物化的最佳选择可能会违反直觉。强化学习方法可以通过迭代设计实验并接收实验反馈来克服这一问题。例如,强化学习算法
已经被应用起来了用模拟的方法从假设中推断出可观测值计算机模拟是一个从假设中推断可观测值的强大工具,使评估不能直接验证的假设成为可能。然而,现有的模拟技术严重依赖于很大程度上的人类对所研究系统的潜在机制的理解和知识,这可能是次优的和低效的人工智能系统可以通过更好地拟合复杂系统的关键参数,求解控制复杂系统的微分方程和模拟复杂系统的状态,以更精确和高效的学习来增强计算机模拟。科学家通常通过创建一个涉及参数化形式的模型来研究复杂的系统,这需要领域知识来识别参数的初始符号表达式。分子力场就是一个例子,它是可解释的,但在代表广泛的功能方面的能力有限,需要强烈的归纳偏差或科学知识来产生。为了提高分子模拟的准确性,一种基于人工
智能的神经潜力已经被开发出来,它适合昂贵而精确的量子力学数据,以取代传统的力场 .此外,利用不确定度定量法定位了高维自由能表面的能垒,从而提高了分子动力学的效率 . 对于粗粒度的分子动力学,人工智能模型已经被用来通过确定系统从学习到的隐藏的复杂结构中需要被压缩的程度来降低大型系统的计算成本.在量子物理学中,神经网络由于其灵活性和精确拟合数据的能力,在参数化波函数或密度泛函方面已经取代了人工估计的符号形式 .微分方程是模拟复杂系统在空间和时间上的动力学的关键。与数值代数求解器相比,基于人工智能的神经求解器更无缝地集成了数据和物理学.这些神经求解器通过基于领域知识的神经网络,结合了物理和深度学习的灵活性. 人工智能方法已被应用于求解各种领域的微分方程,包括计算流体动力学 ,预测玻璃状系统的结构 ,解决了顽固的化学动力学问题 并求解伊波方程来表征地震波的传播时间.在动力学建模中,连续时间可以用神经常微分方程来建模.神经网络可以利用物理信息损失参数化Navier-Stokes方程的解.然而,标准的卷积神经网络对于建模解决方案的精细结构特征的能力有限。这个问题可以通过学习使用神经网络建模函数之间的映射的操作符来解决.此外,求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程和图神经网络相结合,通过图划分进行任意离散来实现 .统计建模是一个强大的工具,通过建模复杂系统中的状态分布来提供复杂系统的完整定量描述。由于其能够捕获高度复杂的分布,深度生成建模最近已成为复杂系统模拟中的一种有价值的方法。归一化流可以将任何复杂的分布映射到一个先验分布(例如,一个简单的高斯分布),然后使用一系列可逆的神经网络返回。尽管计算成本昂贵(通常需要数百或数千层神经层),但标准化流提供了一个精确的密度函数,使采样和训练成为可能。与传统的模拟不同,归一化流可以通过直接从先验分布中采样并应用神经网络来产生平衡态,这具有固定的计算成本。这增强了在晶格场中的采样 和规范理论并改进了马尔可夫链蒙特卡罗方法 否则,它可能会由于模态混合而不收敛 .

开展科学科学事业

展望未来,对人工智能专业知识的需求将受到两种力量的影响。首先,存在一些即将从人工智能的应用中受益的问题,比如自动驾驶实验室。第二,智能工具的能力来提高最先进的水平和创造新的机会——例如检查在实验中无法获得的在长度和时间尺度上发生的生物、化学或物理过程。在这两种力量的基础上,我们预计研究团队将改变组成,包括人工
智能专家、软件和硬件工程师,以及涉及各级政府、教育机构和公司的新型合作形式。最近最先进的深度学习模型的规模继续增长 .这些模型由数百万甚至数十亿个参数组成,其尺寸同比增加了10倍。训练这些模型包括通过复杂的参数化数学操作传输数据,并更新参数以推动模型输出到所需的值。然而,计算这些更新的计算和数据需求是巨大的
,这导致了巨大的能量消耗和高昂的计算成本。因此,大型科技公司在计算基础设施和云服务上投入了大量资金,推动了规模和效率的限制。虽然营利性和非学术性组织可以获得大量的计算基础设施,但高等教育机构可以更好地跨多个学科进行集成。此外,学术机构倾向于拥有独特的历史数据库和测量技术,这些技术可能在其他地方不存在,但对AI4科
学是必需的。这些补充资产促进了产业-学术界合作的新模式,这可能影响所追求的研究问题的选择。随着人工智能系统的性能可以与人类媲美并超过人类,将其作为常规实验室工作的替代品正变得可行。这种方法使研究人员能够从实验数据中迭代地开发预测模型,并选择实验来改进它们,而无需手动执行费力和重复的任务.为了支持这种范式转变,正在出现教育方案,以培训科学家在科学研究中设计、实施和应用实验室自动化和人工智能的工作。这些项目帮助科学家了解何时使用人工智能是合适的,并防止从人工智能分析中得出的误解结论。人工智能工具的滥用和对其结果的误解可能会产生显著的负面影响.广泛的应用范围加剧了这些风险.然而,人工智能的滥用并不仅仅是一个技术问题;它还取决于那些主导人工智能创新和对人工智能实施的投资的动机。建立道德审查过程和负责任的实施策略是必要的,包括对人工智能的范围和适用性的全面概述 .此外,必须考虑与人工智能相关的安全风险,因为重新使用算法实现已经变得更容易 .由于算法适用于广泛的应用程序,它们可以为一个目的开发,但也可以用于另一个目的,从而造成对威胁和操作的漏洞。

结论

人工智能系统可以有助于科学理解,研究无法以任何其他方式可视化或探索的过程和对象,并通过从数据构建模型并将其与模拟和可伸缩计算相结合,系统地激发想法。为了实现这一潜力,必须通过负责任和深思熟虑的技术部署来解决人工智能带来的安全和安全问,负责任地使用人工智能。
原文链接:https://doi.org/10.1038/s41586-023-06221-2
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战
科学网
科学人力资源职能——向谷歌&亚马逊学习
金观涛谈人工智能一文按语
多研究一点 - 范式
材料信息学:解码材料基因图谱丨科普硅立方
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服