打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature子刊:误差减少7.5倍!机器学习模型在材料科学的适用范围

尽管机器学习(ML)模型有望大大加快新材料的发现,但它们的性能往往还不足以得出可靠的结论。因此,改进的ML模型得到了积极的研究,但目前主要通过监测模型的平均测试误差来指导其设计。这可能使不同的模型无法区分,尽管它们的性能在不同的材料之间有很大的差异,或者它可能使一个模型看起来通常不够充分,而实际上它在特定的子领域中工作得很好。

近日,来自澳大利亚莫纳什大学、德国马普学会弗里茨哈伯研究所等单位的研究者,提出了一种基于子组发现的方法,用于检测材料类中模型的可应用性域。相关论文以题为“Identifying domains of applicability of machine learning models for materials science”发表在Nature Communications上。

论文链接:

https://www.nature.com/articles/s41467-020-17112-9

如果有足够的预测精度,机器学习(ML)可以通过快速筛选化合物来加速新材料的发现,而其计算成本比第一性原理电子结构方法低几个数量级。然而,在实践中,ML模型的准确性往往不足以得出关于具体应用材料的可靠结论。因此,众多研究者积极开发不同的材料ML表示,以提供对不同材料类别和性质的准确预测。这项工作的一个关键障碍是,设计ML模型所涉及的复合物的选择目前是基于相对于整个材料类的平均模型测试错误的过于简单的度量。将模型作为产生单一错误统计量的黑盒子处理,可以使不同的模型无法区分,尽管它们的性能实际上在不同材料之间存在很大差异。

此外,对于某些筛选任务,模型可能通常显得不够充分,而实际上它们可以准确地预测特定子域中的目标属性。例如,为预测透明导电氧化物(TCOs)的形成能的一个大的公共的ML挑战,三种方法的性能几乎无法区分:基于自然语言处理(n-gram方法)的竞赛获胜模型;原子位置的平滑重叠(SOAP);以及多体张量表示。重要的是,它们在筛选应用中都不能令人满意,因为它们不能可靠地识别许多被检测系统的基态变形结构。

在这里,研究者提供了一种基于子组发现(SGD)的知情诊断工具,它可以检测材料类中的ML模型的适用性领域(DA)。这些域是单胞结构的简单条件的组合(例如,晶格向量、晶格角和键距),在这种情况下,模型误差大大低于其在完整材料类中的全局平均误差。因此,与那些为单个数据点提供不确定估计的方法(例如概率模型或集成方法)相反,所提出的方法提供了具有总体低估不确定度的相邻区域的逻辑描述。这些描述允许(a)理解并随后解决所调查的ML模型的系统性缺陷,(b)将候选材料的采样重点放在模型不确定性低的区域。

研究者通过分析针对上述TCO挑战的三种最先进的ML模型来演示这个过程。尽管具有全局不可区分和不令人满意的平均误差,但模型具有显著改进的性能和独特的特征的适用性域(DAs)。也就是说,它们对于不同的单胞特性都表现良好。在误差改进方面,基于-MBTR的模型突出的是平均误差降低了一倍,而识别基态多形体所需精度以上的误差部分减少了约7.5倍(即从12.8减少到1.7%)。研究者证明了基于-MBTR的模型在筛选DA内的材料时实际上是可行的,而在DA外则是非常不可靠的。

图1 三阶噪声多项式二维模型的适用范围。

图2 ML模型的适用性域(DA)识别和验证工作流。

图3 DA与全局ML模型的性能。

图4 单个DA选择器条件对基于SOAP模式的影响。

综上所述,研究者说明了如何通过识别ML表示的系统优缺点来使用所提出的方法来指导ML表示的发展。尽管平均误差互不区分且不令人满意,但模型具有独特的特点,并显著提高了性能。这种分析形式能更广泛地促进材料的ML方法以及科学的ML方法。(文:水生)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
谷歌高级研究员Nature发文:避开机器学习三大「坑」
常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗
谷歌首席工程师:机器啥都能学,但这不妨碍它挖坑不填
ML之LF:机器学习中常见的损失函数(连续型/离散型)的简介、损失函数/代价函数/目标函数之间区别、案例应用之详细攻略
TDC | 第一个机器学习在生物医药上的大规模数据集和Leaderboard
机器学习和经济学, 技术革命正在改变经济社会和学术研究
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服