【化学信息学】有机反应数据的文本挖掘

——有机反应数据库——

人工智能的发展离不开设计精妙的算法，更离不开大量可靠的数据。在有机合成、药物合成领域想要应用人工智能技术来辅助有机分子逆合成路线设计，辅助预测反应产物、产率与反应条件，就往往需要大量的数据。这些数据基本上都需要从大量文献与专利中进行高质量的收集。表1展示了目前常用的有机反应数据库的概况。

表1. 常见的有机反应数据库概况 (2021年9月收集的信息)。

*注：Reaxys的5 M数据量是一篇探究反应数据集对计算机辅助合成设计（CASP）影响的文献中进行报道的[18]。

其中USPTO系列与Pistachio反应数据集其实都是利用Lowe于2012年开发的Java程序（patent-reaction-extraction，https://github.com/dan2097/patent-reaction-extraction）自动从美国专利数据库中提取的。而Pistachio数据集一直由NextMove公司维护。其他几个反应数据库基本都是人工收集。人工从文本中收集数据无疑是耗时耗力的，因此近两年来无论是有机化学领域，还是其他自然科学领域，越来越多的研究者投入到自动化文本挖掘研究工作中。下图是笔者整理的有机反应数据挖掘的工作流程图。

图1. 有机反应数据自动化挖掘的基本工作流。

——自动化数据挖掘——

一般来说，有机反应数据收集常用的策略是识别文本中化学物质、反应温度、时间及其他条件与信息，即将文本化学信息进行结构化处理。这其实与自然语言处理（NLP）中的命名体识别（NER）任务非常相似。因此，除了一些基于人工设定化学规则的方法外，许多基于深度学习的NER算法被应用于这个问题，并表现出一定的潜力。

在有机反应数据文本挖掘的研究工作中，近几年发表并开源的几个笔者认为比较重要工作如下所示：

1、 Lowe在剑桥大学的博士论文patent-reaction-extraction[8]。

2、 Cronin课题组的SynthReader[9]。

3、 Cheminformatics Elsevier Melbourne University lab（ChEMU）发布的专利化学文本数据集与任务（本公众号之前曾介绍过【深度学习】从专利文本中提取化学反应——ChEMU数据集）[10]。

4、 MIT针对期刊文献开发的有机反应数据提取工具ChemRxnExtractor[11]。

通过一些测试研究分析，笔者对以上工作的方法特点以及存在的一些局限性进行如下概述。

表2. 自动化收集有机反应数据相关工作概述。

除此之外，IBM RXN的Paragraphs to experimental procedures工作（本公众号之前曾介绍过【自动合成】IBM的自动化合成实验室（上））是利用目前在深度学习领域比较火热的Transformer构架来实现端到端的任务，即将实验操作文本翻译为机器可读的操作元组[12]。

——反应文本的预处理——

在有机化学文本预处理方面，ChemDataExtractor第2代，适用于基于文本的html解析、pdf解析（效果显著不如html）[13]。其分句、分词功能是针对化学文本信息进行一系列优化的。此外它还基于词聚类和条件随机场（CRF）模型实现了化学命名体识别，基于规则的方法实现了化合物编号消解，以及其他信息的合并，详细文档可以在他们官网查看http://www.chemdataextractor2.org。

图2. ChemDataExtractor (第一代)的功能示意图[13]。

此外，Scispacy是针对自然科学和计算机科学领域的文本优化过的nlp工具，这些预训练的模型（https://allenai.github.io/scispacy/），加速下游任务的开发[14]。

——反应数据的后处理——

化学文本后处理主要涉及两个问题有指代消解与name2smiles。指代消解就是将许多指代词（编号）对应到正确的IUPAC，从而能够借助IUPAC to SMILES的工具转换成计算机可读的化学结构信息。

在J. M. Cole课题组开发的ChemDataExtractor中可以实现部分指代消解（如，只针对IUPAC名后跟着编号的简单情况）；而他们开发的另一款工具ChemSchematicResolver是可以实现图表中分子结构式转换成smiles，并且与结构式最近的编号进行匹配，这点可以部分解决文本中编号指代词的消解问题，然而这个工具在笔者的测试下表现一般，仍然需要进一步改善[15]。

图3. ChemSchematicResolver功能示意图[15]。

还有许多缩写、俗名、商品名，无法直接转换成smiles，需要相关的数据库接口来进行检索确认。笔者找到两个数据库提供免费api，一个是RCS旗下的Chemspider (https://www.chemspider.com)，另一个是NCI的CIR (https://cactus.nci.nih.gov/chemical/structure)。Chemspider可以检索到缩写相关的化合物，但是会有许多干扰项；而CIR能够得到唯一结果，其中也存在一些错误，可能需要通过上下文的语境来进行较好的推荐。

IUPAC to SMILES最常用的工具包是Lowe博士基于Java编写的工具OPSIN，支持命令行的调用，最近仍在更新维护中[16]。另一个基于Transformer翻译模型的方法也达到与OPSIN相近的准确度，感兴趣的读者可以关注文献[17]。

图3. OPSIN可以将IUPAC命名转换成结构化信息，例如SMILES，InChI[16]。

——小结——

总体而言，目前大多数学术界开发的有机反应收集工具，仍存在不少提升空间，抑或是不足以完成整个反应数据流的自动收集工作。未来一方面借助nlp领域飞速发展的算法提高语言模型表现，同时也可以结合图像处理相关的OCSR（光学化学图像识别）技术来捕捉图表中的信息，或者是在无法得到html等文本结构化较好的资料时，先用OCSR识别图像中的图表与文本，再继续进行反应收集。当然这些工具的开发与优化，可以让数据收集人员对数据进行更好更快地整理，这无疑是人工智能技术给科学和工业进步带来的福音。

笔者随想：如今俄乌关系的紧张环境，也让我们看到一些西方国家从非军事方面采取的限制措施，不得不让人警醒，我们自己也需要掌握核心技术与数据，否则便是被他人掌握软肋而处处受限。

参考文献：

[1] https://www.cas.org/cas-data

[2] https://www.elsevier.com/solutions/reaxys

[3] Reymond, J.-L, et al., Chem. Sci. 2020, 11 (1), 154-168.

[4] Coley, Connor W., et al., Chem. Sci. 2019, 10 (2), 370-377.

[5] Schneider, N., et al., J. Chem. Inf. Model. 2016, 56 (12), 2336-2346.

[6] Lowe, D., Chemical reactions from US patents, 1976–Sep 2016,

[7] Kearnes, S. M., et al., J. Am. Chem. Soc. 2021, 143 (45), 18820-18826.

[8] Lowe, D. M., Ph.D. Thesis, University of Cambridge, 2012.

[9] Mehr, S. H. M., et al., Science 2020, 370 (6512), 101-108.

[10] http://chemu.eng.unimelb.edu.au

[11] Guo, J., et al., J. Chem. Inf. Model. 2021,

[12] Vaucher, A. C., et al., Nat. Commun. 2020, 11 (1), 3601.

[13] Mavračić, J., et al., J. Chem. Inf. Model. 2021, 61 (9), 4280-4289.

[14] Neumann, M., et al., ArXiv 2019, abs/1902.07669.

[15] Beard, E. J.; Cole, J. M., J. Chem. Inf. Model. 2020, 60 (4), 2059-2072.

[16] Lowe, D. M., et al., J. Chem. Inf. Model. 2011, 51 (3), 739-753.

[17] Krasnov, L., et al., Sci. Rep. 2021, 11 (1), 14798.

[18] Thakkar, A., et al., Chem. Sci. 2020, 11 (1), 154-168.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。