绝大多数科学知识都是以文本形式发表的,无论是传统的统计分析还是现代的机器学习方法都很难对其进行分析。相比之下,材料研究领域机器可解释数据的主要来源是结构化属性数据库,它只包含研究文献中现有知识的一小部分。除了属性值之外,出版物还包含关于作者解释的数据项之间的连接和关系的有价值的知识。为了提高对这些知识的识别和使用,一些研究集中于使用监督自然语言处理从科学文献中检索信息,这需要大量手工标记的数据集来进行培训。在这里,我们证明,在没有人类标记或监督的情况下,公开发表的文献中出现的材料科学知识可以有效地编码为信息密集的单词嵌入式(单词的向量表示)。没有任何明确的化学知识插入,这些嵌入捕获复杂的材料科学概念,如元素周期表的基本结构和材料的结构-属性关系。此外,我们还证明了一种无监督的方法可以在材料被发现前几年就为功能应用推荐材料。这表明,关于未来发现的潜在知识在很大程度上嵌入了过去的出版物中。我们的发现强调了以集体的方式从大量科学文献中提取知识和关系的可能性,并指出了科学文献挖掘的一种普遍方法。
联系客服