故名思义,常识推理就是利用自身了解的知识,比如科学事实、社会惯例等,再结合特定的背景来推断出某个问题的答案。对于人类来说,用「常识」去解决问题这件事本身,就是一个「常识」。然而对于现在的阅读理解AI来说,如果原文没有,那基本就算是「两眼一抹黑」了。想要让这些模型利用常识去推理出某个问题的答案,是非常困难,也是亟待解决的。因此,在这样的一个背景下,CommonsenseQA 2.0(CSQA2)国际常识推理评测数据集在艾伦人工智能研究院的主导之下应运而生。它吸引了包括Google、Allen Institute for AI、华盛顿大学等众多国际顶尖机构参与挑战。简单介绍下,CSQA2是一个二元分类数据集,包含14343个问题,主要分为训练/开发/测试集,需要判断常识性陈述是对还是错。其1.0版本所考察的问题,是基于现有常识知识库ConceptNet中的知识三元组构建的,这使得机器在处理该任务时,有能直接聚焦参考的知识。
还有一个非常困难的项目,光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。我们先拆解一下MuticoNER这个词,Muti是multilingual (多语言)的简称,Co即是complex (复杂),而NER则是Named Entity Recognition,又称作「命名实体识别」,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。这项任务究竟有多难?举个例子,(皇马)[organization]除了首轮负于(克星拉科)[organization]以外,现在已是四连胜。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表现出色。具体来说,这个任务包含了11项单独语言命名实体评测任务,以及2项多语言统一建模的评测任务。其中的数据来源于Wikidata(维基数据),数据量庞大且极具应用价值。参赛团队需要在单个语言以及多个语言混合的文本数据中,精准预测不同语言实体的类别标签,而整个过程仅能使用一个模型。对此,中科大-讯飞联合团队,在多语言混合、中文、孟加拉语赛道上,分别以92.9%、81.6%、84.2%的F1成绩登顶。