会话 NLP 的两个新数据集：TimeDial 和 Disfl-QA

视频介绍：会话 NLP 的两个新数据集：TimeDial 和 Disfl-QA

自然语言处理(NLP) 的一个关键挑战是构建能够理解和推理真实语音所特有的不同语言现象的会话代理。例如，因为人们并不总是预先准确地预想他们要说的话，自然的谈话通常包括讲话的中断，称为不流畅. 这种不流畅可以是简单的（如感叹词、重复、重新开始或更正），这只会破坏句子的连续性，或者更复杂的语义不流畅，其中短语的基本含义发生了变化。此外，理解对话通常还需要了解时间关系，例如一个事件是先于还是在另一个事件之后。然而，建立在当今 NLP 模型上的对话代理在面对时间关系或不流畅时往往会遇到困难，并且在提高其性能方面进展缓慢。这部分是由于缺乏涉及如此有趣的对话和语音现象的数据集。

为了在研究界激起对这个方向的兴趣，我们很高兴推出TimeDial，用于对话中的时间常识推理，以及Disfl-QA，专注于上下文不流畅。TimeDial 提出了一个新的多项选择跨度填充任务，旨在用于时间理解，带有超过约 1.1k 对话的带注释测试集。Disfl-QA 是第一个包含信息搜索设置中上下文不流畅的数据集，即对维基百科段落的问答，有大约 12k 人工注释的不流畅问题。这些基准数据集是同类中的第一个，显示了人类表现与当前最先进的 NLP 模型之间的显着差距。

TimeDial

虽然人们可以毫不费力地推理日常时间概念，例如对话中的持续时间、频率或事件的相对顺序，但此类任务对于对话代理来说可能具有挑战性。例如，当前的 NLP 模型在填写空白（如下所示）时通常会做出糟糕的选择，该空白假设具有推理的基本世界知识水平，或者需要理解跨对话轮次的时间概念之间的显式和隐式相互依赖关系.

人们很容易判断“1 点半”和“2 点钟”比“3 点半”和“9 点半”更像是填空的选项。然而，在对话的上下文中执行这种时间推理对于 NLP 模型来说并非微不足道，因为它需要吸引世界知识（即，知道参与者尚未迟到）并理解事件之间的时间关系（“一点半”在“三点钟”之前，而“三点半”在它之后）。事实上，目前最先进的模型，如T5和BERT最终选择了错误的答案——“三点半”（T5）和“九点半”（BERT）。

TimeDial 基准数据集（源自DailyDialog多轮对话语料库）测量模型在对话上下文中的时间常识推理能力。数据集中约 1.5k 个对话中的每一个都以多项选择设置呈现，其中一个时间跨度被屏蔽，并要求模型从四个选项的列表中找到所有正确的答案以填补空白。

在我们的实验中，我们发现虽然人们可以轻松回答这些多项选择题（准确率为 97.8%），但最先进的预训练语言模型仍然难以应对这一挑战。我们对三种不同的建模范例进行了实验：（i）使用 BERT 对提供的 4 个选项进行分类，（ii）使用 BERT-MLM 对对话中的掩码跨度进行掩码填充，（iii）使用 T5 的生成方法。我们观察到所有模型都在这个挑战集上挣扎，最好的变体只有 73%。

定性错误分析表明，预训练的语言模型通常依赖于浅层、虚假的特征（尤其是文本匹配），而不是真正对上下文进行推理。构建能够执行 TimeDial 所需的时间常识推理的 NLP 模型很可能需要重新思考时间对象在一般文本表示中的表示方式。

Disfl-QA

由于不流畅本质上是一种语音现象，它最常见于语音识别系统的文本输出中。理解这种流利的文本是构建理解人类语音的会话代理的关键。不幸的是，NLP 和语音社区的研究因缺乏包含此类不流畅性的精选数据集而受到阻碍，并且可用的数据集（如Switchboard）在规模和复杂性方面受到限制。因此，在不流畅的情况下很难对 NLP 模型进行压力测试。

不流畅例子

欹 “什么时候，嗯，今年的复活节？”

重复 “ Eas ……今年复活节是什么时候？”

更正 “今年四旬期是什么时候，我是说复活节？”

重新开始 “多少钱，别等了，今年复活节是什么时候？”

不同类型的不流畅。reparandum（打算更正或忽略的词；红色）、interregnum（可选的话语提示；灰色）和修复（更正的词；蓝色）。

Disfl-QA 是第一个包含信息搜索设置中上下文不流畅的数据集，即对来自SQuAD 的维基百科段落的问答。Disfl-QA 是一个针对不流畅性的目标数据集，其中所有问题（~12k）都包含不流畅性，这使得不流畅性测试集比之前的数据集大得多。Disfl-QA 中超过 90% 的不流畅是修正或重新启动，这使得它成为一个更加困难的不流畅修正测试集。此外，与早期的不流畅数据集相比，它包含更多种类的语义干扰项，即带有语义意义的干扰项，而不是更简单的语音不流畅。

在这里，第一个问题（Q 1）是寻求有关诺曼底位置的答案。在不流利的版本 (DQ 1 )中，在更正问题之前提到了挪威语。这种纠正不流畅的存在混淆了 QA 模型，该模型往往依赖于问题的浅层文本线索来进行预测。

Disfl-QA 还包括更新的现象，例如 reparandum 和 repair 之间的共指（指代同一实体的表达式）。

我们展示了数据增强方法部分地恢复了性能损失，并证明了使用人工注释训练数据进行微调的有效性。我们认为，研究人员需要大规模的不流畅数据集，以便 NLP 模型对不流畅有鲁棒性。

结论

理解人类语音所特有的语言现象，如不流畅和时间推理等，是在不久的将来实现更自然的人机交流的关键因素。通过 TimeDial 和 Disfl-QA，我们旨在通过提供这些数据集作为 NLP 模型的测试平台来填补主要的研究空白，以评估它们对不同任务中普遍存在的现象的鲁棒性。我们希望更广泛的 NLP 社区能够设计通用的少样本或零样本方法来有效处理这些现象，而不需要专门针对这些挑战构建的特定任务的人工注释训练数据集。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。