通过prompt方法增强开放领域问答模型

前言

开放领域问答任务最常见的两个难点就是保证回答的答案具有事实性和时效性，但是模型通常在训练好后就是固定的即权重固定好了，尤其是时效性基本上很难保证。

今天要给大家介绍的这篇paper主要就是通过prompt来辅助解决这两个难点，感兴趣的小伙伴一起来看看吧～

论文链接：

https://arxiv.org/pdf/2203.05115v1.pdf

多提一句，除了问答还有根据答案生成问题的任务，也很有趣，感兴趣的小伙伴可以看之前笔者介绍过的一篇:

QA4QG: 一个多跳问题生成任务模型

方法

主要包含3个步骤，第一步就是检索，根据问题使用搜索引擎检索出一些相关的答案；第二步构建prompt作为模型的输入；第三步生成多个召回候选，然后重排等等最后结果。下面我们一个个看：

Retrieve

主要是使用的是google的搜索API，当来了一个问题时，使用其去检索得到top20的doc url，然后解析得到其相应的文本，但是这里有一个问题就是通常检索回来的doc通常都比较长（大多数都是来自于维基百科等等），而由于模型对输入长度是有限制的，所以很难直接应用，于是作者这里的做法是先将所有文档分为6个句子的段落，然后使用tf-idf分别对问题q和段落编码，然后使用余弦相似度作为对各个段落排序的分数，这样在最后只使用一些最相关的段落作为训练样本。

为了说明检索带来的好处，作者还将google和DPR（一种应用在维基百科问答上的端到端的模型）进行对比，具体的作者使用Wikipedia-derived NQ 数据集作为问题去分别用google搜索和DPR预测，结果发现还是google好，大概是86.5% vs 79.4%，这还不算google做的一些优化，比如为了公平只将google的返回结果也限制在维基百科上，如果放开到全网络那google的分数可以上升到92.4%。

Prompt

这里就是构建训练样本，作者在k-shot QA场景进行的，具体的原来的训练样本形式是⟨questions, answers⟩，首先使用questions去检索出一些相关的paragraph（上一步）作为evidence也即提示prompt，最后将训练样本扩展为⟨Evidence , questions, answers⟩，具体的k=20。

Rerank

说白了这里主要的思路就是尽可能的多召回几个答案候选，然后打分重排选出最好的，这样就可以尽大可能的达到容错的效果，作者还给了一个证明：已经有很多研究证明通过缩减参数来达到增加计算量，这样对提升few-shot tasks效果是有效的，即牺牲参数换计算量。

作者这里就是通过多召回来类比增加计算量，绕来绕去其实就是多召回几条看看，选个最好的。

具体的对于一般的问答任务就是先根据Q检索n = 50条Evidence，然后再根据每一个Evidence作为prompt生成多个后续答案，这样最后候选其实就很多了，而对于分类任务就更简单了就是预测所有类别的一个概率分布。

这里的候选的分数具体量化作者给了三种作为参考，其中q是问题,pi是检索出的第i个paragraph也即上述说的evidence也即论文标题说的prompt，ai是根据q和pi作为模型输入预测的结果

（1）Direct inference

（2）Noisy channel inference

（3）Product-of-Experts (PoE)

结合考虑上述两种

实验结果

效果当然是很好了，大家感兴趣的话可以去细读原论文实验部分。

总结

(1) 论文将检索结果作为prompt也即Evidence给到模型作为一部分输入，本质上来讲就相当于给模型的输入增加了信息量，理论上一定对结果是有增益的，额外给了一些相关信息当然对预测结果是有帮助的，额外给的这个信息量作者将其形象化为事实和时效，其实也许还有其它的，只不过这两个最明显，总的来说吧，这个idea一听就很work，还是挺有意思的。

(2) 这个idea能work的一个重要前提保障是检索出来的候选prompt一定要保证比较好且稳定，不然的话不但对结果没增益还有可能因为引入噪声而导致变差。

(3) 如果类比推荐流程，检索这一步一定程度上相当于是个粗排，给我们召回一批很好的prompt，基于此我们进行精排给出最后答案，而且这个粗排是一个很好用的已有的系统即市面上成熟的那些搜索引擎。站在巨人的肩膀上，事倍功半。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。