大模型幻觉问题专栏

本文介绍了几篇关于大型语言模型和大型视觉语言模型中幻觉问题的论文。其中包括评估大型模型的事实一致性、在大型视觉语言模型中评估目标幻觉、HaluEval：一个大规模的幻觉评估基准以及基于推理任务的大型语言模型产生幻觉的来源。这些论文提出了一些新的方法和评估标准，可以更好地评估和解决大型语言模型中的幻觉问题。

评估大模型的事实一致性

建立一个新的用于比较模型对“真实一致的”和“真实不一致的”摘要之分的基准数据集。此论文的基准数据集被称为FIB，包含了人工编写的真实一致摘要和手动注释的真实不一致摘要。FIB数据集包括三个部分：文章内容、真实一致摘要和真实不一致摘要。

利用大型语言模型，评估其生成结果的真实一致性。此论文采用GPT-2和T5这两种广泛使用的大型语言模型，分别用于产生文章的摘要。

对大型语言模型进行测试。通过对FIB数据集进行测试，比较大型语言模型生成摘要的真实一致性。作者在测试过程中考虑了摘要的准确性和一致性等因素，以判断摘要的真实一致性，并对结果进行评估和分析。

分析大型语言模型的表现。此论文利用BLEU、ROUGE和BERTScores等指标来比较大型语言模型的性能，并根据不同条件下的实验结果对大型语言模型进行评估和分析。通过实验发现，大型语言模型在处理真实一致的摘要上表现更优，但如果输入文本中出现真实不一致的内容，大型语言模型可能会更加倾向于生成真实不一致的摘要。

GitHub链接：https://github.com/r-three/fib

论文链接：https://arxiv.org/abs/2211.08412.pdf

在大型视觉语言模型中评估目标幻觉

文章研究的背景是针对大型视觉语言模型中的目标幻觉问题。这是指模型根据生成的文本描述生成不一致于目标图像的物体的问题。

过去的方法已经提出了大量的视觉语言模型，但都未对目标幻觉问题进行系统研究。此论文提出了一种系统的研究方法，主要是通过评估来发现和解决模型中的幻觉问题。通过设计新的评估方法，可以发现具体哪些目标容易出现幻觉，并且可以更加稳定和灵活地评估幻觉问题。

文章提出了一种基于投票的查询方法（POPE）来评估大型视觉语言模型中的目标幻觉。具体方法是首先生成一组幻觉候选物体，然后分别用其他模型投票来对每个候选物进行评估，最终确定是否出现幻觉。

该方法在多个代表性的大型视觉语言模型上进行了实验，得到的结果表明这些模型大多数都存在严重的幻觉问题，并且新的评估方法可以更好地评估幻觉问题。这说明此论文提出的方法可以有效地解决大型视觉语言模型中的目标幻觉问题。

GitHub链接：https://github.com/RUCAIBox/POPE

论文链接：https://arxiv.org/abs/2305.10355.pdf

HaluEval：一个大规模的幻觉评估基准

此论文采用了ChatGPT模型生成大量的带幻觉信息的数据集，并使用人工标注这些数据集，对大型语言模型(LLMs)识别幻觉的表现进行评测。

此论文提出了一个基于ChatGPT模型的两步框架（抽样-过滤法）生成幻觉数据集。第一步是采用一次性或对话式的方式给ChatGPT模型下发幻觉指令，第二步是通过一个过滤算法来周期性地筛选生成的结果。

针对任务特定领域，此论文采用一种自动的方式生成幻觉样本。该方法包括两个步骤：多样化幻觉抽样和高质量幻觉过滤。其中，多样化幻觉抽样又采用了一次性和对话式两种不同的方式，使得每个问题都能生成多种幻觉答案。在这之后，此论文使用一种算法来对产生的结果进行高质量过滤选择最真实，最有挑战性的样本。

此论文提出的HaluEval基准系统包含大量数据集，采用了人工标注和自动生成相结合的方法，能够用来分析生成幻觉在特定的主题和任务关注点中有何特点，并能够研究LLMs处理幻觉的能力与方法。

此论文采用了多个现有的强大的LLMs（比如ChatGPT，GPT-3）来对HaluEval进行评估和分析。研究发现，ChatGPT模型对于某些特定主题很有幻觉倾向，并且现有的LLMs在辨别幻觉信息时面临着很大的挑战。但是，在外部知识和推理步骤的加入下，LLMs对于幻觉信息的辨别能力得到了很大提升。

GitHub链接：https://github.com/RUCAIBox/HaluEval

论文链接：https://arxiv.org/abs/2305.11747.pdf

基于推理任务的大型语言模型产生幻觉的来源

此论文研究了当前大型语言模型在自然语言推理（NLI）任务中产生幻觉的问题;

过去的研究方法普遍缺乏对大型语言模型推理能力的实证研究，存在着难以解释的偏见和鲁棒性问题，并且缺乏能够获得广泛共识的结果。此论文基于大量受控实验对大型语言模型进行了行为研究，提出了两个主要因素，解释了推理幻觉的产生原因，并提出了一种基于行为研究的可解释方法;

此论文提出了一种基于方向推理数据集的行为研究方法，结合多个大型语言模型进行了实验并分析了它们的推理行为，从而得出两个主要因素，即模型对训练数据的记忆和语料库的统计模式，用于解释为什么大型语言模型会产生幻觉;

此论文通过行为研究发现了大型语言模型在方向推理任务上的表现问题，提出了两个主要因素，这些因素解释了大型语言模型产生假阳性幻觉的原因。此论文最后测试了几个大型语言模型在推断任务上的表现，并展示了这些模型仍然使用非人类推理方法，在测试集上存在较大差距。

GitHub链接：https://github.com/Teddy-Li/LLM-NLI-Analysis

论文链接：https://arxiv.org/abs/2305.14552.pdf

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。