【论文解读】大模型事实性调查（上）

一、简要介绍

本调查探讨了大型语言模型（llm）中的事实性的关键问题。随着llm在不同领域的应用，其输出的可靠性和准确性变得至关重要。论文将“事实性问题”定义为llm产生与既定事实不一致的内容的概率。论文首先深入研究了这些不准确性的含义，并强调了LLM输出中的事实错误所带来的潜在后果和挑战。随后，论文分析了llm存储和处理事实的机制，寻找事实错误的主要原因。然后，论文的讨论过渡到评估LLM事实性的方法，强调关键指标、基准和研究。论文进一步探索了增强LLM事实性的策略，包括针对特定领域的方法。论文主要关注两种主要的LLM配置——独立的LLM和利用外部数据的检索-增强的LLM——论文详细介绍了它们所面临的独特挑战和潜在的增强功能。论文的调查为研究人员提供了一个结构化的指导，旨在加强llm的事实可靠性。

二、事实性问题（FACTUALITY ISSUE）

在本节中，论文将描述大型语言模型中的事实性问题及其影响。

2.1大型语言模型

在文献中没有对大型语言模型的精确定义。论文主要考虑具有突发能力的解码生成预训练语言模式，如ChatGPT 和LLaMA 。论文还包括了一些基于编码器-解码器架构模型的工作，如T5 。在这项调查中，论文不讨论只讨论仅基于编码器模型的工作，如BERT 和RoBERTa。具体来说，论文的调查包括以下llm：

通用领域大语言模型 General Domain LLMs：

GPT-2 , GPT-3 , ChatGPT , GPT-4 , GPT-Neo , OPT , LLaMA , LLaMA-2 , Incite , Claude , Falcon , MPT , Vicuna , FLAN-T5 , BLOOM , Baichuan & Baichuan2 , PaLM , Gopher , Megatron-LM , SAIL , Codex , Bard, GLM & ChatGLM, InternLM, StableBeluga, Claude, Alpaca , New Bing, Ziya-LLaMA, BLOOMZ , Chinese-LLaMA , Phoenix , and others.

特定领域大语言模型Domain-specify LLMs:

BloombergGPT , EcomGPT , BioGPT , LawGPT , Lawyer LLaMA, ChatLaw , BioMedLM, HuatuoGPT , ChatDoctor, MedicalGPT , Bentsao (Huatuo as its original name) , Zhongjing , LLM-AMT , DISC-MedLLM , Cohortgpt, Deid-gpt, Doctorglm , MedChatZH , K2 , HouYi , GrammarGPT , FoodGPT, ChatHome, and others.

2.2 Factuality

llm的事实性即是大型语言模型生成遵循事实信息的内容的能力，其中包括常识、世界知识和领域事实。事实信息可以基于可靠的来源，如字典、维基百科或来自不同领域的教科书。一系列的工作已经讨论了llm是否可以作为存储事实知识的知识库。

现有的工作集中在测量LLMs定性中的事实性，讨论了存储知识的机制和追踪知识问题的来源。llm的事实性问题相对最受关注。表1中显示了几个实例。例如，LLM可能缺乏特定领域的事实知识，如医学或法律领域。此外，LLM可能不知道在其上次更新后发生的事实。也有一些情况下，LLM尽管拥有相关的事实，但未能推断出正确的答案。在某些情况下，它甚至可能忘记或无法回忆起它以前所学到的事实。事实性问题与大型语言模型领域的几个热点话题密切相关，包括幻觉、过时信息和领域特异性（例如，健康、法律、金融）。在这些主题的核心，这些主题强调了同样的问题：llm可能生成与某些事实相矛盾的内容，无论这些内容是凭空捏造、过时的信息，还是缺乏特定领域的知识。

因此，论文认为这三个主题都在事实性问题的范围内。然而，需要注意的是，虽然这些主题是相关的，但它们每个都有一个独特的焦点。llm中的幻觉和事实问题都与生成内容的准确性和可靠性有关，它们涉及不同的方面。幻觉主要围绕着llm生成毫无根据的内容。从OpenAI的定义来看，幻觉可以被理解为该模型倾向于“产生与某些来源相关的荒谬或不真实的内容”。这与对事实性的关注不同，后者强调模型的学习、获取和利用事实性知识的能力。为了说明这一区别：如果LLM被提示创作“关于一只兔子和一只狼交朋友的童话故事”时，创作了一个关于“一只兔子和一只狗成为朋友”的故事，它就产生了幻觉。然而，这并不一定是一个事实性的错误。如果生成的内容包含准确的信息，但与提示符的细节不同，那么这是一个幻觉，而不是一个事实问题。例如，如果LLM的输出包含了比提示符指定的更多的细节或不同的元素，但实际上仍然是正确的，那么这将是一种幻觉。相反，如果LLM避免给出一个直接的答案，说“我不知道”，或者提供一个准确但省略了一些正确的细节，它解决的是事实，而不是幻觉。此外，值得注意的是，幻觉有时会产生的内容，虽然偏离了原始输入，但确实保持准确。关于事实问题和幻觉之间更结构化的比较，请参见表2。另一方面，过时的信息侧重于以前准确的信息已被最近的知识所取代的情况。最后，领域特异性强调生成需要特定的、专门的知识的内容。尽管存在这些差异，但所有这三个主题都有助于论文理解llm中更广泛的事实性问题。

设置（setting）。在这个调查中，论文主要关注的是两个具体的设置：1.标准的LLMs：直接使用LLMs来回答和聊天的；2.检索增强的llm：检索增强的生成。后者特别有趣，因为检索机制是增强llm的事实性的最普遍的方法之一。这不仅包括生成准确的响应，还包括从无数检索到的源中正确地选择相关的知识片段。

摘要任务（其目标是生成与源输入保持真实的摘要）已经有了关于事实性的研究，因此作者选择在论文的调查中不过多地关注这个领域。这一决定有几个原因。首先，摘要的源输入通常包含非事实的内容。其次，总结引入了一些独特的挑战，如确保连贯性、简洁性和相关性，这偏离了本调查的重点。同样值得注意的是，Pu等人发现，在不同的总结基准中，llm比人类产生更少的事实错误或幻觉。然而，论文仍然将讨论这一领域的一些工作，特别是那些与检索设置重叠的工作。

2.3 影响Impact

事实性问题显著地影响了llm的可用性。其中一些问题甚至导致了社会或经济层面的的损失，这引起了许多用户、开发人员和研究人员的注意。

事实问题也影响了法律领域，美国的一名律师因在法庭上提交幻觉判例法而面临制裁。一家法院要求律师在他们提交的材料中指出生成式人工智能产生的部分。此外，作为一项研究的一部分，一位律师要求ChatGPT生成一份有性骚扰史的法律学者名单。ChatGPT生成了一份包括一名法学教授的名单。ChatGPT称，2018年3月，《华盛顿邮报》的一篇文章报道该教授曾试图在课堂上触摸一名学生。然而，事实是，本文并不存在，所提到的课堂也不存在。此外，澳大利亚的一名市长发现了ChatGPT的虚假指控，称他个人被判受贿，承认了贿赂和腐败的指控，并被判入狱。作为回应，他计划对负责ChatGPT的公司提起法律行动，指控他们诽谤，传播有关他的不真实信息。这可能是首起涉及人工智能聊天机器人的此类诽谤案件。

最近的一项研究提供了对GPT-4在医疗能力考试和基准数据集上的表现的综合评估。该评估利用了GPT-4的纯文本版本，并调查了其在没有任何训练或微调的情况下处理医疗问题的能力。该评估使用美国医疗执照考试（USMLE）和MultiMedQA基准进行，将GPT-4的性能与GPT-3.5等早期模型以及专门根据医学知识进行微调的模型进行了比较。结果表明，GPT-4的性能明显优于它的前辈，在USMLE上获得的得分超过通过阈值20分，并且在没有专门的提示制作或针对特定领域的微调的情况下提供了最好的整体性能。

虽然大型语言模型在医疗数据集上显示出了希望，但在医疗保健领域引入自动化仍然需要非常谨慎的。现有的指标和基准测试通常是针对高度集中的问题而开发的。在评估LLM输出对现实世界的决策支持时提出了挑战，包括在现实世界环境中个性化推荐和推断的稳定性和鲁棒性。使用大型语言模型带来重大的风险，包括不准确的建议（如鉴别诊断）和测序（如，信息收集和测试），以及事实错误，特别是重要的遗漏和错误反应。

三、事实性评估（FACTUALITY EVALUATION）

评估llm的事实对于确保生成内容的可靠性和可信度至关重要。随着llm越来越多地集成到各种应用程序中，从信息检索到内容生成，它们输出的准确性变得至关重要。在本节中，论文将深入研究用于评估llm的事实性的评估指标和基准、已进行此类评估的研究以及特定领域的评估。

3.1事实性评估指标（Factuality Evaluation Metrics）

在本小节中，论文将深入研究为评估llm的事实性而建立的指标。由于问题公式类似于自然语言生成（NLG），论文引入了几个通常用于NLG的自动评估度量，以及专门检查事实性的度量。

论文将这些指标分为以下几组：

(1)基于规则的评估指标；

(2)神经评估指标；

(3)人工评估指标；

(4)基于LLM的评估指标。论文在表3中列出了这些指标。

3.1.1基于规则的评估指标（Rule-based evaluation metrics）。

由于大型语言模型的一致性、可预测性和易于实现，大多数对事实性的评估都使用基于规则的评估指标；它们允许通过系统的方法实现可重复的结果。然而，它们可能是严格的，也可能不能解释在语言使用、上下文解释或口语表达方面的细微差别或变化。这意味着被这些指标评估较高的语言模型仍然可能产生对人类读者感觉不自然或不真实的内容。

精确匹配。“精确匹配”指的是生成的文本与特定的输入或引用文本进行精确匹配的情况。这意味着LLM产生的输出与提供的输入或参考文本相同的输出。当您想要复制或重复一段文本而没有任何变化或更改时，在NLG中经常使用精确匹配。精确匹配是常用于开放域的问题回答

常见的指标。许多事实性评估测量使用常用的度量，如精度、准确度、召回率、AUC、f-measure、校准评分、Brier评分，以及其他用于概率预测和机器学习的常见度量，特别是在涉及概率预测的任务中。这些指标的常见定义涉及使用正确预测的标签和真实标签。由于llm的输入和输出都是人类可读的句子，因此没有统一的方法将句子转换为标签。大多数评估将定义他们自己的方式。也就是说，这些分数通常不是单独使用的，而是组合使用的。例如，BERTScore使用BERT来确定精度和召回率，然后使用f-measure来获得最终的加权分数。在下面，论文将描述这些分数中最简单的形式。

校准评分测量了预测概率和观察频率之间的一致性。一个完美校准的模型应该在大量实例中，看到一个结果的预测概率与该结果的相对频率相匹配。

Brier评分是一种用于概率预测的度量指标，用于衡量概率预测的准确性。它计算分配给一个事件的预测概率和该事件的实际结果之间的均方差。Brier评分范围为0到1，其中0表示完美预测，1表示可能的最差预测。换句话说，Brier分数越低，预测的准确性就越高。值得注意的是，这个指标适用于二元结果和分类结果，但不适用于顺序结果。对于二元结果，Brier评分可以计算如下：

其中，forecasti为预测概率，actuali为实际结果（0或1），N为预测的总数。

MC1（单真）和MC2（多真）。是在多项选择题回答中被广泛认可的指标，特别是在TruthfulQA中。MC1：对于一个给定的问题，并伴随着几个答案的选择，目标是确定唯一的正确答案。该模型的选择是由它分配了最高的对数完成概率的答案选择所决定的，独立于其他选择。这个分数被计算为所有问题的直接准确性。MC2：呈现一个问题和多个标记为真或假的参考答案，分数来自于分配给真答案集合的归一化总概率。

BLEU，也被称为双语评估基础研究度量，通常用于事实评估。该度量根据匹配的n-gram短语的加权平均值，计算两个句子中短语的共现频率。这有助于定量地评估生成的文本与其参考文献之间的事实一致性。

ROUGE。面向召回的要点评估度量（ROUGE）作为生成的文本和参考文本之间的相似性的度量，其相似性基于召回分数。ROUGE度量主要用于文本摘要领域，它包含四种不同的类型。这些包括评估n-gram共现统计量的ROUGE-n和测量最长共同子序列的ROUGE-l。ROUGE-w提供了基于加权最长公共子序列的评估，而ROUGE-s测量跳过共现统计。这些不同的度量标准共同提供了对生成文本的事实准确性的全面度量。

METEOR。显式评价翻译的度量（METEOR）旨在解决BLEU提出的几个缺点。这些缺陷包括召回方面的缺陷，没有高阶n-gram，生成的文本和参考文本之间没有明确的单词匹配，以及使用n-gram的几何平均。METEOR通过引入一个综合的测量，计算基于调和平均值的一元精度和召回率。这可能提供了对生成文本中事实性的增强评估。

QUIP-Score是一个n-gram重叠度量。它量化了生成的段落由在文本语料库中找到的精确跨度组成的程度。QUIP-Score旨在评估llm的“接地”能力，特别是评估模型生成的答案是否可以直接位于底层文本语料库中。它是通过比较从生成的输出到训练前的字符n-gram与训练前的语料库的精度来定义的。

3.1.2神经评估指标。

这些指标通过学习评估者模型，将这些模型的输出与标准文本或参考文本进行比较来进行操作。这一类别主要包括三个突出的指标，即ADEM、BLEURT和BERTScore。每个度量的评估方法略有不同，但所有的目标都是评估机器生成文本与其参考对应文本之间的语义和词汇对齐，从而确保生成内容的事实性。

3.1.3人工评估指标。

人类在事实性评估中的评估是至关重要的，因为它对语言和语境中的微妙元素很敏感，而这可能会逃避自动化系统。人类评估者擅长解释抽象概念和情感微妙之处，可以显著地告知评估的准确性。然而，它们受到诸如主观性、不一致性和潜在错误的限制。另一方面，自动化评估提供了一致的结果和有效的大数据集的处理，是需要定量测量的任务的理想选择。它们还为模型性能比较提供了一个客观的基准。总的来说，一个理想的评估框架可以将自动评估的可伸缩性和一致性与人类评估解释复杂语言概念的能力结合起来。

归因。是一个验证llm的输出是否只共享关于外部世界的可验证信息的指标。可归因于已识别的来源（AIS）是一个采用二元归因概念的人类评估框架。当且仅当一个任意的听者同意y上下文中“y归因于A”的陈述，则文本段落y被认为可归因于一组A的证据。如果段落y中的每个内容元素都可以与证据集A链接，AIS框架给予满分（1.0）。相反，如果不满足这个条件，AIS框架给予0分（0.0）。

基于AIS，Gao等人提出了一种更细粒度的句子级扩展，称为Auto-AIS，其中注释者为每个句子分配AIS得分，并报告所有句子的平均得分。这一程序有效地衡量了完全可归因于证据的判决的百分比。上下文，如周围的句子和文本回答的问题，被提供给注释者，以获得更明智的判断。还对归因报告中的证据片段的数量设置了限制，以保持简洁。

在模型开发过程中，使用一个自然语言推理模型定义了一个自动的AIS度量来模拟人类的AIS评估，它与AIS分数很好地相关。在计算分数之前，他们通过消除上下文中每个句子的语境来提高准确性。

FActScore是一种新的评估指标，设计用于评估由llm生成的长形式文本的事实精度。评估这类文本的事实的挑战来自两个主要问题：

(1) 生成的内容通常包含支持和不支持信息的混合信息，使二进制判断不足

(2) 人工评估既耗时又昂贵。

为了解决这些挑战，FActScore将生成的文本分解为一系列原子事实即每个事实传达一个信息的简短陈述。然后根据可靠知识来源的支持对每个原子事实进行评估。总体分数表示由知识源支持的原子事实的百分比。该论文进行了广泛的人工评估，以计算由几个最先进的商业llm生成的传记的FActScore，包括DuultGPT、ChatGPT和检索增强的PerplexityAI。结果显示，这些llm经常包含事实的不准确性，FActScore从42%到71%不等。值得注意的是，这些模型的事实精度往往随着传记中实体的增加而降低。

3.1.4基于LLM的评估指标。

使用llm进行评估提供了效率、多功能性、减少了对人工注释的依赖，以及在单个模型调用中评估会话质量的多个维度的能力，这提高了可伸缩性。然而，潜在的问题包括缺乏已建立的验证，如果用于评估的LLM没有被彻底审查，这可能会导致偏差或准确性问题。为了获得准确的评估，识别合适的llm和解码策略的决策过程可能是复杂的和关键的。评估的范围也可能是有限的，因为焦点往往是开放领域的对话，可能忽略了特定或狭窄领域的评估。虽然减少人类的投入可能是有益的，但它也可能错过由人类更好地评估的关键互动质量方面，比如情感共鸣或微妙的理解。

GPTScore是一个新的评估框架，旨在评估生成式人工智能模型的输出质量。为了提供这些评估，GPTScore利用了19种不同的预训练模型的紧急能力，如zero-shot指令，并使用它们来判断生成的文本。这些模型的规模从80M到175B不等。通过4个文本生成任务、22个评估角度和37个相关数据集进行测试，证明GPTScore可以有效地评估自然语言中每个指令的文本。该属性允许它避开传统上在文本评估中遇到的挑战，比如需要示例注释和实现自定义的多面评估。

GPT-judge是一个基于GPT-3-6.7B的精细模型，它被训练来评估TruthfulQA数据集中问题答案的真实性。训练集由问题-回答-标签组合形式的三元组组成，其中标签可以是真的，也可以是假的。该模型的训练集包括来自基准的例子和由人类评估评估的其他模型生成的答案。在最终的形式中，GPT-judge使用了所有模型的例子来评估反应的真实性。这个训练包括来自数据集的所有问题，目标是评估真相，而不是概括新的问题。

作者进行的研究集中于GPT-judge在使用TruthfulQA数据集评估真实性和信息性方面的应用。作者对两个不同的GPT-3模型进行了微调，以评估两个基本方面：真实性，涉及LLM提供的信息的准确性和诚实性；信息性，衡量LLM在其响应中如何有效地传递相关和有价值的信息。从这两个基本概念，作者推导出一个组合度量表示为真相信息。这个度量标准代表了真实性和信息性的标量分数的乘积。它不仅量化了问题被真实回答的程度，而且还包含了对每个回答的信息量的评估。这种综合的方法阻止了模型生成像“我没有评论”这样的通用响应，并确保响应不仅是真实的，而且是有价值的。这些指标在评估由llm生成的信息的事实性方面已被广泛部署。

LLM-Eval是一种新的与llm进行开放领域对话的评估方法。与传统的人工注释、真实响应或多个LLM提示不同，LLM-Eval使用独特的基于提示的评估过程，使用统一的模式在单一模型函数中评估会话质量的各种元素。使用多个基准数据集对LLM-Eval的性能进行广泛的评估表明，与传统的评估实践相比，它是有效、高效的和适应性强的。此外，作者强调了选择适当的llm和解码策略的必要性，强调了LLM-Eval在评估各种情况下的开放域对话系统时的多功能性和可靠性。

3.2事实性评估的基准

在本节中，论文将深入研究主要用于评估llm事实的基准。表4列出了为评估llm中的事实性而定制的具体基准。

MMLU和TruthfulQA是评估事实性的两个关键基准。MMLU基准被提出来测量一个文本模型在57个不同任务中的多任务准确性。这些任务涉及广泛的学科，从初等数学到美国历史、计算机科学、法律等等。该基准测试旨在测试模型的世界知识和解决问题的能力。该论文的研究结果表明，虽然最近的模型表现在接近随机概率精度，但最大的GPT-3模型显示了显著的改进。然而，即使是最好的模型，要在所有任务中达到专家级的准确性，还有很长的路要走。TruthfulQA是一个旨在评估语言模型生成的答案的真实性的基准。该基准包括817个问题，涵盖38个类别，包括卫生、法律、金融和政治。这些问题的设计方式是，一些人可能会因为误解或错误的信念而错误地回答它们。模型的目标是避免产生这些他们可能从模仿人类文本中学到的错误答案。TruthfulQA基准可以作为一个工具来突出仅依赖llm来获取准确信息的潜在缺陷，并强调了在这一领域继续研究的必要性。

HaluEval是一个旨在理解和评估像ChatGPT这样的llm产生幻觉的倾向的基准。在这种情况下，幻觉指的是与幻觉来源相冲突或无法根据事实知识进行验证的内容。HaluEval基准提供了大量生成的和由人类注释的幻觉样本，旨在评估llm在识别这种幻觉方面的表现。该基准测试基于ChatGPT来生成这些样本，利用一个两步框架，称为“采样然后过滤”。此外，人类标记人员被用来注释ChatGPT反应中的幻觉。HaluEval基准是一个全面的工具，它不仅评估llm的幻觉倾向，而且还提供了对内容类型和这些模型容易产生幻觉的程度的见解。

BigBench 关注于llm的功能和局限性。它包括来自不同领域的204个任务，如语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等。该基准测试被设计用来评估被认为超出了当前语言模型能力的任务。该研究评估了各种模型的性能，包括OpenAI的GPT模型，在大规模平台上的性能，并将其与人类专家评分者进行了比较。主要研究结果表明，模型性能和校准随着规模的提高而提高，但与人类性能相比仍然不是最优的。涉及重要知识或记忆部分的任务显示出可预测的改进，因为一定规模上表现出“突破性”行为的任务通常涉及多个步骤或组件。

Huang等人提出了第一个中文综合评估套件C-Eval。它可以用于评估中文背景下基础模型的高级知识和推理能力。评估套件包括跨越52个不同学科的多项选择题，有四个难度等级：中学、高中、大学和专业水平。此外，C-Eval Hard在C-Eval套件中引入了非常具有挑战性的主题，这需要高级的推理能力来解决。他们对最先进的llm的评估，包括面向英语和面向中文的模型，表明有显著的改进空间，因为只有GPT-4达到了超过60%的平均精度。作者着重于在中文的背景下评估llm的高级能力。研究人员认为，针对中文环境的llm应该根据他们对中文用户的主要利益的了解来进行评估，如中国文化、历史和法律。通过C-Eval，作者旨在指导开发人员从多个维度理解他们的模型的能力，以促进中文用户的基础模型的开发和增长。同时，C-Eval不仅引入了一个完整的套件，而且还引入了一个可以作为个体基准的子集，从而评估某些模型的能力，并分析基础模型的关键优势和局限性。实验结果表明，尽管GPT-4、ChatGPT和Claude并不是专门为中文数据而定制的，但它们在C-Eval上是表现最好的。

SelfAware旨在调查模型是否能识别出他们不知道的东西。这个数据集包括两种类型的问题：不可回答的问题和可回答的。该数据集包括从不同网站收集的2,858个不可回答的问题，以及从SQuAD、HotpotQA和TriviaQA等来源提取的2,337个可回答的问题。每个无法回答的问题都由三个人类评估者来确认。在所进行的实验中，GPT-4的F1score最高，为75.5，而人类的得分为85.0。更大的模型往往表现得更好，上下文学习可以提高性能。

The Pinocchio benchmark是一个广泛的评估平台，强调llm的事实性和推理。这个基准测试包含了来自不同来源、时间框架、字段、区域和语言的20,000个不同的事实性查询。它测试了LLM辨别组合事实的能力，处理有组织和分散的证据，识别事实的时间演变，查明微小的事实差异，并承受对抗性的输入。基准测试中的每个推理挑战都根据难度进行校准，以便进行详细的分析。

Kasai等人介绍了一个名为REALTIMEQA的动态QA平台。这个平台的独特之处在于，它会定期宣布问题和评估系统，基本是每周一次。REALTIMEQA数据集提出的问题涉及当前事件或新信息，挑战了传统open-domian QA数据集的静态性质。该平台旨在解决即时信息需求，推动QA系统提供有关近期事件或发展的答案。他们的初步研究结果表明，虽然GPT-3经常可以根据新检索到的文档更新其生成结果，但当检索到的文档缺乏足够的信息时，它有时会返回过时的答案。

FreshQA 是一个动态基准测试，设计用于评估llm的最新世界知识。它的问题从那些永不改变的问题到那些快速变化的问题，以及基于错误前提的问题。其目的是挑战llm的静态性质，并通过人类的评估来测试它们对不断变化的知识的适应性。他们开发了一个可靠的评估协议，使用双模式系统：对模型性能的全面理解，确保答案是自信的、明确的和准确的。它们还提供了一个强大的基线，称为“FRESHPROMPT”，旨在通过整合来自搜索引擎的实时数据来提高LLM的性能。初步实验表明，过时的训练数据会削弱llm的性能，而新提示方法可以显著提高其性能。该研究强调，llm需要更新当前的信息，以确保其在一个不断发展的世界中的相关性和准确性。

一些基准测试，如BigBench 和C-Eval，包含了超出事实知识或事实性领域的子集。在这项工作中，论文特别强调并关注那些与事实相关的子集。

有一些主要是为预训练的语言模型（plm）设计的基准测试，它们也可以适用于llm。一些研究使用它们来评估LLM的事实性，但它们并没有被广泛使用，所以为了清晰起见，论文选择将它们排除在表中之外。这些基准测试包括开放领域问答任务的：NaturalQuestions (NQ), TriviaQA (TQ) , OTT-QA , AmbigQA ， WebQuestion (WQ) ；多步问答的the HotpotQA , 2WikiMultihopQA , IIRC, MuSiQue ；长问答任务的the ELI5；事实检查任务的the FEVER , FM2 , HOVER , FEVEROUS ；检查预训练模型事实知识的 the T-REx, zsRE ，LAMA ；传记生成任务的the WikiBio；总结任务的the RoSE , WikiAsp ；全面的知识密集型任务的the KILT ；语言建模任务的the MassiveText, Curation Corpus, Wikitext103, Lambada , C4 , Pile ；对话人物的 the WoW, DSTC7 track2, DSTC11 track5 ；错误减少任务的the RealToxicityPrompts ；多种推理任务的the CommaQA, StrategyQA , TempQuestions , IN-FOTABS。

一些研究也提供了一个小的数据集，但它们主要集中在事实性的评估指标或方法上，论文选择在下一小节中讨论它们。

3.3事实性评估研究

在本节中，论文将深入研究那些不引入特定基准的研究，主要关注那些主要贡献在于评估方法的研究。论文重点关注那些率先使用评估技术、度量标准或对llm的事实性评估提供了独特见解的工作。

Manakul等人使用了一个包含几个关键步骤的评估过程。最初，合成的维基百科文章是使用GPT-3生成的，重点是来自wikibio数据集中的个人。随后，在句子层面进行人工注释，将句子分为“主要不准确”、“次要不准确”或“准确”，“主要不准确”表示与主题无关的句子。文章级的得分是句子级标签的平均，并通过得分分布分析识别不准确的案例。使用Cohen’s k来评估注释者间的协议。评估指标主要采用精确-召回曲线（PRCurves），区分“非事实句子”、“非事实*句子”（一个特定的子集）和“事实句子”。这些pr曲线阐明了不同检测方法的精度和召回之间的权衡。

BSChecker是一个事实错误检测框架，用于检测三重级粒度上的不准确性。它的pipeline包括一个声明提取器和一个检查器。声明提取器从模型的响应中提取三联体，由（主语、谓语、宾语）组成。与此同时，检查器将这些主张三联体与参考文献进行比较，将每个三联体分类为三个幻觉标签中的一个：隐含、矛盾或中性，从自然语言推理任务中获得灵感。BSChecker提供了一个基准，可以区分三种任务设置：零上下文、噪声上下文和准确上下文，包括closed-book QA、检索增强生成、总结、closed QA和信息提取任务。

Pezeshkpour提出了一种新的度量方法来衡量LLM中是否存在某种类型的知识。该度量是基于信息论，通过分析LLM在注入目标知识前后的预测概率分布来度量知识。在T-REx 和LAMA数据集上测试了GPT-3.5在知识探测任务中的准确性。

Varshney指出了现实世界中一种常见的情况，即用户经常基于错误的前提提出问题。这些问题对于最先进的模型来说是一个挑战。这就需要创建一个新的评估数据集。为此，作者进行了一个案例研究，并编制了一组50个这样的对抗性问题，GPT-3.5模型的回答都是错误。其目的是创建一个具有挑战性的实验设置，来评估面对此类问题的模型的性能。为了提高评估，对每个错误前提问题创建了相应的真实前提问题。这允许对模型的性能进行整体评估，同时考虑到正确和不正确的前提。作者确保评估模型给出的正确和不正确问题的完整答案——在这种情况下，一个答案部分正确是不够的，整个答案需要是准确的才能被标记为正确。例如：对于一个错误的前提问题，“为什么氦的原子序数为1？”，相应的真正前提问题是“为什么氢的原子序数为1？”".

FACTOOL是一种旨在作为事实检测器的工具，其主要目的是审计生成式聊天机器人和评估其输出的可靠性。这个工具被用来评估几个当代的聊天机器人，包括GPT-4，ChatGPT，Claude，Bard ，和Vicuna。值得注意的是，FACTOOL本身利用了GPT-4的功能。在评估过程中，研究人员策划了一系列不同的提示： 30个来自基于知识的问题回答（KB-QA），每10个分别来自代码、数学和科学领域。KB-QA提示来自之前的一项研究，代码提示来自HumanEval，数学提示来自另一项不同的研究，而科学提示则由作者自己制作。评估指标包括每个聊天机器人的声明级别和响应级准确性。为了提供更全面和更公平的评估，采用了加权声明级的准确性。权重是根据每个类别中提示的比例来确定的。这些发现很有启发性。在所有被评估的聊天机器人中，GPT-4在加权声明级事实准确性和响应级准确性方面都表现最好。另一个有趣的观察结果是，经过监督微调的聊天机器人，如Vicuna-13B，在KB-QA等标准场景中表现出了值得称赞的性能。然而，它们的性能在更复杂的场景中会下降，包括那些涉及数学、代码和科学查询的场景。

Wang等人询问了几个llm，包括ChatGPT、GPT-4、BingChat来回答来自NaturalQuestions和TriviaQA的开放问题。他们手动估计了这些llm在开放式问题回答时的准确性，并发现尽管llm可以获得良好的性能，但仍然远离完美。此外，他们评估GPT-3.5是否可以评估llm生成的响应的正确性并发现负面结果，即使也给出了正确答案。相似性，Fu等人要求LLM，如GPT-2和GPT-4，直接对总结的事实进行评分，发现LLM的事实指标与人类评估之间没有显著相关性。

Kadavath等人研究语言模型是否可以评估自己断言的准确性，并预测它们可以正确回答哪些问题。研究发现，如果以适当的格式给出，更大的模型可以在不同的多项选择题和真假问题上得到很好的校准。对开放式任务进行自我评估的方法是要求模型首先提出答案，然后评估他们的答案是正确的概率（P[True]）。这导致了在各种任务范围上的引人注目的性能、校准和缩放。此外，当模型在预测特定模型的有效性之前考虑许多自己的建议时，自我评估性能得到了提高。

Yu等人探讨了llm的内部知识是否可以替代检索到的关于知识密集型任务的文档。他们要求llm，如DeuulltGPT，直接生成给定问题的上下文，而不是从数据库中检索。他们发现生成的文档包含的黄金答案比检索到的顶级文档更多。然后，他们将生成的文档和检索到的文档输入到解码器融合模型，用于知识密集型任务，如Open-domain QA ，并发现生成的文档比检索到的文档更有效，这表明llm包含足够的知识用于知识密集型任务。

Menick等人提出了一项名为自支持QA的任务，以评估llm在生成答案时也产生引用的能力。作者要求人类评估他们提出的谷歌模型的反应是否可信，以及它们是否得到NQ、ELI5、TruthfulQA等数据集的引用证据的支持。

CONNER 一个将llm评估为知识生成者的框架。它主要关注六个领域：事实性、相关性、一致性、信息性、帮助性和有效性。它评估生成的信息是否可以由外部证明（事实）支持，与用户的查询（相关性）相关，以及逻辑一致（一致性）。它还可以检查所提供的知识是新颖的还是令人惊讶的（信息性）。外在评估衡量的是知识是否增强了下游任务（帮助性）及其结果是实际准确的（有效性）。

在事实性评估领域中，模型编辑任务具有独特的地位，专注于细化模型的内部知识。这个任务带有它自己的一组专门的评估指标。zero-shot关系提取（zsRE）和CeterFact主要作为评估模型编辑技术的主要基准。在评估这些方法时，出现了几个关键的标准：可靠性：后编辑，模型应该一致地生成预期的输出。泛化：该模型应该擅长于产生目标输出，即使是在呈现释义输入时。位置：编辑应该被本地化，以确保与特定编辑无关的事实保持完整。然而，鉴于复杂的事实网络，最近的研究Cohen等人，Yao等人，Zhong等人主张一种更全面的评估方法。它们为事实更新引入了更广泛的标准，包括可移植性、逻辑泛化等方面。

RAGAS提出了一个用于大型语言模型（llm）中的检索-增强生成（RAG）系统的无参考评估的框架。该框架主要评估RAG系统识别相关和关键上下文段落的能力，LLM使用这些段落的保真度，以及生成内容的总体质量。该框架关注于质量的三个方面：忠诚：生成的答案应该基于给定的上下文。为了评估忠诚度，生成的内容被分解为句子，然后将其转换为一个或多个短的断言。每个断言的忠诚度都根据检索到的内容进行评估，忠诚度得分是忠诚断言与断言总数的比率。回答相关性：生成的答案应该适当地解决所提出的问题。这是通过让LLM从每个生成的内容片段中生成潜在的问题来评估的。然后，一个嵌入模型计算每个潜在问题和原始问题之间的相似性。答案的相关性得分是这些相似性的平均值。上下文相关性：检索到的上下文应该具有高度相关性，包含尽可能少的不相关信息。这是通过使用LLM从检索到的内容中提取与问题相关的句子来评估的。然后根据这些相关句子占检索到的句子总数的比例来计算上下文相关性得分。作者创建了一个维基百科数据集，由问题、上下文和人类判断的回答三联体组成。这允许测量不同的评估框架与人类对忠诚度、答案相关性和上下文相关性的评估之间的紧密程度。本文比较了两个基线： GPTScore，它要求ChatGPT在0到10之间对三个质量维度进行评级，以及GPT排名，它不要求ChatGPT选择一个首选的答案/上下文，但在提示中包括了所考虑的质量指标的定义。在评估答案的相关性时，会使用一个特定的提示。总的来说，与两种基线相比，本文中提出的RAGAS框架更接近于人类的判断。

一些工作的主要贡献在于改进llm事实的方法，它们的评估部分也可能是信息和重要的。因此，论文选择在表6中列出评估部分，但不详细讨论它们的评估。

3.4评估特定领域的事实

在论文对专门的大型语言模型（llm）的检查中，论文已经确定了针对各种领域的大量数据集和基准测试。这些资源不仅是评估llm功能的关键工具，而且还促进了专门应用程序的进步。论文在表7中总结了它们。本小节与前两小节的区别在于其重点。本小节深入研究了针对特定领域的事实性评估，而第3.2节和第3.3节主要关注一般的事实性评估，只有部分内容专门用于评估特定领域内的事实性的数据集。

Xie等人基于他们收集到的金融指令调优数据集FIT，设计了一个名为FLARE的金融自然语言理解和预测评估基准。这个基准测试被用于评估他们的FinMA模型。从FIT中随机选择验证集，选择最佳模型检查点，并利用不同的测试集进行评估。与现有的FLUE基准相比，FLARE是一个更广泛的变体，因为它除了标准的NLP任务之外，它还封装了财务预测任务，如股票移动预测任务。FLARE数据集包括几个子任务，如情绪分析（FPB、FiQA-SA）、新闻标题分类（标题）、命名实体识别（NER）、问题回答（FinQA、ConvFinQA）和股票移动预测（BigData22、ACL18、CIKM18）。绩效是通过每个任务的各种指标来衡量的，如情绪分析的准确性和加权F1score，命名实体识别的实体级F1score，以及股票移动预测的准确性和马修斯相关系数。一些方法，包括他们自己的fit微调FinMA和其他LLMs（BlumbergGPT、GPT-4、ChatGPT、BLOOM、GPT-NeoX、OPT-66B、Vicuna-13B）都致力于它们的比较。BlumbergGPT的性能在various shot场景中进行评估，而其余结果报告zero-shot性能。一些基线依赖于人工评估，因为没有微调的基线不能生成指令定义的答案。相反，FinMA的结果是在zero-shot的基础上进行的，并且可以自动评估。为了能够直接比较FinMA和BlumbergGPT的性能，尽管前者没有发布他们的测试数据集，但论文构建了具有相同的数据分布的测试数据集。

Li等人提出了Ecom指示基准，该实验调查了他们的EcomGPT语言模型与BLOOM和BLOOMZ等基线模型相比的性能。这些基线模型的类别包括预训练的大型模型，其中只有解码器的架构，以及BLOOMZ和ChatGPT。Ecom指令的评估度量包括将所有任务转换为生成范式，并使用诸如ROUGE-L等文本生成评估度量。分类任务用精度、召回率和F1score进行评估。Ecom指示数据集，包括四个主要类别的12个任务，被分为训练和测试部分。EcomGPT对85,746个电子商务数据实例进行了训练。该模型的性能是基于其概括未见过的任务或数据集的能力来评估的，重点是跨语言和跨任务的范式设置。

Wang等人提出了一种名为CMB的本地化医学基准，即中文综合医学基准。CMB完全植根于中文本土的语言和文化框架。虽然传统中药是该评估的重要组成部分，但它并不能构成整个基准。两个著名的llm，如ChatGPT和GPT-4，以及本地化的中文llm，包括那些专门从事健康领域的llm，都使用CMB进行评估。然而，基准并不是作为一个排行榜竞争而设计的，而是作为一个自我评估和理解该领域模型进展的工具。CMB体现了一个全面、多层次的中文医学基准，包括数十万个多项选择题和复杂的病例咨询问题。这种广泛的查询涵盖了所有的临床医学专业和各种专业水平，寻求全面评估一个模型的医学知识和临床咨询能力。

Li等介绍了huatuo-26M数据集，这是迄今为止最大的中医问答（QA）数据集，包括超过2600万对高质量的医疗QA。它涵盖了广泛的主题，如疾病、症状、治疗和药物信息。对于任何希望改善医疗领域人工智能应用的人来说，聊天机器人和智能诊断系统是一个宝贵的资源。Huatuo-26M的数据集从各种来源进行收集和整合，包括在线医疗百科全书、在线医疗知识库和在线医疗咨询记录。数据集中的每个QA对都包含一个问题描述和一个来自医生或专家的相应答案。虽然Huatuo-26M数据集的很大一部分是由在线医疗咨询记录组成的，但这些记录的文本格式数据无法公开，原因不明。该数据集有望用于医学领域的多种类型的研究和人工智能应用。这些应用领域扩展到自然语言处理任务，如开发QA系统、文本分类、情绪分析和机器学习模型训练任务，如疾病预测和个性化治疗建议。因此，该数据集有利于开发医疗领域开发人工智能应用，从智能诊断系统到医疗咨询聊天机器人。

Jin等人使用与NCBI资源相关的9个任务来评估所提出的GeneGPT模型。所使用的数据集是基因图灵基准测试，它包含12个任务，每个任务有50个问答对。任务分为四个模块：命名法（基因别名、基因名称转换）、基因组定位（基因SNP关联、基因定位、SNP定位）、功能分析（基因疾病关联、蛋白质编码基因）、序列比对（DNA到人类基因组、DNA到多个物种）。论文评估了GeneGPT的两个设置：一个使用所有提示组件的完整设置，以及一个仅使用两个组件的精简设置。将GeneGPT的性能与各种基线进行了比较，包括基于通用域GPT的llm，如GPT-2、GPT-3和ChatGPT。此外，还评估了gpt-2大小的生物医学领域特异性llm，如BioGPT和BioMedLM。新的Bing是一个检索增强的LLM，也进行了评估。比较方法的结果评估是基于原始基准中报告的结果，并进行人工评估。然而，对所提出的GeneGPT方法的评估是通过自动评估来确定的。

LegalBench是法律推理的法律领域引入的基准。它由162个任务组成，涵盖六种法律推理类型，并通过一个跨学科的过程和法律专业人员的重大贡献，进行协作构建。设计的任务旨在展示实际的法律推理能力或衡量律师感兴趣的推理技能。为了促进与法律中LLM相关的不同领域之间的讨论，法律委员会任务与描述法律推理的流行法律框架对应的法律框架，从而在律师和LLM开发人员之间创建一种共享的语言。本文不仅描述了LegalBench，而且还对20种不同的开源和商业llm进行了评估，并强调了LegalBench可以提供的研究机会的类型。

LawBench是一个评估框架，专门用于评估llm在法律任务方面的能力。法律领域的具体背景和高风险性质使明确掌握法学律师事务所的法律知识及其执行法律任务的能力至关重要。LawBench深入研究了llm的三种认知评估：记忆关键的法律细节、理解法律文本、以及应用法律知识来解决复杂的法律问题。共完成了20个不同的任务，主要包括单标签分类、多标签分类、回归、提取和生成。在整个评估过程中，51个LLm在LawBench下进行了广泛的测试，编制了一系列语言模型，包括20个多语言llm、22个面向中文的llm和9个特定法律的llm。结果表明，GPT-4在法律领域排名领先LLM，明显超过竞争对手。尽管当llm在对特定法律文本进行微调时，有了明显的改进，但该研究承认，在实现法律任务的高度可靠的llm方面还有很长的路要走。

Bi等人设计OceanBench来评估llm在海洋学任务中的能力。OceanBench总共包括15种与海洋相关的任务，如问答和描述任务。OceanBench中的样本是从种子数据集自动生成的，并经过了专家的人工验证。