大型语言模型评估调查

原文链接：A Survey on Evaluation of Large Language Models | ACM Transactions on Intelligent Systems and Technology

本文从三个关键维度：评价什么、在哪里评价和如何评价，对这些 LLMs 评价方法进行了全面回顾。

首先，我们从评价任务的角度进行了概述，包括一般自然语言处理任务、推理、医学应用、伦理学、教育、自然科学和社会科学、代理应用以及其他领域。
其次，我们通过深入研究评估方法和基准来回答 "在哪里"和 "如何做"的问题，这些方法和基准是评估 LLM 性能的重要组成部分。
然后，我们总结了 LLM 在不同任务中的成功和失败案例。
最后，我们阐明了 LLMs 评估未来面临的几项挑战。我们的目标是为 LLMs 评估领域的研究人员提供宝贵的见解，从而帮助开发更完善的 LLMs。

我们的核心观点是对 LLMs 的评估应成为一门重要学科，以更好地帮助 LLMs 的发展。我们一直在维护相关的开源材料，网址是： GitHub - MLGroupJLU/LLM-eval-survey: The official GitHub page for the survey paper "A Survey on Evaluation of Large Language Models".

1. INTRODUCTION

理解智能的本质以及确定机器是否体现了智能，是科学家们面临的一个迫切问题。人们普遍认为，真正的智能具备推理能力，使我们能够检验假设，并为未来的可能情况做好准备[92]。人工智能（AI）研究人员尤其关注机器智能的发展，而不是生物智能的发展[136]。适当的测量有助于理解智力。例如，对人类个体一般智力的测量通常围绕 IQ 进行测试[12]。

在人工智能领域，图灵测试[193]是一项广受认可的测试，它通过辨别反应是源于人类还是机器来评估智能。研究人员普遍认为，成功通过图灵测试的计算机可以被认为是智能的。因此，从更广阔的视角来看，人工智能的编年史可以被描述为智能模型和算法的创建与评估时间表。每出现一种新的人工智能模型或算法，研究人员都会通过使用特定的、具有挑战性的任务进行评估，仔细研究其在现实世界场景中的能力。例如，20 世纪 50 年代被誉为人工通用智能（AGI）方法的感知器算法[49]，后来因无法解决 XOR 问题而被揭露其不足之处。随后，支持向量机（SVM）[28] 和深度学习[104] 的兴起和应用标志着人工智能领域的进步和挫折。从之前的尝试中得出的一个重要启示是，人工智能评估至关重要，它是识别当前系统局限性和设计更强大模型的重要工具。

最近，大型语言模型（LLMs）在学术和工业领域都引起了极大的兴趣[11, 219, 255]。正如现有工作[15]所证明的那样，LLMs 的卓越性能让人们相信它们可以成为这个时代的 AGI。LLMs 具备解决各种任务的能力，这与之前局限于解决特定任务的模型形成了鲜明对比。由于 LLMs 在处理一般自然语言任务和特定领域任务等不同应用方面表现出色，越来越多的人开始使用 LLMs 来满足学生或病人等对信息的重要需求。

评估对 LLMs 的成功至关重要，原因有以下几点。首先，评估 LLM 有助于我们更好地了解 LLM 的优缺点。例如，PromptBench [262] 基准表明，当前的 LLM 对对抗性提示很敏感，因此，要想获得更好的性能，就必须对提示进行精心设计。其次，更好的评估可以为人类与 LLMs 的交互提供更好的指导，从而为未来的交互设计和实施提供灵感。第三，LLMs 的广泛适用性强调了确保其安全性和可靠性的极端重要性，尤其是在安全敏感领域，例如金融机构和医疗机构。最后，随着 LLM 的规模越来越大，具备更多新兴能力，现有的评估协议可能不足以评估其能力和潜在风险。因此，我们希望通过回顾当前的评估协议，提高社区对 LLMs 评估重要性的认识，最重要的是，为设计新的 LLMs 评估协议的未来研究提供启示。

随着 ChatGPT [145] 和 GPT-4 [146]的问世，许多研究工作都旨在从不同方面评估 ChatGPT 和其他 LLM（图 2），包括 natural language tasks, reasoning, robustness, trustworthiness, medical applications, and ethical considerations 等一系列因素。尽管做出了这些努力，但目前仍缺乏一个全面的概述来捕捉整个评估范围。此外，LLM 的不断发展也为评估带来了新的方面，从而对现有的评估协议提出了挑战，并加强了对全面、多方面评估技术的需求。虽然 Bubeck 等人[15]现有的研究声称 GPT-4 可被视为 AGI 的火花，但也有人对这一说法提出质疑，因为其评估方法具有人为设计的性质。

本文是对大型语言模型评估的首次全面调查。如图 1 所示。

我们从三个方面探讨了现有工作：1) 评估什么；2) 在哪里评估；3) 如何评估。具体来说，"评估什么 "概括了现有的 LLM 评估任务，"在哪里评估 "涉及选择合适的数据集和基准进行评估，而 "如何评估 "则涉及对任务和数据集的评估过程。这三个方面是 LLM 评估不可或缺的部分。随后，我们将讨论 LLMs 评估领域未来可能面临的挑战。

本文的贡献如下：

(1) 我们从 "评价什么"、"在哪里评价 "和 "如何评价 "三个方面对 LLMs 的评估进行了全面概述。我们的分类具有普遍性，涵盖了 LLMs 评估的整个生命周期。

(2）关于 "评价什么"，我们总结了各个领域的现有任务，并就 LLMs 的成功和失败案例得出了深刻的结论（第 6 节），为今后的研究提供了经验。

(3) 关于 "在哪里评估"，我们总结了评估指标、数据集和基准，对当前的 LLMs 评估有了深刻的了解。在如何评价方面，我们探讨了当前的协议，并总结了新颖的评价方法。

(4) 我们进一步讨论了 LLMs 评估的未来挑战。我们将 LLMs 评估的相关资料开源并维护在 GitHub - MLGroupJLU/LLM-eval-survey: The official GitHub page for the survey paper "A Survey on Evaluation of Large Language Models". 网站上，以培养一个合作社区，从而更好地进行评估。

本文的结构如下。第 2 节，我们介绍了 LLM 和人工智能模型评估的基本信息。然后，第 3 节从 "评估什么 "的角度回顾了现有工作。之后，第 4 节是 "在哪里评估 "部分，总结了现有的数据集和基准。第 5 节讨论如何进行评估。第 6 节总结了本文的主要发现。第 7 节讨论了未来的重大挑战，第 8 节是本文的结尾。

2. BACKGROUND

2.1. Large Language Models

语言模型（LM）[36, 51, 96] 是一种能够理解和生成人类语言的计算模型。语言模型具有转换能力，可预测词序列的可能性或根据给定输入生成新文本。N-gram 模型[13]是最常见的 LM 类型，它根据前面的上下文来估计单词的可能性。然而，LM 也面临着一些挑战，如罕见词或未见词问题、过拟合问题以及难以捕捉复杂语言现象的问题。研究人员正在不断改进 LM 架构和训练方法，以应对这些挑战。

大型语言模型（LLMs）[19, 91, 255]是一种先进的语言模型，具有庞大的参数规模和卓越的学习能力。许多 LLM（如 GPT-3 [43]、InstructGPT [149] 和 GPT-4 [146]）背后的核心模块是 Transformer [197] 中的自我注意模块。自注意力模块是语言建模任务的基本构件。Transformers 能够高效处理序列数据，实现并行化，并捕捉文本中的长距离依赖关系，从而在 NLP 领域掀起了一场革命。LLM 的一个主要特点是上下文学习 [14]，即根据给定的上下文或提示来训练模型生成文本。这使得 LLMs 能够生成更加连贯和与上下文相关的回复，从而使其适用于交互式和对话式应用。从人类反馈中强化学习（RLHF）[25, 266] 是 LLMs 的另一个重要方面。这项技术包括利用人类生成的回复作为奖励对模型进行微调，使模型能够从错误中吸取教训，并随着时间的推移不断改进其性能。

在自回归语言模型（如 GPT-3 和 PaLM [24]）中，给定上下文序列 X 时，LM 任务的目的是预测下一个标记 y。模型的训练方法是最大化给定标记序列在上下文条件下的概率，即 P(y|X ) = P(y|x1, x2,...,xt-1) ，其中 x1, x2,...,xt-1 是上下文序列中的标记，t 是当前位置。利用链式规则，条件概率可以分解为每个位置的概率乘积：

其中 T 为序列长度。这样，该模型就能以自回归的方式预测每个位置上的每个标记，从而生成一个完整的文本序列。

与 LLMs 交互的一种常见方法是提示工程（prompt engineering）[26, 221, 261]，即用户设计并提供特定的提示文本，引导 LLMs 生成所需的回复或完成特定任务。这种方法在现有的评估工作中被广泛采用。人们还可以参与问答互动[83]，即向模型提出问题并得到答案，或者参与对话互动，与 LLM 进行自然语言对话。总之，LLM 凭借其 Transformer 架构、上下文学习和 RLHF 能力，已经彻底改变了 NLP，并在各种应用中大有可为。表 1 简单比较了传统 ML、深度学习和 LLM。

2.2. AI Model Evaluation

人工智能模型评估是评估模型性能的重要步骤。目前有一些标准的模型评估方案，包括 k-fold cross-validation、holdout validation、leave one out cross-validation (LOOCV)、bootstrap 和 reduced set [8，95]。例如，K-fold cross-validation 将数据集分为 k 部分，其中一部分作为测试集，其余部分作为训练集，这样可以减少训练数据的损失，获得相对更准确的模型性能评价[48]；Holdout validation 将数据集分为训练集和测试集，计算量较小，但可能存在较大偏差；LOOCV 是一种独特的 k 倍交叉验证方法，只用一个数据点作为测试集[222]；Reduced set 用一个数据集训练模型，用剩余数据进行测试，计算简单，但适用性有限。应根据具体问题和数据特征选择合适的评价方法，以获得更可靠的性能指标。

图 3 展示了人工智能模型（包括 LLM）的评估过程。由于深度学习模型需要大量的训练，某些评估协议可能无法对其进行评估。因此，长期以来，在静态验证集上进行评估一直是深度学习模型的标准选择。例如，计算机视觉模型利用 ImageNet [33] 和 MS COCO [120] 等静态测试集进行评估。LLM 也使用 GLUE [200] 或 SuperGLUE [199] 作为常用测试集。

随着 LLM 的流行，可解释性却越来越差，现有的评估协议可能不足以全面评估 LLM 的真正能力。我们将在第 5 节介绍最近对 LLM 的评估。

3. WHAT TO EVALUATE

我们应该评估 LLMs 在哪些任务中的表现？在本节中，我们将现有任务分为以下几类：自然语言处理、鲁棒性、伦理、偏见和可信度、社会科学、自然科学和工程学、医学应用、agent 应用以及其他应用。

3.1. 自然语言处理任务

开发语言模型，特别是大型语言模型的最初目的是提高自然语言处理任务的性能，包括理解和生成两个方面。因此，大多数评估研究都主要集中在自然语言任务上。表 2 总结了现有研究的评估方面，我们将在下文中重点介绍其结论。

3.1.1. 自然语言理解（NLU）

自然语言理解是一个范围广泛的任务，其目的是更好地理解输入序列。我们从几个方面总结了最近在 LLM 评估方面所做的努力。

情感分析（Sentiment analysis）是一项分析和解释文本以确定情感倾向的任务。它通常是一个二元（正面和负面）或三元（正面、中性和负面）分类问题。评估情感分析任务是一个流行的方向。Liang 等人[114]和 Zeng 等人[242]的研究表明，该任务的模型性能通常很高。ChatGPT 的情感分析预测性能优于传统的情感分析方法 [129]，并接近 GPT-3.5 [159]。在细粒度情感和情绪原因分析中，ChatGPT 也表现出了卓越的性能 [218]。在低资源学习环境中，LLM 与小语言模型相比具有显著优势 [249]，但 ChatGPT 理解低资源语言的能力有限 [6]。总之，LLM 在情感分析任务中的表现值得称赞。未来的工作重点应放在提高 LLMs 理解低资源语言情感的能力上。

文本分类（Text classification）和情感分析是相关领域；文本分类不仅关注情感，还包括对所有文本和任务的处理。Liang 等人[114]的研究表明，GLM-130B 是表现最好的模型，在杂项文本分类中的总体准确率为 85.8%。Yang和Menczer[232]发现，ChatGPT可以为各种新闻媒体提供可信度评级，而且这些评级与人类专家的评级有适度的相关性。此外，ChatGPT 在二元分类情况下达到了可接受的准确度（AUC=0.89）。Peña 等人[154]讨论了公共事务文档的主题分类问题，并表明使用 LLM backbone 与 SVM 分类器相结合是在公共事务领域执行多标签主题分类任务的有效策略，准确率超过 85%。总体而言，LLM 在文本分类方面表现出色，甚至可以处理非常规问题环境中的文本分类任务。

自然语言推理（NLI）是判断给定的 "假设 "是否符合 "前提 "的逻辑。Qin 等人[159]的研究表明，ChatGPT 在自然语言推理任务方面的表现优于 GPT-3.5。他们还发现，ChatGPT 在处理事实输入方面表现出色，这可能要归功于它的 RLHF 训练过程偏重于人的反馈。然而，Lee 等人[105] 观察到 LLM 在 NLI 范围内表现不佳，而且在表示人类分歧方面进一步失败，这表明 LLM 在这一领域仍有很大的改进空间。

语义理解（Semantic understanding）是指对语言及其相关概念的意义或理解。它涉及对单词、短语、句子以及它们之间关系的解释和理解。语义处理超越了表层，侧重于对潜在含义和意图的理解。Tao 等人[184]全面评估了 LLMs 的事件语义处理能力，包括对事件语义的理解、推理和预测。结果表明，LLMs 拥有对单个事件的理解能力，但他们感知事件间语义相似性的能力受到限制。在推理任务中，LLMs 在因果关系和意向关系方面表现出了强大的推理能力，但是在理解有意义的短语和无意义的短语是出现了问题，并始终将高度无意义的短语归类为有意义的短语。GPT-4 的性能有了明显改善，但仍明显低于人类。总之，LLM 在语义理解任务中的表现不佳。今后，我们可以从这方面入手，着力提高其在这一应用中的性能。

社会知识理解（social knowledge understanding）方面，Choietal.[23] 评估了模型在学习和识别社会知识概念方面的表现，结果表明，尽管 BERT 等有监督模型的参数数量要少得多，但与使用 GPT [162]、GPT-J-6B [202] 等最先进 LLM 的 zero-shot 模型相比，经过微调的有监督模型的性能要好得多。这说明监督模型的性能明显优于 zero-shot 模型，表明在这种特定情况下，参数的增加并不一定能保证更高水平的社会知识。

3.1.2. 推理能力

推理任务给智能人工智能模型带来了巨大挑战。为了有效地完成推理任务，模型不仅需要理解所提供的信息，还需要在没有明确回答的情况下利用推理和推断来推导出答案。表 2 显示，人们对评估 LLM 的推理能力越来越感兴趣，越来越多的文章专注于这方面的探索就是证明。目前，对推理任务的评估可大致分为数学推理、常识推理、逻辑推理和特定领域推理。

ChatGPT 在大多数任务中的算术推理能力都优于 GPT-3.5 [159]。然而，它在数学推理方面的能力仍有待提高[6, 45, 263]。在符号推理任务中，ChatGPT 的表现大多不如 GPT-3.5，这可能是因为 ChatGPT 容易出现不确定的回答，导致表现不佳[6]。Wu等人[226]通过LLMs在反事实条件任务变体上的不良表现，说明目前的LLMs在抽象推理能力上存在一定的局限性。在抽象推理方面，Gendron 等人[56] 发现现有 LLM 的能力非常有限。在逻辑推理方面，Liu 等人[124]的研究表明，ChatGPT 和 GPT-4 在大多数基准测试中都优于传统的微调方法，证明了它们在逻辑推理方面的优势。然而，这两个模型在处理新数据和分布外数据时都面临挑战。ChatGPT 的表现不如其他 LLM，包括 GPT-3.5 和 BARD [159, 228]。这是因为 ChatGPT 是专门为聊天而设计的，因此在保持合理性方面做得非常出色。FLAN-T5、LLaMA、GPT-3.5 和 PaLM 在一般演绎推理任务中表现出色 [170]。GPT-3.5 在保持归纳推理的方向性方面表现不佳[228]。对于多步推理，Fu 等人[47]的研究表明，PaLM 和 Claude2 是仅有的两个性能相近的模型族（但仍比 GPT 模型族差）。此外，LLaMA-65B 是迄今为止最稳健的开源 LLM，其性能与 code-davinci-002 非常接近。一些论文单独评估了 ChatGPT 在某些推理任务中的表现：ChatGPT 在常识推理任务上的表现一般较差，但在非文本语义推理上的表现相对较好[6]。同时，ChatGPT 也缺乏空间推理能力，但在时间推理方面表现较好。最后，虽然 ChatGPT 在因果推理和类比推理上的表现尚可，但在多跳推理能力上却表现不佳，这与其他 LLM 在复杂推理上的弱点类似[148]。在专业领域推理任务中，zero-shot InstructGPT 和 Codex 能够胜任复杂的医学推理任务，但仍需进一步改进[117]。在语言洞察问题方面，Orrù等人[147]证明了ChatGPT在解决语言洞察问题方面的潜力，因为ChatGPT的表现与人类参与者相当。值得注意的是，上述大多数结论都是针对特定数据集得出的。相比之下，更复杂的任务已成为评估 LLM 能力的主流基准。

这些任务包括数学推理 [225, 236, 243] 和结构化数据推理 [86, 151]。总体而言，LLM 在推理方面展现出巨大潜力，并呈现出不断改进的趋势，但仍面临诸多挑战和限制，需要更深入的研究和优化。

3.1.3. 自然语言生成（NLG）

NLG 评估的是 LLM 生成特定文本的能力，其中包含多项任务，例如摘要、对话生成、机器翻译、问题解答和其他开放式生成任务。

摘要总结（Summarization）是一项生成任务，目的是为给定句子学习一个简洁的摘要。在这项评估中，Liang 等人[114]发现 TNLG v2 (530B) [179] 在两种情况下都获得了最高分，OPT (175B) [245] 紧随其后，排名第二。微调后的 Bart [106]仍然优于 zero-shot ChatGPT。具体来说，ChatGPT 与文本-davinci-002 [6]的 zero-shot 性能相当，但不如 GPT-3.5。这些发现表明，LLM，尤其是 ChatGPT，在摘要任务中表现一般。

评估 LLM 在对话任务中的表现对于开发对话系统和改善人机交互至关重要。通过评估，可以提高模型的自然语言处理能力、语境理解能力和生成能力，从而实现更智能、更自然的对话系统。与 GPT-3.5 相比，Claude 和 ChatGPT 在所有维度上都取得了更好的性能[121, 159]。在比较 Claude 和 ChatGPT 模型时，这两个模型在不同的评估维度上都表现出了有竞争力的性能，其中 Claude 在特定配置下的性能略优于 ChatGPT。Bang 等人的研究[6]强调，在面向任务和基于知识的对话语境中，为特定任务定制的全参数微调模型超过了 ChatGPT。此外，Zheng 等人[257] 整理了一个全面的 LLMs 对话数据集 LMSYS-Chat-1M，包含多达一百万个样本。该数据集是评估和改进对话系统的宝贵资源。

虽然 LLMs 并未明确针对翻译任务进行训练，但它们仍能表现出强大的性能。Wang 等人[208]的研究表明，与商业机器翻译（MT）系统相比，ChatGPT 和 GPT-4 在人类评估中表现出更优越的性能。此外，它们在 sacreBLEU 分数方面也优于大多数文档级 NMT 方法。在对比测试中，与传统翻译模型相比，ChatGPT 的准确率较低。不过，GPT-4 在解释话语知识方面表现出了强大的能力，尽管它偶尔会选择不正确的候选翻译。Bang 等人[6]的研究结果表明，ChatGPT 能很好地完成 X → Eng 翻译，但仍缺乏完成 Eng → X 翻译的能力。Lyu 等人[130] 研究了利用 LLMs 进行 MT 的几个研究方向。这项研究极大地促进了 MT 研究的发展，并凸显了 LLMs 在提高翻译能力方面的潜力。总之，虽然 LLM 在多项翻译任务中的表现令人满意，但仍有改进的余地，例如增强从英语到非英语语言的翻译能力。

问题解答（Question answering）是人机交互领域的一项重要技术，在搜索引擎、智能客户服务和质量保证系统等场景中得到了广泛应用。如何衡量 QA 模型的准确性和效率将对这些应用产生重大影响。根据 Liang 等人的研究[114]，在所有被评估的模型中，InstructGPT davinci v2 (175B) 在 9 个质量保证场景中表现出最高的准确性、鲁棒性和公平性。与 GPT-3 相比，GPT-3.5 和 ChatGPT 在回答常识问题的能力上都有显著进步。在大多数领域，ChatGPT 的性能比 GPT-3.5 高出 2% 以上[9, 159]。不过，ChatGPT 在 CommonsenseQA 和 Social IQA 基准上的表现略逊于 GPT-3.5。这可以归因于 ChatGPT 的谨慎性，因为当可用信息不足时，它往往会拒绝提供答案。

微调模型，如 Vícuna 和 ChatGPT 以接近满分的成绩展示了卓越的性能，大大超过了缺乏监督微调的模型 [5，6]。Laskar 等人[102]评估了 ChatGPT 在一系列学术数据集上的有效性，包括回答问题、总结文本、生成代码、常识推理、解决数学问题、翻译语言、检测偏见和解决道德问题等各种任务。总之，LLM 在 QA 任务中的表现完美无瑕，并有望在未来进一步提高他们在社会、事件和时间常识方面的能力。

我们还可以探索其他生成任务。在句子风格转换领域，Pu 和 Demberg[158]通过在同一子集上进行 few-shot 学习训练，证明 ChatGPT 超越了之前的 SOTA 有监督模型，这一点可以从较高的 BLEU 分数中看出。然而，在控制句子风格的形式方面，ChatGPT 的表现与人类行为仍有很大差异。在写作任务中，Chiaetal.[22]发现 LLM 在信息、专业、论证和创意写作等不同类别中表现出一致的性能。这一发现意味着 LLMs 具有熟练的写作能力。在文本生成质量方面，Chen 等人[20]的研究发现，即使在没有参考文本的情况下，ChatGPT 也能从多个角度评估文本质量，其表现超过了大多数现有的自动评测指标。在所研究的各种测试方法中，使用 ChatGPT 为文本质量生成数字分数是最可靠、最有效的方法。

3.1.4. 多语言任务

虽然英语是主要语言，但许多 LLM 都是在混合语言训练数据的基础上进行训练的。多语言数据的结合确实有助于 LLMs 获得处理输入和生成不同语言响应的能力，使其在全球范围内被广泛采用和接受。然而，由于这项技术的出现相对较晚，LLMs 主要是在英语数据上进行评估，这就导致了对其多语言性能评估的潜在疏忽。为了解决这个问题，一些文章对 LLM 在不同非英语语言的各种 NLP 任务中的表现进行了全面、公开和独立的评估。这些评估为未来的研究和应用提供了宝贵的见解。

Abdelali 等人[1]评估了 ChatGPT 在标准阿拉伯语 NLP 任务中的表现，发现在大多数任务中，ChatGPT 在 zero-shot 设置下的表现低于 SOTA 模型。Ahuja 等人[2]、Bang 等人[6]、Lai 等人[100]、Zhang 等人[248]在多个数据集上使用了更多语言，涵盖了更广泛的任务，并对 LLM 进行了更全面的评估，包括 BLOOM、Vicuna、Claude、ChatGPT 和 GPT-4。结果表明，这些 LLM 在处理非拉丁语系语言和资源有限的语言时表现不佳。尽管将输入翻译成了英语并将其作为查询，但与 SOTA 模型相比，生成式 LLM 在不同任务和语言中的表现仍然不尽如人意[2]。此外，Bang 等人[6] 强调，ChatGPT 在翻译语言资源丰富的非拉丁字母语言所写的句子时仍然面临限制。上述情况表明，在多语言任务中，LLMs 面临着众多挑战和大量改进机会。未来的研究应优先考虑实现多语言平衡，解决非拉丁语系和低资源语言所面临的挑战，以便更好地支持全球用户。同时，应注意语言的公正性和中立性，以减少任何可能影响多语言应用的潜在偏见，包括英语偏见或其他偏见。

3.1.5. 事实性（Factuality）

LLM 中的事实性是指模型提供的信息或答案与现实世界的真理和可验证的事实相一致的程度。LLM 中的事实性会对各种任务和下游应用产生重大影响，例如质量保证系统、信息提取、文本摘要、对话系统和自动事实检查，在这些应用中，不正确或不一致的信息可能会导致严重的误解和曲解。为了信任并有效地使用这些模型，对事实真实性进行评估非常重要。这包括这些模型与已知事实保持一致、避免产生误导或虚假信息（即 "事实幻觉"）以及有效学习和回忆事实知识的能力。人们提出了一系列方法来衡量和改进 LLM 的事实性。

Wang 等人[204]通过检测几个大型模型（即 InstructGPT、ChatGPT-3.5、GPT-4 和 BingChat [137]）回答基于自然问题[98]和 TriviaQA [88]数据集的开放式问题的能力，评估了这些模型的内部知识能力。评估过程包括人工评估。研究结果表明，虽然 GPT-4 和 BingChat 能为 80% 以上的问题提供正确答案，但要达到完全准确仍有超过 15% 的差距。在 Honovich 等人的研究中[74]，他们对当前的事实一致性评价方法进行了回顾，并强调了缺乏统一的比较框架以及相关分数与二进制标签相比参考价值有限的问题。为了解决这个问题，他们将现有的事实一致性任务转化为二进制标签，特别是只考虑是否与输入文本存在事实冲突，而不考虑外部知识。研究发现，建立在自然语言推理和问题生成回答基础上的事实评估方法表现出更优越的性能，并且可以相互补充。Pezeshkpour [156] 基于信息论提出了一种新的度量方法，用于评估 LLM 中是否包含特定知识。该指标利用知识中的不确定性概念来衡量事实性，通过 LLMs 填写提示和检查答案的概率分布来计算。论文讨论了将知识注入 LLM 的两种方法：在提示中明确包含知识，以及利用知识相关数据对 LLM 进行隐式微调。研究表明，这种方法超越了传统的排名方法，准确率提高了 30% 以上。Gekhman 等人[55]改进了总结任务中事实一致性的评估方法。该研究提出了一种新方法，即使用多个模型生成的摘要训练学生 NLI 模型，并由 LLM 进行注释，以确保事实一致性。然后使用训练好的学生模型进行摘要事实一致性评估。Manakul 等人[133]就 LLM 如何生成事实或幻觉反应提出了两个假设。该研究提出使用三种公式（BERTScore [247]、MQAG [134] 和 n-gram）来评估事实一致性，并使用替代 LLMs 为黑盒语言模型收集标记概率。研究发现，只需计算句子似然或熵就能帮助验证回答的真实性。Min 等人[138] 将 LLM 生成的文本分解为单个 "原子 "事实，然后对其正确性进行评估。FActScore 用于通过计算 F1 分数来衡量估计器的性能。该论文测试了各种估计器，结果表明当前的估计器在有效处理任务方面仍有一段路要走。Lin 等人[119] 引入了 TruthfulQA 数据集，旨在让模型犯错。通过提供事实性答案对多种语言模型进行了测试。这些实验的结果表明，仅仅扩大模型的规模并不一定能提高模型的真实性，并对训练方法提出了建议。该数据集已被广泛用于评估 LLM 的真实性[89, 146, 192, 219]。

3.2. 鲁棒性、道德、偏差和可信度（Robustness, Ethics, Bias, and Trustworthiness）

评估包括稳健性、道德、偏差和可信度等重要方面。这些因素在全面评估 LLMs 的绩效方面越来越重要。表 3 显示了研究摘要。

3.2.1. 鲁棒性

鲁棒性研究的是系统在面对意外输入时的稳定性。具体来说，分布外（OOD）[207] 和对抗鲁棒性是鲁棒性的两个热门研究课题。Wang 等人[206]的早期研究利用 AdvGLUE [203]、ANLI [140] 和 DDXPlus [41] 数据集等现有基准，从对抗和 OOD 两个角度评估了 ChatGPT 和其他 LLM。Zhuo 等人[265] 评估了语义解析的鲁棒性。Yang等人[233]通过扩展GLUE[200]数据集评估了OOD的鲁棒性。这项研究的结果强调了在处理视觉输入时对整个系统安全的潜在风险。对于视觉语言模型，Zhao 等人[256] 评估了视觉输入的 LLM，并将其转移到其他视觉语言模型，揭示了视觉输入的脆弱性。Li 等人[111]概述了语言模型的 OOD 评估：对抗鲁棒性、领域泛化和数据集偏差。在这些研究方向之间，作者进行了比较分析，将三种方法统一起来。他们简明扼要地概述了每个研究方向的数据生成过程和评估协议，同时强调了当前的挑战和未来的研究前景。此外，Liu 等人[123] 引入了大规模鲁棒视觉指令数据集，以提高大规模多模态模型处理相关图像和人类指令的性能。

在对抗鲁棒性方面，Zhu 等人[262] 通过提出一个名为 PromptBench 的统一基准，评估了 LLM 对提示的鲁棒性。他们从多个层面（字符、单词、句子和语义）全面评估了对抗性文本攻击。结果表明，当代的 LLM 很容易受到对抗性提示的攻击，这突出了模型在面对对抗性输入时的鲁棒性。至于新的对抗数据集，Wang 等人[201]引入了 AdvGLUE++ 基准数据来评估对抗鲁棒性，并实施了新的评估协议，通过越狱系统提示来审查机器道德。

3.2.2. 道德与偏见

研究发现，LLMs 会内化、传播并可能放大抓取的训练语料中存在的有害信息，通常是有毒语言，如冒犯、仇恨言论和侮辱[53]，以及社会偏见，如对具有特定人口特征（如性别、种族、宗教、职业和意识形态）的人的刻板印象[175]。最近，Zhuo 等人[264]使用传统测试集和指标[37, 53, 153]对 ChatGPT 的毒性和社会偏见进行了系统评估，发现它在一定程度上仍表现出有害内容。Deshpande 等人[35]又进一步将角色扮演引入模型，并观察到生成的毒性增加了 6 倍。此外，这种角色扮演还造成了对特定实体的偏见性毒性。与简单测量社会偏见不同，Ferrara[42]研究了 ChatGPT 可能产生的这些偏见的来源、潜在机制和相应的伦理后果。除了社会偏见，还有人通过政治罗盘测试和 MBTI 测试等基于问卷的政治倾向和人格特质 [65, 167]，对 LLMs 进行了评估，结果显示 LLMs 具有进步观点倾向和 ENFJ 人格类型。此外，从道德基础理论[58]来看，GPT-3 等 LLMs 存在道德偏差[176]；[69]的研究表明，现有 LMs 在道德判断方面具有潜力，但仍需改进。[254]提出了中文会话偏见评估数据集 CHBias，发现了预训练模型中的偏见风险，并探讨了去偏方法。此外，在评估 GPT-4 配对时，[209] 发现了系统性偏差。ChatGPT 也被观察到在文化价值观上表现出一定程度的偏差[16]。Wang 等人[201]还使用有针对性和无针对性的系统提示，纳入了一个专门用于衡量刻板印象偏差的评估数据集。所有这些伦理问题都可能引发严重的风险，阻碍 LLM 的部署，并对社会产生深远的负面影响。

3.2.3. 可信度

在 2023 年的研究《DecodingTrust》中，Wang 等人[201]对 GPT 模型，尤其是 GPT-3.5 和 GPT-4 中的可信度漏洞进行了多方面的探索。他们的评估超出了典型的可信度问题，包括八个关键方面：毒性、刻板偏见、对抗性和分布外鲁棒性、对抗性演示的鲁棒性、隐私、机器伦理和公平性。DecodingTrust 的调查采用了一系列新构建的场景、任务和指标。他们发现，虽然在标准评估中，GPT-4 的可信度通常比 GPT-3.5 有所提高，但它同时也更容易受到攻击。

在 Hagendorff 和 Fabi 的另一项研究中[62]，对认知能力增强的 LLM 进行了评估。他们发现，这些模型可以避免人类常见的直觉和认知错误，表现出超理性的性能。通过利用认知反思测试和语义错觉实验，研究人员深入了解了 LLM 的心理层面。这种方法为评估模型偏差和伦理问题提供了新的视角，而这些问题可能是以前没有发现的。此外，[227] 的一项研究引起了人们对一个重要问题的关注：当面临质疑、否定或误导性提示等干扰时，即使最初的判断是准确的，LLMs 判断的一致性也会明显降低。该研究深入探讨了旨在缓解这一问题的各种提示方法，并成功证明了这些方法的有效性。

LLM 能够生成连贯且看似符合事实的文本。然而，生成的信息可能包含与事实不符的内容或不符合实际情况的陈述，这种现象被称为幻觉[163, 251]。评估这些问题有助于改进 LLM 的训练方法，减少幻觉的出现。为了评估大规模视觉模型中的幻觉，Liu 等人[123]引入了一个全面而稳健的大规模视觉教学数据集：LRV-Instruction。通过 GAVIE 方法，他们对评估视觉指令进行了微调，实验结果表明 LRV-Instruction 能有效缓解 LLM 中的幻觉。此外，Li 等人[113] 对大规模视觉语言模型中的错觉进行了评估，通过实验发现视觉指令中物体的分布对 LVLM 中的物体错觉有显著影响。为了加强对 LVLM 中物体错觉的评估，他们引入了一种基于轮询的查询方法，即 POPE。这种方法改进了对 LVLM 中物体错觉的评估。

3.3. 社会科学

社会科学涉及对人类社会和个人行为的研究，包括经济学、社会学、政治学、法学和其他学科。评估 LLMs 在社会科学领域的表现对于学术研究、政策制定和社会问题解决都非常重要。这种评估有助于提高社会科学模型的适用性和质量，增加对人类社会的了解，促进社会进步。Wu 等人[223]评估了 LLMs 在解决社会科学中的比例和测量问题方面的潜在用途，发现 LLMs 可以生成有关政治意识形态的有意义的回应，并显著改善社会科学中的文本即数据方法。

在计算社会科学（CSS）任务中，Ziems 等人[267]对 LLMs 在多个 CSS 任务中的表现进行了全面评估。在分类任务中，LLMs 在事件论据提取、人物情节、隐性仇恨和移情分类方面的绝对性能最低，准确率低于 40%。这些任务要么涉及复杂的结构（事件论据），要么涉及主观的专家分类法，其语义与 LLM 预训练时学习到的语义不同。相反，LLM 在错误信息、立场和情感分类方面表现最佳。在生成任务方面，LLM 所生成的解释通常会超过人群工作者提供的黄金参考文献的质量。总之，虽然 LLMs 可以大大增强传统的 CSS 研究流水线，但它们不能完全取代传统的 CSS 研究流水线。

一些文章还就法律任务对 LLMs 进行了评估。在法律案件的判决摘要中，LLMs 的 zero-shot 表现平平。LLMs 存在一些问题，包括句子和单词不完整、无意义的句子合并，以及更严重的错误，如信息不一致和幻觉[34]。结果表明，要使 LLMs 在法律专家的案件判决摘要中发挥作用，还需要进一步改进。Nay 等人[139]指出，LLMs，尤其是与提示增强功能和正确的法律文本相结合时，可以发挥更好的作用，但尚未达到税务律师专家的水平。

最后，在心理学领域，Frank[44]采用了跨学科的方法，从发展心理学和比较心理学中汲取灵感，探索评估 LLM 能力的替代方法。通过整合不同视角，研究人员可以加深对认知本质的理解，有效利用大型语言模型等先进技术的潜力，同时降低潜在风险。

总之，在处理与社会科学有关的任务时，LLMs 的使用对个人大有裨益，从而提高了工作效率。LLMs 的产出是提高生产力的宝贵资源。不过，必须承认，现有的 LLMs 不能完全取代这一领域的专业人员。

3.4. 自然科学与工程

评估 LLM 在自然科学和工程学领域的表现有助于指导科学研究、技术开发和工程学研究的应用和发展。表 4 显示了自然科学和工程任务的摘要。

3.4.1. 数学

对于基本的数学问题，大多数大型语言模型（LLMs）都能熟练地进行加法和减法运算，并具有一定的乘法运算能力。然而，它们在处理除法、指数、三角函数和对数函数时面临挑战。另一方面，LLM 在处理十进制数、负数和无理数方面表现出了能力[240]。在性能方面，ChatGPT 和 GPT-4 明显优于其他模型，显示了它们在解决数学任务方面的优势[220]。这两个模型在处理大数（大于 1e12）和复杂冗长的数学查询时优势明显。GPT-4 的准确率比 ChatGPT 高出 10 个百分点，相对误差减少 50%，这得益于它出色的除法和三角计算能力、对无理数的正确理解以及对长表达式的连贯分步计算。

在面对复杂和具有挑战性的数学问题时，LLM 的性能不尽如人意。具体来说，GPT-3 的性能几乎是随机的，GPT-3.5 有所改进，而 GPT-4 的性能最好[3]。尽管新模型取得了进步，但值得注意的是，与专家相比，其峰值性能仍然相对较低，而且这些模型缺乏从事数学研究的能力[15]。代数操作和计算的具体任务仍然是 GPT 面临的挑战[15, 27]。GPT-4 在这些任务中表现不佳的主要原因是代数操作错误和难以检索相关领域的特定概念。Wu 等人[224]评估了 GPT-4 在高中竞赛难题中的使用情况，结果发现 GPT-4 在半数题目中的准确率达到了 60%。中级代数和微积分只能以 20% 左右的低准确率解决。ChatGPT 不擅长解答导数及应用、Oxyz 空间微积分和空间几何等题目[31]。Dao和Le[31]、Wei等人[220]的研究表明，随着任务难度的增加，ChatGPT的性能也会下降：在识别水平上，它能正确回答83%的问题；在理解水平上，它能正确回答62%的问题；在应用水平上，它能正确回答27%的问题。而在认知复杂度最高的层次上，只有 10%。鉴于较高知识水平的问题往往更为复杂，需要深入理解和解决问题的技能，这种结果是意料之中的。

这些结果表明，LLMs 的有效性在很大程度上受到它们所遇到问题的复杂性的影响。这一发现对于设计和开发能够成功处理这些挑战性任务的优化人工智能系统具有重要意义。

3.4.2. 通用科学

在化学领域应用 LLM 还需要进一步改进。Castro Nascimento 和 Pimentel[18]提出了五个来自不同化学子领域的简单任务，以评估 ChatGPT 对该学科的理解能力，准确率从 25% 到 100% 不等。Guo 等人[61]创建了一个包含八个实用化学任务的综合基准，旨在评估 LLM（包括 GPT-4、GPT-3.5 和 Davinci-003）在每个化学任务中的表现。根据实验结果，GPT-4 的性能优于其他两个模型。文献[3]显示，LLM 在物理问题上的表现比化学问题差，这可能是因为在这种情况下，化学问题的推理复杂度比物理问题低。在普通科学领域对 LLM 的评估研究还很有限，目前的研究结果表明，LLM 在这一领域的性能还需要进一步提高。

3.4.3. 工程学

在工程学中，任务可按难度由高到低的顺序排列，包括代码生成、软件工程和常识规划。

在代码生成任务中，为这些任务训练的小型 LLM 在性能上具有竞争力，CodeGen-16B [141] 在使用较大参数设置时与 ChatGPT 的性能相当，达到约 78% 的匹配 [125]。尽管在掌握和理解编程语言的某些基本概念方面面临挑战，但 ChatGPT 仍展示出了值得称赞的编码水平 [263]。具体来说，ChatGPT 在动态编程、贪婪算法和搜索方面掌握了高超的技能，超过了能力出众的大学生，但在数据结构、树和图论方面却举步维艰。GPT-4 展示了根据给定指令生成代码、理解现有代码、推理代码执行、模拟指令影响、用自然语言表达结果以及有效执行伪代码的高级能力[15]。

在软件工程任务中，ChatGPT 通常表现良好并能提供详细的回答，往往超过人类专家的输出和 SOTA 的输出。但是，对于某些任务，如代码漏洞检测和基于信息检索的测试优先级排序，当前版本的 ChatGPT 无法提供准确的答案，因此不适合这些特定任务 [181]。

在常识规划任务中，LLM 可能表现不佳，甚至在人类擅长的简单规划任务中也是如此 [194, 195]。Pallagani 等人[150]的研究表明，经过微调的 CodeT5 [214]在所有考虑的领域中表现最佳，推理时间最短。此外，该研究还探讨了 LLM 在计划泛化方面的能力，发现其泛化能力似乎有限。事实证明，LLM 可以处理简单的工程任务，但在复杂的工程任务上表现不佳。

3.5. 医疗应用

最近，LLM 在医学领域的应用受到了极大关注。因此，本节旨在对目前致力于在医疗应用中实施 LLM 的工作进行全面回顾。如表 5 所示，我们将这些应用分为三个方面：医疗问询、医疗检查和医疗助理。对这些类别的研究将加深我们对 LLMs 在医学领域的潜在影响和优势的理解。

3.5.1. 医疗问询

在医疗查询方面评估 LLM 的意义在于提供准确可靠的医疗答案，以满足医护人员和患者对高质量医疗信息的需求。如表 5 所示，医疗领域的大多数 LLM 评估都集中在医疗查询方面。ChatGPT 为遗传学[39]、肿瘤放射物理学[73]、生物医学[81]等多种医学查询生成了相对准确的信息，在一定程度上证明了其在医学查询领域的有效性。至于其局限性，Thirunavukarasu 等人[186]评估了 ChatGPT 在初级医疗中的表现，发现其在学生综合评估中的平均得分低于及格分，说明还有改进的空间。Chervenak 等人[21]强调，虽然 ChatGPT 可以生成与生育相关临床提示中现有来源类似的回答，但其在可靠引用来源方面的局限性和编造信息的可能性限制了其临床实用性。

3.5.2. 医疗检查

Gilson 等人[57]和 Kung 等人[97]的研究通过美国医学执照考试（USMLE）评估了 LLM 在医学考试评估中的表现。结果表明，ChatGPT 在不同的数据集上取得了不同的准确率。然而，在 NBME-Free-Step1 和 NBME-Free-Step2 数据集中，与正确答案相比，断章取义信息的出现率较低。Kung 等人[97]的研究表明，ChatGPT 在这些考试中达到或接近了及格线，而无需定制训练。该模型显示出高度的一致性和洞察力，表明其具有协助医学教育和临床决策的潜力。ChatGPT 可用作回答医学问题、提供解释和支持决策过程的工具。这为医科学生和临床医生的教育和临床实践提供了额外的资源和支持。Sharma 等人[173]发现，与谷歌搜索结果相比，ChatGPT 生成的答案更具上下文意识，演绎推理能力更强。

3.5.3. 医疗助手

在医疗助手领域，LLMs 展现了潜在的应用前景，包括胃肠道疾病识别研究 [99]、痴呆症诊断 [217]、加速 COVID-19 文献评估 [93]，以及其在医疗保健领域的整体潜力 [17]。然而，它也存在局限性和挑战，例如缺乏原创性、输入要求高、资源限制、答案的不确定性以及与误诊和患者隐私问题相关的潜在风险。

此外，一些研究还评估了 ChatGPT 在医学教育领域的性能和可行性。Oh 等人的研究[143]评估了 ChatGPT，特别是 GPT-3.5 和 GPT-4 模型对外科临床信息的理解及其对外科教育和培训的潜在影响。结果表明，GPT-3.5 的总体准确率为 46.8%，GPT-4 为 76.4%，这表明两个模型之间存在显著的性能差异。值得注意的是，GPT-4 在不同的亚专科中始终表现良好，这表明它有能力理解复杂的临床信息，并加强外科教育和培训。Lyu 等人的另一项研究[131]探讨了在临床教育中使用 ChatGPT 的可行性，尤其是将放射学报告翻译成通俗易懂的语言。研究结果表明，ChatGPT 能有效地将放射学报告翻译成通俗易懂的语言，并提供一般性建议。此外，与 GPT-4 相比，ChatGPT 的质量有所提高。这些研究结果表明，在临床教育中使用 LLMs 是可行的，尽管还需要进一步努力解决其局限性并充分释放其潜力。

3.6. Agent 应用

LLM 不应只专注于一般语言任务，它可以作为各种领域的强大工具加以利用。为 LLM 配备外部工具可以大大扩展模型的功能[160]。ToolLLM [161] 提供了一个综合框架，为开源大型语言模型配备了工具使用功能。Huang 等人[77]介绍了 KOSMOS-1，它能够理解一般模式、遵循指令并根据上下文进行学习。Karpas 等人[90] 对 MRKL 的研究强调了了解何时以及如何使用外部符号工具的重要性，因为这种知识取决于 LLM 的能力，尤其是当这些工具能够可靠地执行功能时。此外，还有两项研究，即 Toolformer [172] 和 TALM [152]，探讨了如何利用工具来增强语言模型。Toolformer 采用训练方法来确定特定 API 的最佳使用方法，并将获得的结果整合到随后的标记预测中。另一方面，TALM 将不可区分的工具与基于文本的方法相结合，以增强语言模型，并采用了一种称为 "自我游戏 "的迭代技术，以最少的工具演示为指导。此外，Shen 等人[174] 提出了 HuggingGPT 框架，该框架利用 LLM 连接机器学习社区内的各种人工智能模型（如 Hugging Face），旨在解决人工智能任务。

3.7. 其他应用

除上述领域外，还在教育、搜索和推荐、个性测试以及特定应用等其他领域进行了评估。表 6 汇总了这些应用。

3.7.1. 教育

LLMs 在教育领域的变革中大有可为。它们有可能在多个领域做出重大贡献，如帮助学生提高写作技巧、促进更好地理解复杂概念、加快信息传递，以及提供个性化反馈以提高学生的参与度。这些应用旨在创造更高效、更互动的学习体验，为学生提供更广泛的教育机会。然而，要充分发挥 LLM 在教育领域的潜力，还需要广泛的研究和不断的改进。

对 LLMs 教育助手的评估旨在调查和评估其对教育领域的潜在贡献。这种评估可以从不同的角度进行。根据 Dai 等人的研究[30]，ChatGPT 展示了生成详细、流畅、连贯的反馈的能力，超过了人类教师。它能准确评估学生的作业，并就任务完成情况提供反馈，从而帮助培养学生的技能。然而，ChatGPT 的回复可能缺乏新颖性或对教学改进的深刻见解[210]。此外，Hellas 等人的研究[67]表明，LLMs 可以成功识别学生代码中的至少一个实际问题，但也存在误判的情况。总之，尽管在熟练掌握输出格式化方面仍存在挑战，但使用 LLMs 在解决程序逻辑问题方面还是大有可为的。值得注意的是，虽然这些模型可以提供有价值的见解，但它们仍可能产生类似于学生所犯的错误。

在教育考试中，研究人员旨在评估 LLM 的应用效果，包括自动评分、问题生成和学习指导。de Winter [32]的研究表明，ChatGPT 平均正确率达到 71.8%，与所有参与学生的平均得分相当。随后，使用 GPT-4 进行了评估，结果为 8.33 分。此外，该评估还显示了通过 "温度"参数结合随机性的引导技术在诊断错误答案方面的有效性。Zhang 等人[246]声称，GPT-3.5 可以解决麻省理工学院的数学和电子工程科学考试，而 GPT-4 的性能更好。然而，事实证明这并不公平，因为他们不小心将正确答案包含在了提示中。

3.7.2. 搜索和推荐

在搜索和推荐中对 LLM 的评估可大致分为两个方面。首先，在信息检索领域，Sun 等人[183]研究了生成式排序算法（如 ChatGPT 和 GPT-4）在信息检索任务中的有效性。实验结果表明，引导式 ChatGPT 和 GPT-4 在流行的基准测试中表现出极具竞争力的性能，甚至超过了监督式方法。此外，将 ChatGPT 的排序功能提取到一个专门模型中，与在 BEIR 数据集中对 40 万个注释的 MS MARCO 数据进行训练相比，在对 10K ChatGPT 生成的数据进行训练时显示出更优越的性能[185]。此外，Xu 等人[231] 进行了一项随机在线实验，研究用户在使用搜索引擎和聊天机器人工具执行信息检索任务时的行为差异。参与者被分为两组：一组使用与 ChatGPT 类似的工具，另一组使用与谷歌搜索类似的工具。结果显示，ChatGPT 组在所有任务上花费的时间都较少，两组之间的差异并不显著。

其次，在推荐系统领域，LLM 已成为利用自然语言处理能力理解用户偏好、项目描述和上下文信息的重要组件[40]。通过将 LLM 纳入推荐管道，这些系统可以提供更准确、更个性化的推荐，从而改善用户体验和整体推荐质量。然而，解决与使用 LLMs 进行推荐相关的潜在风险也至关重要。Zhang 等人最近的研究[244]强调了由 ChatGPT 生成的不公平推荐问题。这强调了在推荐场景中使用 LLM 时评估公平性的重要性。Dai 等人[29]认为，ChatGPT 在推荐系统中表现出很强的性能。他们发现使用列表排序能在成本和性能之间取得最佳平衡。此外，ChatGPT 在解决冷启动问题和提供可解释的推荐方面显示出了前景。此外，Yuan 等人[239]和 Li 等人[110]的研究表明，基于模态的推荐模型（MoRec）和基于文本的协同过滤（TCF）在推荐系统中大有可为。

3.7.3. 性格测试

人格测试旨在测量个人的人格特质和行为倾向，而 LLM 作为强大的自然语言处理模型已被广泛应用于此类任务中。

Bodroza等人的研究[10]调查了将Davinci003作为聊天机器人的个性特征，发现尽管其表现出亲社会特征，但其回答的一致性存在差异。然而，聊天机器人的回答是由有意识的自我反思还是算法过程驱动的，这一点仍不确定。Song 等人[180]研究了语言模型中的个性表现，发现许多模型在自我评估测试中表现不可靠，并表现出固有的偏差。因此，有必要开发特定的机器人格测量工具，以提高可靠性。这些研究为更好地理解人格测试中的语言模型提供了重要启示。Safdari 等人[168]提出了一种综合方法，对 LLM 生成的文本中的人格特质进行有效的心理测试。为了评估 LLMs 的情商，Wang 等人[212]开发了一种新的心理测量评估方法。通过参考 500 多名成年人构建的框架，作者测试了各种主流 LLMs。结果表明，大多数 LLMs 的情商（EQ）高于平均水平，其中 GPT-4 得分为 117 分，超过了 89% 的人类参与者。然而，多变量模式分析表明，某些 LLMs 无需依赖与人类类似的机制就能达到人类水平。与人类相比，它们的表征模式在质量上存在明显差异，这一点显而易见。Liang等人[115]采用猜词游戏来评估低等语言能力者的语言和思维理论智能，这是一种更具参与性和互动性的评估方法。Jentzsch和Kersting[84]讨论了将幽默融入LLM，特别是ChatGPT的挑战。他们发现，虽然 ChatGPT 在 NLP 任务中表现出了令人印象深刻的能力，但在生成幽默回复方面却有所欠缺。这项研究强调了幽默在人类交流中的重要性，以及 LLM 在捕捉幽默的微妙之处和依赖语境的特性时所面临的困难。它讨论了当前方法的局限性，并强调了进一步研究能有效理解和生成幽默的更复杂模型的必要性。

3.7.4. 其他应用

此外，人们还开展了各种研究工作，探索 LLM 在游戏设计[101]、模型性能评估[216]和日志解析[103]等广泛任务中的应用和评估。总之，这些发现增强了我们对在不同任务中使用 LLMs 的实际意义的理解。它们揭示了这些模型的潜力和局限性，同时为提高性能提供了宝贵的见解。

4. WHERE TO EVALUATE: 数据集和 benchmark

LLMs 评估数据集用于测试和比较不同语言模型在各种任务中的性能，如第 3 节所述。这些数据集，如 GLUE [200] 和 SuperGLUE [199]，旨在模拟真实世界的语言处理场景，涵盖文本分类、机器翻译、阅读理解和对话生成等多种任务。本节将不讨论语言模型的任何单一数据集，而是讨论 LLM 的基准。为评估 LLM 的性能，已经出现了多种基准。在本研究中，我们选择了 46 个流行的基准，如表 7 所示。每个基准都关注不同的方面和评估标准，为各自的领域做出了宝贵的贡献。为了更好地总结，我们将这些基准分为三类：通用语言任务基准、特定下游任务基准和多模式任务基准。

4.1. Benchmarks for General Tasks

LLM 用于解决绝大多数任务。为此，现有基准往往会评估不同任务的性能。

Chatbot Arena [128] 和 MT-Bench [258] 是两个重要的基准，有助于在不同环境下评估和改进聊天机器人模型和 LLM。Chatbot Arena 提供了一个通过用户参与和投票来评估和比较各种聊天机器人模型的平台。用户可以参与匿名模型，并通过投票表达自己的偏好。该平台收集了大量投票，有助于评估模型在现实场景中的性能。Chatbot Arena 为了解聊天机器人模型的优势和局限提供了有价值的见解，从而促进了聊天机器人研究和进步。同时，MT-Bench 使用为处理对话量身定制的综合问题，对多轮对话中的 LLM 进行评估。它提供了一套全面的问题，专门用于评估模型处理多轮对话的能力。MT-Bench 有几个不同于传统评估方法的显著特点。特别是，它在模拟代表真实世界的对话场景方面表现出色，从而有助于对模型的实际性能进行更精确的评估。此外，MTBench 还有效克服了传统评估方法的局限性，尤其是在衡量模型处理复杂的多轮对话询问的能力方面。

HELM [114] 并不专注于特定任务和评估指标，而是对 LLM 进行全面评估。它从语言理解、生成、连贯性、上下文敏感性、常识推理和特定领域知识等多个方面对语言模型进行评估。HELM 旨在全面评估语言模型在不同任务和领域中的表现。在 LLMs Evaluator 方面，Zhang 等人[250] 提出了 LLMEval2，它包含了广泛的能力评估。此外，Xiezhi[59]提出了一套用于评估不同学科领域大规模语言模型知识水平的综合套件。通过 Xiezhi 进行的评估使研究人员能够理解这些模型固有的显著局限性，并有助于更深入地理解它们在不同领域的能力。为了评估语言模型现有能力之外的能力，BIG-bench [182] 引入了由来自 132 个机构的 450 位作者提供的 204 个具有挑战性的任务。这些任务涉及数学、儿童发展、语言学、生物学、常识推理、社会偏见、物理学、软件开发等多个领域。

最近的工作引导了评估语言模型知识和推理能力的基准的发展。以知识为导向的语言模型评估 KoLA [235] 主要评估语言模型的理解能力和利用语义知识进行推理的能力。因此，KoLA 是评估语言模型中语言理解和推理深度的重要基准，从而推动语言理解的进步。为了对语言任务进行众包评估，DynaBench [94] 支持动态基准测试。DynaBench 探索了新的研究方向，包括闭环整合的效果、分布转移特征、注释者的效率、专家注释者的影响以及模型在交互式环境中对抗性攻击的鲁棒性。此外，为了评估语言模型学习和应用跨学科知识的能力，最近推出了多学科知识评估 M3KE [122]。M3KE 评估知识在中国教育系统中的应用。

开发用于评估不同任务中 LLM 的标准化基准一直是研究的重点。MMLU [70] 为评估多任务背景下的文本模型提供了一套全面的测试。AlpacaEval [112] 是一种自动评估基准，其重点是评估 LLM 在各种自然语言处理任务中的性能。它提供了一系列指标、稳健性测量和多样性评估，以衡量 LLM 的能力。AlpacaEval 极大地推动了 LLM 在不同领域的发展，并促进了对其性能的深入了解。此外，AGIEval [260] 是一个专门的评估框架，用于评估基础模型在以人为中心的标准化考试领域中的性能。此外，OpenLLM [80] 提供了一个公共竞赛平台，用于比较和评估不同 LLM 模型在各种任务中的性能，从而起到了评估基准的作用。它鼓励研究人员提交自己的模型，并就不同任务展开竞争，从而推动 LLM 研究的进步和竞争。

至于标准性能之外的任务，则有针对 OOD、对抗鲁棒性和微调设计的基准。GLUE-X [233]是一种新颖的尝试，旨在创建一个统一的基准，以评估 OOD 场景中 NLP 模型的鲁棒性。该基准强调了鲁棒性在 NLP 中的重要性，并为测量和增强模型的鲁棒性提供了见解。此外，Yuan 等人[238] 提出了 BOSS，这是一个用于评估自然语言处理任务中分布外鲁棒性的基准集合。PromptBench [262]侧重于提示工程在微调 LLM 中的重要性。它提供了一个标准化的评估框架，用于比较不同的提示工程技术并评估其对模型性能的影响。PromptBench 有助于增强和优化 LLM 的微调方法。为了确保评估的公正性和公平性，PandaLM [216] 被引入作为一种鉴别性大规模语言模型，专门设计用于通过训练区分多种高效 LLM。传统的评估数据集主要强调客观正确性，与之不同的是，PandaLM 加入了关键的主观因素，包括相对简洁、清晰、遵守说明、全面性和正式性。

4.2. Benchmarks for Specific Downstream Tasks

除了针对一般任务的基准外，还有专门针对某些下游任务的基准。

问题-解答基准已成为 LLM 及其整体性能评估的基本组成部分。MultiMedQA [177] 是一个医疗质量保证基准，重点关注医学考试、医学研究和消费者保健问题。它由七个与医疗质量保证相关的数据集组成，包括六个现有数据集和一个新数据集。该基准的目标是评估法律硕士在临床知识和质量保证能力方面的表现。为了评估 LLM 在有关当前世界知识的动态质量保证方面的能力，Vu 等人[198] 引入了 FRESHQA。通过在提示中加入从搜索引擎中检索到的相关当前信息，LLMs 在 FRESHQA 中的表现有了显著提高。为了有效评估深度对话，Wang 等人[205]引入了对话 CoT，其中包含两种有效的对话策略：显式 CoT 和 CoT。

在最近的研究中，对各种高难度任务中的 LLM 进行评估引起了广泛关注。为此，人们引入了一系列专门的基准来评估 LLM 在特定领域和应用中的能力。其中，由 Sawada 等人提出的 ARB [171]，主要测试 LLM 在跨多个领域的高级推理任务中的性能。此外，LLM 中的伦理考虑也已成为一个至关重要的领域。由 Huang 等人[79]定制的 TRUSTGPT 解决了 LLMs 中的关键伦理问题，包括毒性、偏见和价值一致性。此外，正如 Huang 等人的 EmotionBench 基准[76]所强调的，LLM 对人类情绪反应的模拟仍是一个具有巨大改进潜力的领域。在安全评估方面，Zhang 等人[252] 推出了 SafetyBench，这是一个专门用于测试一系列流行的中英文 LLM 安全性能的基准。评估结果揭示了当前 LLMs 中存在的重大安全缺陷。为了评估智能系统的日常决策能力，Hou 等人[75] 推出了 Choice-75。此外，为了评估 LLMs 理解复杂指令的能力，He 等人[66] 引入了 CELLO。该基准包括八个独特功能的设计、一个综合评估数据集的开发以及四个评估标准及其各自测量标准的建立。

还有其他一些特定的基准，如 C-Eval [78]，它是第一个广泛评估中文基础模型的高级知识和推理能力的基准。此外，Li 等人[108] 介绍了 CMMLU 作为一个全面的中文能力标准，并评估了 18 个不同学科的 LLM 的表现。研究结果表明，大多数 LLM 在中文环境中的表现不尽如人意，突出了需要改进的地方。M3Exam[248]提供了一个独特而全面的评估框架，它结合了多种语言、模式和水平，以测试语言学习者在不同语境中的综合能力。此外，GAOKAO-Bench[243]提供了一个全面的评估基准，利用来自中国高考的试题来衡量大型语言模型在复杂和特定语境任务中的能力。另一方面，SOCKET [23] 是一个 NLP 基准，旨在评估 LLM 在学习和识别社会知识概念方面的性能。它由多个任务和案例研究组成，用于评估 LLM 在社会能力方面的局限性。MATH [72] 主要评估人工智能模型在数学领域的推理和解决问题能力。APPS[68]是评估代码生成的一个更全面、更严格的基准，衡量语言模型根据自然语言规范生成 Python 代码的能力。CUAD [71] 是一个由专家注释的、特定领域的法律合同审查数据集，它是一个具有挑战性的研究基准，具有提高深度学习模型在合同理解任务中的性能的潜力。CVALUES [229]引入了一个人文评估基准，用于评估法律合同管理与安全和责任标准的一致性。在综合中医领域，Wang 等人[211]引入了 CMB，这是一种植根于中国语言和文化的医学评价基准。它解决了仅仅依赖基于英语的医学评估可能导致的本地环境不一致的问题。在幻觉评估领域，[116] 开发了 UHGEval，这是一个专门用于评估中文 LLM 文本生成性能的基准，不受幻觉相关限制的约束。

除了现有的评估基准外，在评估 LLM 使用工具的有效性方面还存在研究空白。针对这一空白，API-Bank 基准[109]作为首个明确为工具增强型 LLM 设计的基准被引入。它包括一个全面的工具增强型 LLM 工作流，包含 53 个常用 API 工具和 264 个注释对话，共包含 568 个 API 调用。此外，ToolBench 项目[191]旨在增强大型语言模型的开发能力，从而有效利用通用工具的功能。通过提供一个创建优化指令数据集的平台，ToolBench 项目旨在推动语言模型的发展并加强其实际应用。为了评估多轮交互中的 LLM，Wang 等人[213]提出了 MINT，它利用了工具和自然语言反馈。

4.3. Benchmarks for Multi-modal Task

对于多模态大语言模型（MLLM）的评估，MME[46]是一个广泛的评估基准，旨在评估其感知和认知能力。它采用精心设计的指令-答案对和简洁的指令设计，从而保证了公平的评估条件。为了对大规模视觉语言模型进行稳健评估，Liu 等人[126] 推出了 MMBench，其中包含一个综合数据集，并采用了 CircularEval 评估方法。此外，MMICL [253] 针对多模态输入增强了视觉语言模型，并在 MME 和 MMBench 等任务中表现出色。此外，LAMM[234]将其研究扩展到多模态点云。LVLM-eHub [230] 利用在线竞争平台和定量能力评估对 LVLM 进行了详尽的评估。为了全面评估多模态大型语言模型（MLLM）的生成和理解能力，Li 等人[107] 推出了一个名为 SEEDBench 的新基准。该基准由 19,000 道多选题组成，这些多选题已由人类评估员进行了注释。此外，评估还涉及 12 个不同方面，包括模型理解图像和视频中的模式的熟练程度。总之，最近的研究工作开发了强大的基准和改进的模型，推动了多模态语言的研究。

5. HOW TO EVALUA

在本节中，我们将介绍两种常见的评估方法：自动评估和人工评估。我们的分类依据是评价标准能否自动计算。如果可以自动计算，我们就将其归入自动评价；否则，就归入人工评价。

5.1. Automatic Evaluation

自动评估是一种常见的评估方法，也可能是最流行的评估方法，通常使用标准指标和评估工具来评估模型性能。与人工评价相比，自动评价不需要大量的人工参与，不仅节省时间，还能减少人为主观因素的影响，使评价过程更加规范。例如，Qin 等人[159]和 Bang 等人[6]都使用自动评估方法对大量任务进行了评估。最近，随着 LLM 的发展，一些先进的自动评估技术也被设计出来帮助评估。Lin和Chen[121]提出了LLM-EVAL，这是一种统一的多维自动评估方法，适用于LLM的开放域对话。PandaLM [216] 通过训练一个 LLM 作为 "法官 "来评估不同的模型，从而实现可重复的自动语言模型评估。Jain 等人[82]提出了一种自监督评估框架，通过消除对新数据的费力标注，在实际部署中实现了一种更高效的模型评估形式。此外，许多基准也应用了自动评估，如 MMLU [70]、HELM [114]、C-Eval [78]、AGIEval [260]、AlpacaFarm [38]、Chatbot Arena [128] 等。

根据采用自动评价的文献，我们在表 9 中总结了自动评价的主要指标。主要指标包括以下四个方面：

准确度（Accuracy）是衡量模型在特定任务中的正确程度。准确度的概念在不同情况下可能有所不同，并取决于具体任务和问题的定义。准确度可以用精确匹配、F1 分数和 ROUGE 分数等各种指标来衡量。

1. Exact Match（EM）是用于评估文本生成任务中模型输出是否与参考答案精确匹配的指标。在问题解答任务中，如果模型生成的答案与人工提供的答案完全匹配，则 EM 值为 1；否则，EM 值为 0。
2. F1 分数是评估二元分类模型性能的一个指标，它综合了模型的精确度和召回率。计算公式如下计算公式如下 F 1 = 2×Precision×Recall / Precision+Recall。
3. ROUGE 主要用于评估文本摘要和机器翻译等任务的性能，涉及文本之间重叠和匹配的考虑。

校准（Calibrations）是指模型输出的置信度与实际预测精度之间的一致程度。

1. 预期校准误差（ECE）是评价模型校准性能的常用指标之一[60]。Tian 等人[189]利用 ECE 研究了 RLHFLM 的校准，包括 ChatGPT、GPT-4、Claude 1、Claude 2 和 Llama2。在计算 ECE 时，他们根据置信度对模型预测进行分类，并测量每个置信度区间内预测的平均准确度。
2. 选择性准确率和覆盖率的曲线下面积（AUC）[54] 是另一个常用指标。

公平性（Fairness）是指模型对待不同群体的方式是否一致，即模型在不同群体间的表现是否平等。这可能包括性别、种族、年龄等属性。DecodingTrust [201] 采用了以下两个指标来衡量公平性：

1. 人口均等差（DPD）衡量模型的预测结果在不同人群中的分布是否均等。如果不同群体之间的预测结果差异很大，则 DPD 值较高，表明模型可能对不同群体存在不公平的偏见。
2. Equalized Odds Difference (EOD) 的目的是确保模型在不同人群中提供相同的错误率，即模型的预测错误概率分布在不同人群中是相似的。EOD 的计算涉及与真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）预测相关的概率。

鲁棒性（Robustness）评估的是模型在面对各种挑战性输入时的性能，包括对抗性攻击、数据分布变化、噪声等。ASR和PDR分别是用来衡量模型在面对攻击时被成功攻击的频率和性能下降的程度。

1. 攻击成功率（ASR）：这是用来评估大型语言模型（LLM）对抗攻击鲁棒性的一个指标。具体来说，考虑一个数据集，其中包含N对样本（xi，yi），其中xi是输入，yi是真实值。对于一种对抗攻击方法A，给定一个输入x，这种方法可以生成对抗样本A(x)来攻击替代模型f
2. 性能下降率（PDR）：这是一个新的统一指标，用来有效评估LLM在提示（prompt）下的鲁棒性。PDR量化了在对提示进行对抗攻击后的相对性能下降

5.2. Human Evaluation

在一般的自然语言任务中，LLM 的能力日益增强，这无疑超出了标准评估指标的范围。因此，在某些不适合自动评估的非标准情况下，人工评估自然成为一种选择。例如，在 embedding 相似度指标（如 BERTScore）不能满足的开放式生成任务中，人工评估更为可靠[142]。虽然有些生成任务可以采用某些自动评估协议，但在这些任务中，人工评估更为有利，因为生成结果总能比标准答案更好。

人工评估是一种通过人类参与来评估模型生成结果的质量和准确性的方法。与自动评估相比，人工评估更接近实际应用场景，能够提供更全面和准确的反馈。在对大语言模型（LLMs）进行人工评估时，通常会邀请评估者（如专家、研究人员或普通用户）来评估模型生成的结果。例如，Ziems等人 [267] 使用专家的注释进行生成评估。通过人工评估，Liang等人 [114] 评估了六个模型在摘要和虚假信息场景下的表现，而Bang等人 [6] 评估了类比推理任务。Bubeck等人 [15] 进行了使用GPT-4的一系列人类设计的测试，发现GPT-4在多项任务中的表现接近或甚至超过了人类的表现。这种评估需要评估者实际测试和比较模型的性能，而不仅仅是通过自动评估指标来评估模型。需要注意的是，即使是人工评估也可能存在高方差和不稳定性，这可能是由于文化和个人差异 [155]。在实际应用中，这两种评估方法会结合实际情况进行考虑和权衡。

探索LLMs的人工评估方法需要仔细关注各种关键因素，以保证评估的可靠性和准确性 [178]。表10提供了人工评估的重要方面的简要概述，包括评估者数量、评估标准和评估者的专业水平。首先，评估者的数量是一个关键因素，与适当的代表性和统计显著性紧密相关。合理选择的评估者数量有助于对所评估的LLMs有更细致和全面的理解，从而使结果能更可靠地推广到更广泛的背景中。

此外，评估标准是人工评估过程的基本组成部分。基于3H原则（Helpful, Honest, Harmless） [4]，我们将其扩展为以下六个人工评估标准。这些标准包括准确性、相关性、流畅性、透明性、安全性和人类一致性。通过应用这些标准，可以对LLMs在句法、语义和上下文方面的性能进行全面分析，从而更全面地评估生成文本的质量。

（1）准确性（Accuracy）[178]是一个关键的评估标准，用于评估生成文本的精确性和正确性。它涉及审查语言模型生成的信息在多大程度上与事实知识一致，避免错误和不准确。

（2）相关性（Relevance）[259]关注生成内容的适当性和重要性。这个标准检查文本如何应对给定的上下文或查询，确保提供的信息是相关的并且直接适用。

（3）流畅性（Fluency）[196]评估语言模型生成内容的流畅程度，保持一致的语调和风格。流畅的文本不仅在语法上正确，还保证可读性和无缝的用户体验。分析人员评估模型如何避免尴尬的表达和语言或主题的突然转变，从而促进与用户的有效沟通。

（4）透明性（Transparency）探讨了语言模型决策过程的清晰度和开放性。它涉及评估模型如何清晰地传达其思维过程，使用户能够理解某些响应的生成方式和原因。一个透明的模型提供其内部工作原理的见解。

（5）安全性（Safety）[85]是一个关键的评估标准，关注生成文本可能带来的潜在危害或意外后果。它检查语言模型避免生成不适当、冒犯性或有害内容的能力，确保用户的福祉并避免错误信息。

（6）人类一致性（Human alignment）评估语言模型输出与人类价值观、偏好和期望的一致程度。它考虑生成内容的伦理影响，确保语言模型生成尊重社会规范和用户期望的文本，促进与人类用户的积极互动。

最后，评估者的专业水平是一个关键的考虑因素，涵盖了相关领域知识、任务熟悉度和方法培训。明确评估者所需的专业水平，确保他们具备必要的背景知识，以准确理解和评估LLMs生成的特定领域文本。这一策略为评估过程增加了一层严谨性，增强了研究结果的可信度和有效性。

6. SUMMARY

在本节中，我们总结了第3、4和5节中的主要发现。首先，我们想强调的是，尽管在总结现有评估工作的过程中付出了许多努力，但没有证据明确表明某一种评估协议或基准是最有用和成功的，而是具有不同的特征和侧重点。这也表明，没有单一的模型可以在所有类型的任务中表现最佳。本文调查的目的是超越简单地确定“最佳”基准或评估协议。通过总结和分析现有的大语言模型（LLMs）评估工作，我们可以识别LLMs的当前成功和失败案例，得出评估协议的新趋势，最重要的是，为未来研究提出新的挑战和机遇。

6.1. Task: Success and Failure Cases of LLMs

现在，我们总结LLMs在不同任务中的成功和失败案例。请注意，以下所有结论都是基于现有的评估工作，并且结果仅依赖于特定的数据集。

6.1.1. What Can LLMs do Well?

— LLMs在生成文本方面表现出色 [11, 14, 24]，能够产生流畅和精确的语言表达。

— LLMs在涉及语言理解的任务中表现令人印象深刻，包括情感分析 [52, 129, 159]、文本分类 [114, 154, 232]以及处理事实输入 [159]。

— LLMs展示了强大的算术推理能力 [159]，并在逻辑推理 [124]方面表现优异。此外，它们在时间推理 [6]方面也表现出色。更复杂的任务如数学推理 [225, 236, 243]和结构化数据推断 [86, 151]已成为评估的主要基准。 — LLMs表现出强大的上下文理解能力，使其能够生成与给定输入一致的连贯响应 [187]。

— LLMs在多个自然语言处理任务中也表现出令人满意的性能，包括机器翻译 [6, 130, 208]、文本生成 [20]和问答 [102, 114]。

6.1.2. When Can LLMs Fail?

— 在自然语言推理（NLI）领域，LLMs表现不佳，难以准确表达人与人之间的分歧 [105]。

— LLMs在区分事件的语义相似性方面表现有限 [184]，在评估基本短语方面表现不佳 [166]。

— LLMs在抽象推理能力上有限 [56]，在复杂上下文中容易出现混淆或错误 [148]。

— 在包含非拉丁字母和资源有限的语言环境中，LLMs表现不佳 [2, 6, 100, 248]。此外，生成型LLMs在各类任务和语言中表现普遍低于预期标准 [2]。

— LLMs在处理视觉模态信息时表现出易感性 [256]。此外，它们有能力吸收、传播和潜在地放大训练数据集中存在的不良内容，这些内容通常包括有毒语言元素，如冒犯性、敌对和贬低性语言 [53]。

— LLMs在生成过程中可能会表现出社会偏见和有毒性 [37, 53, 153]，导致生成偏见的输出。

— LLMs可能表现出可信度不足 [201]，在对话中可能产生虚假信息或错误事实 [163, 251]。

— LLMs在整合实时或动态信息方面存在局限性 [127]，使其不适合需要最新知识或快速适应变化上下文的任务。

— LLMs对提示非常敏感，特别是对抗性提示 [262]，这触发了新的评估和算法以提高其鲁棒性。

6.2. Benchmark and Evaluation Protocol

随着LLMs的快速发展和广泛使用，在实际应用和研究中评估它们的重要性变得至关重要。这个评估过程不仅应包括任务级别的评估，还应深入理解它们从社会角度可能带来的潜在风险。在本节中，我们在表8中总结了现有的基准和协议。首先，从客观计算转向人类参与的测试，让评估过程中更多地融入人类反馈。AdaVision [50]是一个测试视觉模型的交互过程，允许用户标记少量数据以验证模型的正确性，从而帮助用户识别和修复一致的失败模式。在AdaTest [164]中，用户通过仅选择高质量测试并将其组织成语义相关的主题来筛选测试样本。其次，从静态到众包测试集的转变越来越普遍。工具如DynaBench [94]、DynaBoard [132]和DynaTask [188]依赖众包工人创建和测试难题。此外，DynamicTempLAMA [135]允许动态构建与时间相关的测试。第三，从统一设置到挑战性设置来评估机器学习模型。虽然统一设置涉及没有偏好任何特定任务的测试集，但挑战性设置为特定任务创建测试集。像DeepTest [190]这样的工具使用种子生成输入变换进行测试，CheckList [165]基于模板构建测试集，而AdaFilter [157]对抗性地构建测试。然而，值得注意的是，AdaFilter可能并不完全公平，因为它依赖于对抗性示例。HELM [114]从不同方面评估LLMs，而Big-Bench [182]平台用于设计机器学习模型解决的困难任务。PromptBench [262]旨在通过创建对抗性提示评估LLMs的对抗性鲁棒性，这更具挑战性，结果表明当前的LLMs对对抗性提示不够鲁棒。

7. GRAND CHALLENGES AND OPPORTUNITIES FOR FUTURE RESEARCH

评估作为新的学科： 我们对评估现状的总结激发了我们重新设计与LLMs相关评估的各个方面。在本节中，我们提出了几个重大挑战。我们的关键观点是，评估应被视为推动LLMs和其他AI模型成功的一个重要学科。现有的评估协议不足以全面评估LLMs的真实能力，这给LLMs评估的未来研究带来了重大挑战和新机遇。

7.1. Designing AGI Benchmarks

正如我们之前讨论的，尽管所有任务都可能作为LLMs的评估工具，但问题在于哪些任务可以真正衡量AGI的能力。随着我们期望LLMs展示AGI的能力，理解人类和AGI能力之间的差异对于创建AGI基准至关重要。当前的趋势似乎将AGI概念化为超人实体，因此利用教育、心理学和社会科学等跨学科知识来设计创新的基准。然而，仍有许多未解决的问题。例如，使用人类价值作为测试构建的起点是否有意义，还是应该考虑其他视角？开发合适的AGI基准提出了许多需要进一步探索的开放问题。

7.2. Complete Behavioral Evaluation

理想的AGI评估不仅应包含常见任务的标准基准，还应包括开放任务的评估，如完整的行为测试。通过行为测试，我们指的是AGI模型应在开放环境中进行评估。例如，通过将LLMs视为中央控制器，我们可以构建由LLMs操纵的机器人评估其在实际情况下的行为。将LLMs视为完全智能机器，其多模态维度的评估也应被考虑。实际上，完整的行为评估是标准AGI基准的补充，它们应协同工作以实现更好的测试。

7.3. Robustness Evaluation

除了通用任务外，对于LLMs来说，保持对各种输入的鲁棒性至关重要，以便在日常生活中的广泛集成中表现最佳。例如，相同的提示但不同的语法和表达方式可能导致ChatGPT和其他LLMs生成不同的结果，这表明当前的LLMs对输入不够鲁棒。尽管已有一些关于鲁棒性评估的先前工作 [206, 262]，但仍有很大进展空间，如包括更多样化的评估集，检查更多评估方面，以及开发更高效的评估以生成鲁棒性任务。同时，鲁棒性的概念和定义在不断发展。因此，考虑更新评估系统以更好地符合新兴的伦理和偏见要求是至关重要的。

7.4. Dynamic and Evolving Evaluation

现有的大多数AI任务评估协议依赖于静态和公共基准，即评估数据集和协议通常是公开的。虽然这促进了社区内的快速和方便的评估，但无法准确评估LLMs不断发展的能力，鉴于其快速发展的速度。LLMs的能力可能随着时间的推移而增强，这不能通过现有的静态基准持续评估。另一方面，随着LLMs的模型尺寸和训练集规模不断增大，静态和公共基准可能会被LLMs记住，导致潜在的训练数据污染。因此，开发动态和进化评估系统是提供公平评估LLMs的关键。

7.5. Principled and Trustworthy Evaluation

在引入评估系统时，确保其完整性和可信赖性至关重要。因此，可信赖计算的必要性也延伸到可靠评估系统的需求。这提出了一个将测量理论、概率等多个领域交织在一起的挑战性研究问题。例如，我们如何确保动态测试真正生成分布外样本？在这个领域的研究很少，希望未来的工作不仅能审查算法，还能审查评估系统本身。

7.6. Unified Evaluation that Supports All LLMs Tasks

LLMs有许多其他研究领域，我们需要开发能支持各种任务的评估系统，如价值对齐、安全性、验证、跨学科研究、微调等。例如，PandaLM [216] 是一个通过提供开源评估模型来协助LLMs微调的评估系统，可以自动评估微调的性能。我们期望更多的评估系统变得更加通用，并可以用作特定LLMs任务的辅助。

7.7. Beyond Evaluation: LLMs Enhancement

最终，评估并不是最终目标，而是起点。在评估之后，必然会有关于性能、鲁棒性、稳定性等方面的结论。一个高效的评估系统不仅应提供基准结果，还应提供深刻的分析、建议和未来研究与发展的指导。例如，PromptBench [262]不仅提供了对抗性提示的鲁棒性评估结果，还通过注意力可视化进行了全面分析，阐明了对抗性文本如何导致错误响应。该系统还提供了词频分析，以识别测试集中鲁棒和非鲁棒的词，从而为终端用户提供提示工程指导。后续研究可以利用这些发现来提升LLMs。另一个例子是，Wang等人 [215]首先探索了大规模视觉语言模型在不平衡（长尾）任务中的表现，这表明了当前大模型的局限性。然后，他们探索了不同的方法来提高这些任务的性能。总之，评估后的提升有助于构建更好的LLMs，并且在未来还有很多工作可以做。