Evaluating the Generation Capabilities of Large Chinese Language Models

文章目录

- 题目
- 摘要
- 相关工作
- CG-Eval
- 实验

题目

评估大型中文语言模型的生成能力

在这里插入图片描述

论文地址：https://arxiv.org/abs/2308.04823
项目地址：http://cgeval.besteasy.com/

摘要

本文介绍了 CG-Eval，这是有史以来第一个全面的自动化评估框架，旨在评估跨学科的大型中文语言模型的生成能力。CG-Eval 以其自动化流程脱颖而出，该流程基于模型在六个关键领域内生成精确且与上下文相关的各种问题的答案的能力对模型进行严格评估：科学与工程、人文与社会科学、数学计算、执业医师资格考试、司法考试和注册会计师考试。除此之外，我们还推出了 Gscore，这是一个由多个指标的加权总和开发的创新综合指数。Gscore 独特地根据参考标准自动测量模型的文本生成质量，提供对模型性能的详细和细致的评估。这种自动化不仅提高了评估过程的效率和可扩展性，而且还确保了对各种模型的客观和一致的评估。

大规模语言模型的出现预示着自然语言处理领域的新纪元，其特点是具有前所未有的理解和生成复杂文本的能力。这一现象最初由 ChatGPT等模型推广，并导致了学术研究和行业应用的重大转变。在这一发展之后，中文大规模语言模型显著涌现，涵盖开源和闭源领域。这些模型，例如 ERNIE Bot、Spark Desk、等，引入了数千亿个参数，有望在不同的语言和文化背景下增强文本生成能力。然而，在系统评估这些模型方面仍然存在一个关键的差距，特别是在它们满足不同学科的细微需求的能力方面。

本文介绍了 CG-Eval，这是一个开创性的评估框架，专门用于填补大型中文语言模型评估中的一个关键空白。与 MMLU 等主要通过多项选择题形式关注理解能力的传统基准不同，CG-Eval 通过全面评估生成能力开辟了新局面。我们的框架涵盖了广泛的学科，集中在六个主要领域：科学与工程、人文与社会科学、数学计算、执业医师资格考试、司法考试和注册会计师考试。CG-Eval 的创新之处在于其全面的方法——评估模型而不仅仅是语言理解。它深入研究模型生成精确、上下文相关和学科特定响应的能力，从而更全面地了解它们的能力。

此外，我们引入了 Gscore，这是一种新颖的综合指数，旨在根据参考标准客观地衡量模型生成的文本的质量。 Gscore 代表了多种评估标准的综合，这些标准经过加权以捕捉模型性能的不同方面。该指标是一个重大飞跃，超越了传统的以理解为重点的评估，以评估文本生成的细节方面。CG-Eval 的一个关键特点是其快速、自动化的评估过程。这种自动化不仅加快了评估周期，使对各种模型进行广泛的评估成为可能，而且还确保了高度的客观性，不受人为偏见的影响。通CG-Eval 解决了现有评估方法的差距，对优势和劣势提供了深刻的分析当前汉语语言模型的局限性。

CG-Eval

为了衡量中文大型语言模型的生成能力，我们引入了 CG-Eval（中文生成评估）基准。在这次评估中，测试模型需要对 11,000 个不同的问题提供准确和相关的答案，这些问题涵盖六大学科类别：科学与工程、人文与社会科学、数学计算、医师资格考试、司法考试和注册会计师考试。这些类别进一步细分为 55 个子学科。问题可分为三类：术语定义、简答题和计算问题。我们设计了一个综合评分系统：对于非计算类问题，每个术语定义和简答题都有一个参考标准答案。分数来自多个生成指标，然后使用加权和进行汇总。对于计算类问题，我们同时评估最终的计算结果和问题解决过程，最终得出一个综合分数。

CG-Eval基准测试包含三种不同类型的问题：术语定义，简答题和计算问题。只有数学计算部分涉及计算问题。在术语定义类别中，我们展示了每个子学科的专业术语，需要测试模型阐明它们的含义。简答题会针对各个学科提出问题，模型需要根据问题给出准确的答案。数学计算部分包括四个学科：小学数学、初中数学、高中数学和大学数学。小学数学的问题类型包括基础算术和应用题。基础算术要求模型能够读取问题并直接返回数值结果。应用题要求模型提供逐步的求解过程，并以规定的格式给出最终的计算结果。初中数学、高中数学和大学数学都只有一种类型的问题——计算问题求解，包括数值计算、因式分解、方程分解、微积分等，也要求模型能够描述求解步骤，并按照规定的格式给出最终答案。

在这里插入图片描述
我们采用了一种动态灵活的提示词生成方法，确保每个问题都与一个唯一的提示词配对。对于非计算性问题，我们对答案的长度施加了限制。我们为模型提供参考答案的字符长度，促使它生成近似于给定参考长度的响应。定义问题的提示词格式如下：以下是{科目名称}科目的术语：{术语}，请解释其含义，把回复控制在{答案长度}个汉字左右。“简答题”相关提示的格式如下：以下是{科目名称}科目的问题，请解答并把回复控制在{答案长度}个汉字左右。\n{问题}计算题的提示稍微复杂一些。“小学计算”题的提示格式如下：以下是{subject}科目的问题，请进行计算并给出阿拉伯数字结果。请直接返回数值结果，不需要任何的汉字解释。\n{题目}初等数学中“应用题”相关提示的格式如下：以下是{科目名称}科目的问题，请以“解：”开始给出解题过程，并在解题过程的最后换行，在最后一行以“最终答案：”开头，按顺序给出数值及其单位，采用英文逗号分割，例如“最终答案：1元,1次,1公顷,1人”。\n{题目}初中、高中、大学数学的题目格式相同，且非常复杂。结构如下：以下是{科目名称}科目的问题，请使用latex语法给出解题过程，并在解题过程的最后换行，在最后一行以“最终答案：”开头，根据不同的题目类型按照latex语法给出数值、表达式、导数、积分、方程的根。导数根据题目表述采用latex语法按照y’或者f’(x)表示。如果方程的一个未知数有多个解，答案采用形如“x=1或x=-3”的方式表示。如果方程有多个未知数，答案采用形如“x=1,y=-3,z=5”的方式表示，用英文逗号分隔。以下为需要解答的题目：\n{题目}

在评估文本生成质量时，传统上有几个指标占据主导地位：BLEU、ROUGE、CHRF 和语义相似性度量。这些指标都为该领域做出了独特的贡献。BLEU主要用于机器翻译，强调 n-gram 匹配，但经常忽略语义细微差别。ROUGE面向摘要，平衡了准确率和召回率，但可能忽略了冗余和语义深度。CHRF提供字符级分析，提供粒度，但有时过分强调表面形式。语义相似性利用预先训练的模型，捕捉更深层次的语义关系，但计算量可能很大，有时会错过更细微的差别。
然而，这些指标虽然单独使用时很有用，但在单独使用时往往提供有限的视角。为了克服这些传统指标的局限性和偏见，我们开发了 Gscore。这个综合指标融合了每个指标的优势，旨在提供更全面、更平衡的文本生成质量评估。Gscore 整合了 BLEU 的精确度、ROUGE 的平衡召回率和精确度、CHRF 的粒度以及语义相似性度量捕获的语义深度。通过这样做，它解决了单个指标的狭窄焦点，提供了更广泛、更细致入微的文本质量视图。

BLEU 概述：BLEU 通过将 n-gram 重叠与参考翻译进行比较来评估机器翻译。优点：简单、高效、与人类判断相关。局限性：词汇匹配重点、短句问题、有限的多样性处理。ROUGE 概述：ROUGE 通过 n-gram 重叠评估文本摘要，重点关注精确度和召回率。优点：全面评估、与人工评估的相关性。局限性：回忆偏差、词汇匹配重点、参考摘要依赖性。CHRF 概述：CHRF 在字符级别评估翻译，强调更精细的词汇细节。优点：灵活性、粒度、对拼写错误的容忍度。局限性：计算复杂性、强调表面形式、参考依赖性。语义相似性概述：使用预训练语言模型的矢量化表示来测量语义相关性。优点：丰富的语义理解、泛化能力。局限性：计算需求、潜在的细节丢失、模型偏差。

Gscore Gscore 的开发基于对现有文本生成评估指标的彻底分析和批判性评估。认识到虽然 BLEU、ROUGE、CHRF 和语义相似性度量各有其优势，但它们在独立使用时也具有固有的局限性。例如，BLEU 和 ROUGE 主要关注 n-gram 匹配，可能无法完全捕捉语义复杂性；CHRF 虽然在字符级别提供更精细的分析，但可能过分强调表面形式；使用预训练模型进行语义相似性评估，虽然可以捕捉更深层次的语义关系，但计算量可能很大，并且可能会忽略某些细微差别。因此，我们提出了 Gscore，这是一种综合指标，可以协同整合这些方法的优势。在设计 Gscore 时，我们采用了加权求和方法来合并这些不同的指标。每个指标的权重都经过仔细调整和测试，以确保在综合评估中做出平衡的贡献。具体来说，Gscore 包括：20% 来自 BLEU，反映精度和 n-gram 匹配；25% 来自 ROUGE，提供精度和召回率的平衡视图；另外 25% 来自 CHRF，增加了字符级粒度；30% 来自语义相似性，确保考虑深层语义关联。

Gscore=0.2Bleu4+0.25Rouge2+0.25Chrf+0.3语义相似度计算语义相似度时，我们先用中文预训练模型对模型答案和参考答案进行向量化，然后计算它们的余弦相似度。CG-Eval第二版使用BAAI/bge-large-zh-v1.5，CG-Eval第一版使用text2vec-large-chinese。由于模型答案和参考答案可能超出模型的最大处理长度，我们设计了一个滑动窗口编码模块。该模块以滑动的方式对窗口内的文本进行编码，将编码后的向量存储在列表中。在每个窗口内，我们利用预训练的语言模型对文本进行编码。所有窗口处理完成后，我们将编码向量聚合起来，取平均值或者拼接起来，表示整个文本。对于数学计算任务，Gscore的计算稍微复杂一些。对于小学数学的算术题，我们直接比较最终的数值结果，如果模型的输出与参考答案完全匹配，则该题得1分，否则得0分，最终的Gscore是所有小学算术题的平均分。

对于小学数学的应用题，以及初中、高中、大学数学的计算解题题，需要通过答案分析模块提取解题过程和最终答案，如果提取出的最终答案与参考答案完全匹配，则该题的Accuracy为1，否则为0。然后计算提取出的解题过程相对于参考解题过程的Chrf分数StepChrf。然后使用以下公式计算最终的 Gscore：Gscore=Accuracy+(1-Accuracy)0.3StepChrf 如果最终答案正确，则该问题的 Gscore 设置为 1。相反，如果最终答案不正确，则可获得的最大 Gscore 上限为 0.3，实际值为 StepChrf 分数的 0.3 倍。总之，Gscore 的开发基于对现有评估指标的深入分析和批判性理解。我们的目标是创建一个保留个人优势的综合指标指标，同时弥补各自的局限性。这样的设计使 Gscore 成为一种灵活、全面、可靠的文本生成质量评估工具，适用于广泛的场景和不同类型的文本生成任务。

实验

为了评估大规模中文语言模型的生成能力，我们在 CG-Eval 数据集上对 19 个模型进行了零样本测试，包括但不限于：GPT-4 、ChatGLM-Pro 、ChatGLM-Std 、Spark Desk 、ERNIE Bot、Qwen-7B-Chat、Baichuan-13BChat 、Ziya-LLaMA-13B-v1.1 、ChatGLM2-6B、AquilaChat-7B 、tigerbot-sft-7b 等。所有测试模型的名称、开发机构、参数数量和用途的详细信息可以在表1中找到
在这里插入图片描述
如表 2 所示，对大型中文语言模型的综合评估揭示了不同模型的能力和性能的多样性。在本次评估中，模型在六个不同的学科领域接受了严格测试，从而全面了解了它们的生成能力。结果以 Gscore 来概括，让我们了解这些模型在这些专业领域内生成准确且相关的响应方面的表现。由 OpenAI 开发的 GPT-4 以最高平均 Gscore 成为领跑者，展示了其在不同学科领域的稳健性和多功能性。紧随其后的是智浦·AI 的 ChatGLM-Pro 和 ChatGLM-Std ，表明它们在处理复杂文本生成任务方面表现出色。其他模型，如百川人工智能的 Baichuan2-53B和阿里云的 Qwen-14B-Chat，也展示了令人称赞的能力，与学术和专业环境不断变化的需求相得益彰。

另一方面，Tigerobo 的 tigerbot-sft-7b和 BAAI 的 AquilaChat 系列等模型虽然仍表现出显著的熟练程度，但在整体 Gscore 方面落后。这表明它们的算法和训练方法还有进一步改进的空间。这些模型性能的多样性凸显了语言建模领域的快速进步，特别是在中文背景下。它还强调了持续创新和发展的重要性，以提高这些人工智能驱动工具的准确性、相关性和语境理解能力。表 3 中的平均 Gscores 表明，对科学与工程领域大型中文语言模型的评估提供了对该特定领域中 AI 驱动文本生成的现状的深刻观察。该评估侧重于模型在科学与工程领域生成精确且上下文相关的内容的能力，反映了这些复杂工具的细微功能。

在这里插入图片描述

讯飞开发的 Spark Desk以最高的 Gscore 领先，表明其在处理复杂的科学和工程查询方面非常熟练。这表明其先进的算法和针对特定领域数据集的训练，可以深入了解技术主题。紧随其后的是来自智浦·AI、ChatGLM-Std和 ChatGLMPro的模型，以及 OpenAI 的 GPT-4，它们都表现出色。这些模型的高分表明它们在生成准确和相关的响应方面具有全面的能力，凸显了它们在学术和专业环境中的潜在实用性在科学与工程领域。有趣的是，结果还揭示了具有竞争力的中间层模型，例如百川AI的Baichuan2-53B和阿里云的Qwen14B-Chat。它们的表现虽然不是榜首，但仍然值得称赞，表明该领域取得了重大进步。另一方面，像Tigerobo的tigerbot-sft-7b和BAAI的AquilaChat系列这样的模型，虽然展示了显着的能力，但仍表明需要改进的地方，以便与该领域的领导者相匹配。

在这一类别中表现领先的是百川AI的Baichuan2-53B，展示了其对人文社会科学固有概念和思想的卓越掌握和表达能力。该模型取得的高分表明该模型对该领域的细微差别和多样化背景有着深刻的理解。紧随其后的是 ZHIPU·AI 的 ChatGLM-Pro和 OpenAI 的 GPT-4，它们都表现出在这些主题上生成连贯且相关的响应的强大能力。它们的表现凸显了语言模型在处理人文和社会主题的复杂性方面取得的进步。

在这里插入图片描述
阿里云的 Qwen-14B-Chat和 01-ai 的 Yi-34BChat等模型也表现出了令人称赞的性能，表明它们有效的训练和算法结构有利于人文和社会科学内容的生成。这表明这些模型不仅技术精湛，而且能够处理这些学科中发现的各种主题和观点。另一方面，Tigerobo 的 tigerbot-sft-7b和 BAAI 的 AquilaChat 的一些迭代等模型虽然仍显示出该领域的能力，但却落后于同行。不同模型之间性能的差异凸显了微调语言模型以满足人文和社会科学的细微要求所固有的挑战。这也表明了该领域进一步发展和专业化的潜力。表 5、6、7 反映了专业资格考试中大型汉语模型的综合评估，让我们一窥大型汉语模型的适用性和有效性。这些模型在高度专业化和知识密集型领域中的表现都十分出色。这些考试以其严谨性和复杂性而闻名，是测试模型理解、处理和生成符合专业标准的响应的能力的坚实试验场。

在这里插入图片描述

在执业医师资格考试中，智谱·AI的ChatGLM-Std和ChatGLM-Pro，以及讯飞的Spark Desk等模型表现出色，展示了它们在医学术语和概念方面的能力。这表明这些模型在处理领域特定语言和概念的能力方面取得了显著的进步，这在医疗环境中至关重要。司法考试结果也显示出类似的趋势，百川AI的Baichuan2-53B和智谱·AI的ChatGLM-Pro得分最高。它们的优异表现表明它们能够熟练地处理法律语境中所需的复杂语言和细微推理。这种能力对于法律研究和实践的应用至关重要，因为语言的准确性和清晰度至关重要。在注册会计师考试中，领先的模型诸如百川AI的Baichuan2-53B和智浦·AI的ChatGLM-Pro等模型表现出色，表明它们在理解和生成与财务和会计原则相关的响应方面非常有效。这种驾驭复杂财务术语和概念的能力表明了这些模型在财务分析和会计实践中的潜在效用。

在所有三项考试中，很明显，领先的模型不仅在语言处理方面表现出色，而且还展示了对专业知识领域的深刻理解。这证明了人工智能驱动的语言模型的进步，它们不仅精通语言，而且还能够处理特定领域的挑战。然而，模型之间的性能存在明显差异，特别是在需要高度专业知识的领域。这表明，虽然一些模型在处理特定的专业环境方面越来越熟练，但仍有改进的空间，特别是在确保各个专业领域的一致性和理解深度方面。总之，在专业资格考试中对这些模型的评估不仅衡量了它们当前的能力，而且还突出了它们在专业环境中的应用潜力。这次评估的见解强调了持续开发和微调这些模型以满足各个专业领域的特定需求的重要性。
在这里插入图片描述

如表 8 所示，大型中文语言模型在数学计算领域的评估结果显示，它们在处理计算任务的能力方面存在显著差异。这些结果特别具有启发性，因为它们强调了这些模型处理和执行数学推理的不同程度，而数学推理是众多科学和工程应用中的关键方面。OpenAI 的 GPT-4在这一类别中脱颖而出，获得了最高的平均 Gscore。这一出色表现可以归因于其先进的算法和广泛的训练，其中包括对数值和逻辑处理能力的关注。GPT-4 在数学计算方面表现出色，表明它在需要复杂计算任务的领域具有潜在用途。继 GPT-4 之后，智浦·AI 的 ChatGLM-Std 和 ChatGLM-Pro等模型也表现出色。虽然它们的表现不如GPT-4，但在一定程度上表明了这些模型在处理数学计算方面的能力。这表明了它们的训练和算法设计在处理数值数据和执行计算方面的有效性。

然而，随着榜单的下滑，性能表现明显下降，阿里云的 Qwen-14B-Chat、百川人工智能的 Baichuan253B和讯飞的 Spark Desk（等模型的得分明显较低。这种下降凸显了许多语言模型在数学环境中面临的挑战，因为数学环境中的精度和逻辑连贯性至关重要。Tigerobo 的 tigerbot-sft-7b、Langboat 的 mengzi-gpt-40b和 BAAI 的 AquilaChat 系列等模型处于榜单的低端，表明它们的数学计算能力还有很大的提升空间。这表明，尽管这些模型可能擅长语言任务，但它们执行数学计算的能力却有限，这凸显了需要专门的训练或算法调整来提高它们在这些任务中的表现。总之，这些模型在数学计算中的不同表现为了解人工智能在处理计算密集型任务方面的现状提供了重要的见解。此次评估的结果不仅可以作为中文语言模型数学能力的基准，而且还强调了在这一特定领域进行有针对性的改进的必要性。这些知识对于推动该领域的发展和扩大这些模型在数学能力至关重要的领域的适用性至关重要。

在这里插入图片描述

类别 1：准确但过于冗长的回答示例 1 和 2：这些示例说明了模型的回答准确但比参考答案更冗长的情况。尽管篇幅较长，但较高的 Rouge2 和相似度得分表明核心信息得到了很好的传达。这反映在最终的 Gscores 0.83 和 0.79 中，与手动评分 1.0 非常接近。类别 2：缺少关键信息示例 3、4 和 5：在这里，模型的回答缺少关键信息，这严重影响了手动评分。但是，高相似度得分表明对主题的理解不完整。最终的 Gscores 0.7、0.6 和 0.59 与手动评分非常接近，表明 Gscore 能够捕捉这些细微差别。类别 3：有意义但不相关的回答示例 10、11 和 12：在这些情况下，模型的回答与问题完全无关。尽管相似度得分出奇的高，但较低的 BLEU、Rouge2 和 CHRF 得分反映了相关性的缺乏。最终的 Gscores 为 0.25、0.15 和 0.24，与手动得分为 0，说明 Gscore 在惩罚不相关回答方面很有效。类别 4：部分正确的回答示例 6 和 7：这些示例展示了模型提供部分正确信息但遗漏重要细节的回答。最终的 Gscore 为 0.1 和 0.6，表明模型的部分准确性，与手动得分一致。类别 5：偏离预期含义示例 8：此回答部分正确，但后半部分与预期含义有显著偏差。最终的 Gscore 为 0.25，与手动得分 0.3 相符，表明该指标能够辨别和惩罚与参考答案的偏差。类别 6：表达不同，含义相同示例 9：尽管模型的表达与参考不同，但传达了相同的含义。最终的 Gscore 为 0.58，接近手动评分 0.8，凸显了 Gscore 能够识别不同措辞下的语义等价性。
在这里插入图片描述

Bleu4 权重 (0.2)：尽管 Bleu4 对响应的字面准确性很敏感，但在自然语言处理中，语义重要性通常比字面精度更重要。上述示例表明，即使 Bleu 分数较低，由于语义相似度高，Gscore 仍能有效反映人工评估。因此，为 Bleu4 分配较低的权重是合理的。Rouge2 和 Chrf 权重（各 0.25）：这些指标评估重复性和覆盖率，反映响应的全面性。示例表明，即使响应偏离参考答案，Rouge2 和 Chrf 也能在一定程度上保持 Gscore 的稳定性，从而验证了它们的适当权重。语义相似度权重 (0.3)：这具有最高权重，强调了语义一致性在评估模型响应中的重要性。多个示例表明，即使其他指标的分数较低，高语义相似度分数也可以使 Gscore 接近人工评估，证明了其重要权重的合理性。结论：Gscore公式通过平衡各个评估维度的权重，全面反映了模型响应的质量。它不仅考虑了文字准确性，还高度重视语义相似性，这对于评估自然语言生成模型至关重要。这种权重确保了即使与参考答案存在显著的文字差异，只要保持语义接近度，Gscore也能有效反映模型性能。
这种方法与强调语义理解的自然语言处理原理非常吻合。

计算问题示例在我们的评估中，如表10所示，我们提供了四个不同的计算问题案例，每个案例都旨在测试模型的数学问题解决能力。这些问题的复杂性和类型各不相同，可以全面评估模型的计算能力。对于每个问题，我们设置了特定的提示和格式输出要求，以标准化测试程序并确保不同模型之间的可比性。每个计算问题的评估过程分为几个系统步骤：提取最终答案：首先，我们从模型的响应中提取最终答案。此步骤至关重要，因为它专注于隔离模型针对计算问题生成的核心数字或符号输出。答案标准化：提取最终答案后，我们将进行标准化过程。这涉及删除任何空格、多余的符号或对答案的数学有效性没有贡献的无关字符。此步骤的目的是确保可以统一评估答案，而不管格式或表示方式可能存在的细微差异出现在模型的响应中。与参考答案的比较：然后将标准化的最终答案与参考最终答案进行比较。参考答案是已知正确的预定解决方案。这种比较对于确定模型响应的准确性至关重要。

正确答案的 Gscore 计算：如果模型的标准化最终答案与参考最终答案完全匹配，则表明问题已正确解决。在这种情况下，模型将获得 1 的 Gscore，表示解决问题的准确性和正确性满分。错误答案的 Gscore 计算：在模型的答案与参考答案不匹配的情况下，我们将继续评估解决问题的过程。我们计算模型的整个问题解决过程与参考过程的 Chrf 分数，这是一个字符级评估指标。因此，Chrf 分数反映了模型的方法和中间步骤与标准方法的接近程度。然后将该分数乘以 0.3 以获得该问题的最终 Gscore。这种降低的权重不仅强调了过程的重要性，也强调了最终答案的准确性。通过这种细致而结构化的评估过程，我们旨在对每个模型处理和准确解决数学问题的能力进行稳健而公平的评估。这种方法不仅测试模型的计算准确性，还测试它们对逻辑问题解决方法的遵守情况，从而全面了解它们在数学推理和计算方面的能力
在这里插入图片描述

相关性结果如下所示，散点图如图 2 所示。Kendall Tau 相关性：0.6137523339513649 P 值：1.5991267354009107e-215 为了评估 Gscore 与人工评估之间的相关性，我们进行了一项研究，使用 11,000 个问题来测试 10 个大型语言模型，得出相应的 Gscores。为了评估相关性，我们从总集合中提取了 1,100 个问答对的子集。这些对来自 55 个不同的主题和由 10 个不同模型生成的响应。随后，我们邀请人类专家对这 1,100 对进行评分。最后一步是计算 Gscores 与专家人工评估之间的相关性。这种方法可确保对模型在各种主题上的表现进行全面且具有代表性的评估。人工专家参与评分为评估 Gscores 的有效性和可靠性提供了强有力的基准。抽样方案概述如下：分层随机抽样：鉴于科目多样性，总共有 55 个不同的科目，应首先按科目分层，以确保每个层内的代表性。在每个科目中，将采用随机抽样来选择问题，确保样本的多样性和代表性。
在这里插入图片描述

模型覆盖保证：从10个大型模型提供的答案中，对于每个选定的问题，将随机选择一个模型的答案纳入其中。这种方法确保分析涵盖所有参与模型的答案，从而提高评估的全面性。主题分布均衡：确保1100个抽样问题中每个主题的比例大致相当于其在11000个问题的总池中的比例。这种平衡保持了样本的代表性，避免了某些主题的过度代表或被忽略。为什么采用固定提示？一致性和可比性：固定提示确保评估过程的一致性，允许直接比较不同模型之间的结果。这种标准化对于公平评估各种模型的性能至关重要。变量控制：在科学研究中，控制变量是必不可少的。通过使用固定提示，研究人员可以消除不同提示导致的性能差异，从而更准确地评估模型的固有能力。可重复性：固定提示增强了实验的可重复性。其他研究人员可以使用相同的提示词重复实验，并验证或比较他们的结果。简化评估过程：使用固定提示简化了评估过程，使模型评估更容易理解，尤其是对于非专家用户而言。