汇总大语言模型LLM的评测基准数据集（BenchMarks）

文章目录

0. 引言
1. 知识与语言理解
- 1.1 MMLU
- 1.2 ARC
- 1.3 GLUE
- 1.4 Natural Questions
- 1.5 LAMBADA
- 1.5 HellaSwag
- 1.6 MultiNLI
- 1.7 SuperGLUE
- 1.8 TriviaQA
- 1.9 WinoGrande
- 1.10 SciQ
2. 推理能力
- 2.1 GSM8K
- 2.2 DROP
- 2.3 CRASS
- 2.4 RACE
- 2.5 BBH
- 2.6 AGIEval
- 2.7 BoolQ
3. 多轮开放式对话
- 3.1 MT-bench
- 3.2 QuAC
3. 综述抽取与生成能力
- 3.1 ACI-BENCH
- 3.2 MS-MARCO
- 3.3 QMSum
- 3.4 PIQA
4. 内容审核和叙事控制
- 4.1 ToxiGen
- 4.2 HHH
- 4.3 TruthfulQA
- 4.4 RAI
5. 编程能力
- 5.1 CodeXGLUE
- 5.2 HumanEval
- 5.3 MBPP

0. 引言

本文列出 llm 常见的一些 BenchMarks（评测基准）数据集，总有一款适合你！有用的话欢迎关注～

1. 知识与语言理解

1.1 MMLU

Massive Multitask Language Understanding，评测 57个不同学科的通用知识。

目的： 评估 LLM 在广泛主题领域的理解和推理能力。
相关： 非常适合需要广泛的世界知识和解决问题能力的多方面人工智能系统。
原文：《Measuring Massive Multitask Language Understanding》
资源：
- MMLU GitHub
- MMLU Dataset

1.2 ARC

AI2 Reasoning Challenge，测试小学科学问题的LLM，要求具备深厚的一般知识和推理能力。

目的： 评估回答需要逻辑推理的复杂科学问题的能力。
相关： 适用于教育人工智能应用程序、自动化辅导系统和一般知识评估。
原文：《Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge》
资源：
- ARC Dataset: HuggingFace
- ARC Dataset: Allen Institute

1.3 GLUE

General Language Understanding Evaluation，来自多个数据集的各种语言任务的集合，旨在衡量整体语言理解能力。

目的： 对不同语境下的语言理解能力进行全面评估。
相关： 对于需要高级语言处理的应用程序（如聊天机器人和内容分析）至关重要。
原文：《GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding》
资源：
- GLUE Homepage
- GLUE Dataset

1.4 Natural Questions

收集人们在谷歌上搜索的现实世界问题，与相关的维基百科页面配对以提取答案。

目的： 测试从网络资源中找到准确的长短答案的能力。
相关： 对于搜索引擎、信息检索系统和人工智能驱动的问答工具至关重要。
原文：《Natural Questions: A Benchmark for Question Answering Research》
资源：
- Natural Questions Homepage
- Natural Questions Dataset: Github

1.5 LAMBADA

LAnguage Modelling Broadened to Account for Discourse Aspects，测试语言模型基于长上下文理解和预测文本的能力。

目的： 评估模型对叙事的理解及其在文本生成中的预测能力。
相关： 对于人工智能在叙事分析、内容创作和长篇文本理解方面的应用非常重要。
原文：《The LAMBADA Dataset: Word prediction requiring a broad discourse context》
资源：
- LAMBADA Dataset: HuggingFace

1.5 HellaSwag

通过要求 LLM 以需要理解复杂细节的方式完成段落来测试自然语言推理。

目的： 评估模型生成符合上下文的文本延续的能力。
相关： 在内容创建、对话系统和需要高级文本生成功能的应用程序中很有用。
原文：《HellaSwag: Can a Machine Really Finish Your Sentence?》
资源：
- HellaSwag Dataset: GitHub

1.6 MultiNLI

Multi-Genre Natural Language Inference，由 433K 个句子对组成的基准，涵盖各种英语数据的流派，测试自然语言推理。

目的： 评估 LLM 根据陈述推理正确类别的能力。
相关： 对于需要高级文本理解和推理的系统至关重要，如自动推理和文本分析工具。
原文：《A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference》
资源：
- MultiNLI Homepage
- MultiNLI Dataset

1.7 SuperGLUE

GLUE 基准的高级版本，包含更具挑战性和多样性的语言任务。

目的： 评估语言理解和推理的更深层次。
相关： 对于需要高级语言处理能力的复杂人工智能系统非常重要。
原文：SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
资源：
- SuperGLUE Dataset: HuggingFace

1.8 TriviaQA

阅读理解测试，包含来自 Wikipedia 的复杂文本中的问题，要求进行情境分析。

目的： 评估在复杂文本中筛选上下文并找到准确答案的能力。
相关： 适用于知识提取、研究和详细内容分析方面的人工智能系统。
原文：《TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension》
资源：
- TriviaQA GitHub
- TriviaQa Dataset

1.9 WinoGrande

基于 Winograd Schema Challenge 的大规模问题集，测试句子中的上下文理解情境。

目的： 评估 LLM 掌握微妙上下文和文本细微变化的能力。
相关： 对于处理叙事分析、内容个性化和高级文本解释的模型至关重要。
原文：《WinoGrande: An Adversarial Winograd Schema Challenge at Scale》
资源：
- WinoGrande GitHub
- WinoGrande Dataset: HuggingFace

1.10 SciQ

主要包含物理、化学和生物学等自然科学的多项选择题。

目的： 测试回答基于科学的问题的能力，通常需要额外的支持文本。
相关： 适用于教育工具，尤其是在科学教育和知识测试平台中。
原文：《Crowdsourcing Multiple Choice Science Questions》
资源：
- SciQ Dataset: HuggingFace

2. 推理能力

2.1 GSM8K

包含 8.5K 个小学数学问题，需要基本到中级的数学运算。

目的： 测试 LLM 解决多步数学问题的能力。
相关性： 有助于评估人工智能解决基本数学问题的能力，在教育背景下很有价值。
原文： 《Training Verifiers to Solve Math Word Problems》
资源：
- GSM8K Dataset

2.2 DROP

Discrete Reasoning Over Paragraphs，一个对抗性创建的阅读理解基准，要求模型浏览参考文献并执行添加或排序等操作。

目的： 评估模型理解复杂文本和执行离散运算的能力。
相关： 适用于需要逻辑推理的高级教育工具和文本分析系统。
原文：《DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs》
资源：
- DROP Dataset

2.3 CRASS

Counterfactual Reasoning Assessment，评估 LLM 的反事实推理能力，重点关注“假设”场景。

目的： 评估模型根据给定数据理解和推理备选场景的能力。
相关： 对于人工智能在战略规划、决策和场景分析中的应用非常重要。
原文：《CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models》
资源：
- CRASS Dataset

2.4 RACE

Large-scale ReAding Comprehension Dataset From Examinations，来自中国学生参加的英语考试的阅读理解问题集。

目的： 测试 LLM 对复杂阅读材料的理解以及他们回答考试水平问题的能力。
相关： 在语言学习应用程序和考试准备教育系统中很有用。
原文：《RACE: Large-scale ReAding Comprehension Dataset From Examinations》
资源：
- RAC Dataset

2.5 BBH

Big-Bench Hard，BIG Bench的一个子集，专注于需要多步骤推理的最具挑战性的任务。

目的： 用需要高级推理技能的复杂任务挑战 LLM。
相关： 对于评估人工智能在复杂推理和解决问题方面的能力上限很重要。
原文：《Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them》
资源：
- BIG-Bench-Hard GitHub: Dataset and Prompts
- BBH Dataset: HuggingFace

2.6 AGIEval

一系列标准化考试，包括 GRE、GMAT、SAT、LSAT 和公务员考试等标准化测试的集合。

目的： 评估 LLM 在各种学术和专业场景中的推理能力和解决问题的技能。
相关： 有助于在标准化测试和专业资格背景下评估人工智能能力。
原文：《AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models》
资源：
- AGIEval Github: Dataset and Prompts
- AGIEval Datasets: HuggingFace

2.7 BoolQ

收集了来自谷歌搜索的15000多个真实的是/否问题，以及维基百科的文章。

目的： 测试 LLM 从可能不明确的上下文信息中推断正确答案的能力。
相关： 对于问答系统和基于知识的人工智能应用至关重要，准确的推理是关键。
原文：《BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions》
资源：
- BoolQ Dataset: HuggingFace

3. 多轮开放式对话

3.1 MT-bench

专为评估聊天助手在维持多轮对话中的熟练程度而设计。

目的： 测试模型在多个回合中进行连贯和上下文相关对话的能力。
相关： 对于开发复杂的会话代理和聊天机器人至关重要。
原文：《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》
资源：
- MT-bench Human Annotation Dataset

3.2 QuAC

Question Answering in Context，包含14000个对话和100000个问答对，模拟学生与教师的互动。

目的： 在对话中用上下文相关的、有时无法回答的问题来挑战 LLM。
相关： 适用于对话式人工智能、教育软件和上下文感知信息系统。
原文：《QuAC : Question Answering in Context》
资源：
- QuAC Homepage and Dataset

3. 综述抽取与生成能力

3.1 ACI-BENCH

Ambient Clinical Intelligence Benchmark，包含来自各个医疗领域的医生-病人对话和相关的临床笔记。

目的： 挑战模型根据会话数据准确生成临床笔记。
相关： 对医疗保健中的人工智能应用至关重要，尤其是在自动化文档和医疗分析中。
原文：《ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation》
资源：
- ACI-BENCH Dataset

3.2 MS-MARCO

MAchine Reading COmprehension Dataset，从真实网络查询中提取的自然语言问题和答案的大规模集合。

目的： 测试模型准确理解和响应真实世界查询的能力。
相关： 对于搜索引擎、问答系统和其他面向消费者的人工智能应用程序至关重要。
原文：《MS MARCO: A Human Generated MAchine Reading COmprehension Dataset》
资源：
- MS-MARCO Dataset

3.3 QMSum

Query-based Multi-domain Meeting Summarization，针对特定查询从会议内容中提取和总结重要信息的基准。

目的： 评估模型从会议内容中提取和总结重要信息的能力。
相关： 适用于商业智能工具、会议分析应用程序和自动摘要系统。
原文：《QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization》
资源：
- QMSum Dataset

3.4 PIQA

Physical Interaction: Question Answering，通过假设性场景和解决方案测试对物理世界的知识和理解。

目的： 衡量模型处理物理交互场景的能力。
相关： 对于机器人、物理模拟和实际问题解决系统中的人工智能应用非常重要。
原文：《PIQA: Reasoning about Physical Commonsense in Natural Language》
资源：
- PIQA Dataset: GitHub

4. 内容审核和叙事控制

4.1 ToxiGen

一个关于少数群体的恶毒和善意言论的数据集，重点关注隐含的仇恨言论。

目的： 测试模型识别和避免产生有毒内容的能力。
相关： 对内容审核系统、社区管理和人工智能伦理研究至关重要。
原文：《ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection》
资源：
- TOXIGEN Code and Prompts: GitHub
- TOXIGEN Dataset: HuggingFace

4.2 HHH

Helpfulness, Honesty, Harmlessness，评估语言模型与有用性、诚实性和无害性等道德标准的一致性。

目的： 评估模型在交互场景中的道德反应。
相关： 对于确保人工智能系统促进积极互动和遵守道德标准至关重要。
原文：《A General Language Assistant as a Laboratory for Alignment》
资源：
- HH-RLHF Datasets: GitHub
- 最近进程:
  - 《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》
  - 《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》

4.3 TruthfulQA

评估 LLM 在回答容易产生错误信念和偏见的问题时的真实性的基准。

目的： 测试模型提供准确无偏信息的能力。
相关： 对于提供准确和公正信息至关重要的人工智能系统来说很重要，例如在教育或咨询方面。
原文：TruthfulQA: Measuring How Models Mimic Human Falsehoods
资源：
- TruthfulQA Dataset: GitHub

4.4 RAI

Responsible AI，用于评估聊天优化模型在会话环境中的安全性的框架

目的： 评估人工智能驱动的对话中潜在的有害内容、IP泄露和安全漏洞。
相关： 对于开发安全可靠的对话式人工智能应用程序至关重要，尤其是在敏感领域。
原文：《A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications》

5. 编程能力

5.1 CodeXGLUE

评估LLM在代码理解和生成、代码补全和翻译等各种任务中的能力。

目的： 评估代码智能，包括理解、修复和解释代码。
相关： 对于软件开发、代码分析和技术文档中的应用程序至关重要。
原文：《CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation》
资源：
- CodeXGLUE Dataset: GitHub