汇总大语言模型LLM的评测基准数据集(BenchMarks)

news2024/11/24 15:33:50

文章目录

  • 0. 引言
  • 1. 知识与语言理解
    • 1.1 MMLU
    • 1.2 ARC
    • 1.3 GLUE
    • 1.4 Natural Questions
    • 1.5 LAMBADA
    • 1.5 HellaSwag
    • 1.6 MultiNLI
    • 1.7 SuperGLUE
    • 1.8 TriviaQA
    • 1.9 WinoGrande
    • 1.10 SciQ
  • 2. 推理能力
    • 2.1 GSM8K
    • 2.2 DROP
    • 2.3 CRASS
    • 2.4 RACE
    • 2.5 BBH
    • 2.6 AGIEval
    • 2.7 BoolQ
  • 3. 多轮开放式对话
    • 3.1 MT-bench
    • 3.2 QuAC
  • 3. 综述抽取与生成能力
    • 3.1 ACI-BENCH
    • 3.2 MS-MARCO
    • 3.3 QMSum
    • 3.4 PIQA
  • 4. 内容审核和叙事控制
    • 4.1 ToxiGen
    • 4.2 HHH
    • 4.3 TruthfulQA
    • 4.4 RAI
  • 5. 编程能力
    • 5.1 CodeXGLUE
    • 5.2 HumanEval
    • 5.3 MBPP


0. 引言

本文列出 llm 常见的一些 BenchMarks(评测基准)数据集,总有一款适合你!有用的话欢迎关注~

1. 知识与语言理解

1.1 MMLU

Massive Multitask Language Understanding,评测 57个不同学科的通用知识。

  • 目的: 评估 LLM 在广泛主题领域的理解和推理能力。
  • 相关: 非常适合需要广泛的世界知识和解决问题能力的多方面人工智能系统。
  • 原文:《Measuring Massive Multitask Language Understanding》
  • 资源:
    • MMLU GitHub
    • MMLU Dataset

1.2 ARC

AI2 Reasoning Challenge,测试小学科学问题的LLM,要求具备深厚的一般知识和推理能力。

  • 目的: 评估回答需要逻辑推理的复杂科学问题的能力。
  • 相关: 适用于教育人工智能应用程序、自动化辅导系统和一般知识评估。
  • 原文:《Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge》
  • 资源:
    • ARC Dataset: HuggingFace
    • ARC Dataset: Allen Institute

1.3 GLUE

General Language Understanding Evaluation,来自多个数据集的各种语言任务的集合,旨在衡量整体语言理解能力。

  • 目的: 对不同语境下的语言理解能力进行全面评估。
  • 相关: 对于需要高级语言处理的应用程序(如聊天机器人和内容分析)至关重要。
  • 原文:《GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding》
  • 资源:
    • GLUE Homepage
    • GLUE Dataset

1.4 Natural Questions

收集人们在谷歌上搜索的现实世界问题,与相关的维基百科页面配对以提取答案。

  • 目的: 测试从网络资源中找到准确的长短答案的能力。
  • 相关: 对于搜索引擎、信息检索系统和人工智能驱动的问答工具至关重要。
  • 原文:《Natural Questions: A Benchmark for Question Answering Research》
  • 资源:
    • Natural Questions Homepage
    • Natural Questions Dataset: Github

1.5 LAMBADA

LAnguage Modelling Broadened to Account for Discourse Aspects,测试语言模型基于长上下文理解和预测文本的能力。

  • 目的: 评估模型对叙事的理解及其在文本生成中的预测能力。
  • 相关: 对于人工智能在叙事分析、内容创作和长篇文本理解方面的应用非常重要。
  • 原文:《The LAMBADA Dataset: Word prediction requiring a broad discourse context》
  • 资源:
    • LAMBADA Dataset: HuggingFace

1.5 HellaSwag

通过要求 LLM 以需要理解复杂细节的方式完成段落来测试自然语言推理。

  • 目的: 评估模型生成符合上下文的文本延续的能力。
  • 相关: 在内容创建、对话系统和需要高级文本生成功能的应用程序中很有用。
  • 原文:《HellaSwag: Can a Machine Really Finish Your Sentence?》
  • 资源:
    • HellaSwag Dataset: GitHub

1.6 MultiNLI

Multi-Genre Natural Language Inference,由 433K 个句子对组成的基准,涵盖各种英语数据的流派,测试自然语言推理。

  • 目的: 评估 LLM 根据陈述推理正确类别的能力。
  • 相关: 对于需要高级文本理解和推理的系统至关重要,如自动推理和文本分析工具。
  • 原文:《A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference》
  • 资源:
    • MultiNLI Homepage
    • MultiNLI Dataset

1.7 SuperGLUE

GLUE 基准的高级版本,包含更具挑战性和多样性的语言任务。

  • 目的: 评估语言理解和推理的更深层次。
  • 相关: 对于需要高级语言处理能力的复杂人工智能系统非常重要。
  • 原文:SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
  • 资源:
    • SuperGLUE Dataset: HuggingFace

1.8 TriviaQA

阅读理解测试,包含来自 Wikipedia 的复杂文本中的问题,要求进行情境分析。

  • 目的: 评估在复杂文本中筛选上下文并找到准确答案的能力。
  • 相关: 适用于知识提取、研究和详细内容分析方面的人工智能系统。
  • 原文:《TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension》
  • 资源:
    • TriviaQA GitHub
    • TriviaQa Dataset

1.9 WinoGrande

基于 Winograd Schema Challenge 的大规模问题集,测试句子中的上下文理解情境。

  • 目的: 评估 LLM 掌握微妙上下文和文本细微变化的能力。
  • 相关: 对于处理叙事分析、内容个性化和高级文本解释的模型至关重要。
  • 原文:《WinoGrande: An Adversarial Winograd Schema Challenge at Scale》
  • 资源:
    • WinoGrande GitHub
    • WinoGrande Dataset: HuggingFace

1.10 SciQ

主要包含物理、化学和生物学等自然科学的多项选择题。

  • 目的: 测试回答基于科学的问题的能力,通常需要额外的支持文本。
  • 相关: 适用于教育工具,尤其是在科学教育和知识测试平台中。
  • 原文:《Crowdsourcing Multiple Choice Science Questions》
  • 资源:
    • SciQ Dataset: HuggingFace

2. 推理能力

2.1 GSM8K

包含 8.5K 个小学数学问题,需要基本到中级的数学运算。

  • 目的: 测试 LLM 解决多步数学问题的能力。
  • 相关性: 有助于评估人工智能解决基本数学问题的能力,在教育背景下很有价值。
  • 原文: 《Training Verifiers to Solve Math Word Problems》
  • 资源:
    • GSM8K Dataset

2.2 DROP

Discrete Reasoning Over Paragraphs,一个对抗性创建的阅读理解基准,要求模型浏览参考文献并执行添加或排序等操作。

  • 目的: 评估模型理解复杂文本和执行离散运算的能力。
  • 相关: 适用于需要逻辑推理的高级教育工具和文本分析系统。
  • 原文:《DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs》
  • 资源:
    • DROP Dataset

2.3 CRASS

Counterfactual Reasoning Assessment,评估 LLM 的反事实推理能力,重点关注“假设”场景。

  • 目的: 评估模型根据给定数据理解和推理备选场景的能力。
  • 相关: 对于人工智能在战略规划、决策和场景分析中的应用非常重要。
  • 原文:《CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models》
  • 资源:
    • CRASS Dataset

2.4 RACE

Large-scale ReAding Comprehension Dataset From Examinations,来自中国学生参加的英语考试的阅读理解问题集。

  • 目的: 测试 LLM 对复杂阅读材料的理解以及他们回答考试水平问题的能力。
  • 相关: 在语言学习应用程序和考试准备教育系统中很有用。
  • 原文:《RACE: Large-scale ReAding Comprehension Dataset From Examinations》
  • 资源:
    • RAC Dataset

2.5 BBH

Big-Bench Hard,BIG Bench的一个子集,专注于需要多步骤推理的最具挑战性的任务。

  • 目的: 用需要高级推理技能的复杂任务挑战 LLM。
  • 相关: 对于评估人工智能在复杂推理和解决问题方面的能力上限很重要。
  • 原文:《Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them》
  • 资源:
    • BIG-Bench-Hard GitHub: Dataset and Prompts
    • BBH Dataset: HuggingFace

2.6 AGIEval

一系列标准化考试,包括 GRE、GMAT、SAT、LSAT 和公务员考试等标准化测试的集合。

  • 目的: 评估 LLM 在各种学术和专业场景中的推理能力和解决问题的技能。
  • 相关: 有助于在标准化测试和专业资格背景下评估人工智能能力。
  • 原文:《AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models》
  • 资源:
    • AGIEval Github: Dataset and Prompts
    • AGIEval Datasets: HuggingFace

2.7 BoolQ

收集了来自谷歌搜索的15000多个真实的是/否问题,以及维基百科的文章。

  • 目的: 测试 LLM 从可能不明确的上下文信息中推断正确答案的能力。
  • 相关: 对于问答系统和基于知识的人工智能应用至关重要,准确的推理是关键。
  • 原文:《BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions》
  • 资源:
    • BoolQ Dataset: HuggingFace

3. 多轮开放式对话

3.1 MT-bench

专为评估聊天助手在维持多轮对话中的熟练程度而设计。

  • 目的: 测试模型在多个回合中进行连贯和上下文相关对话的能力。
  • 相关: 对于开发复杂的会话代理和聊天机器人至关重要。
  • 原文:《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》
  • 资源:
    • MT-bench Human Annotation Dataset

3.2 QuAC

Question Answering in Context,包含14000个对话和100000个问答对,模拟学生与教师的互动。

  • 目的: 在对话中用上下文相关的、有时无法回答的问题来挑战 LLM。
  • 相关: 适用于对话式人工智能、教育软件和上下文感知信息系统。
  • 原文:《QuAC : Question Answering in Context》
  • 资源:
    • QuAC Homepage and Dataset

3. 综述抽取与生成能力

3.1 ACI-BENCH

Ambient Clinical Intelligence Benchmark,包含来自各个医疗领域的医生-病人对话和相关的临床笔记。

  • 目的: 挑战模型根据会话数据准确生成临床笔记。
  • 相关: 对医疗保健中的人工智能应用至关重要,尤其是在自动化文档和医疗分析中。
  • 原文:《ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation》
  • 资源:
    • ACI-BENCH Dataset

3.2 MS-MARCO

MAchine Reading COmprehension Dataset, 从真实网络查询中提取的自然语言问题和答案的大规模集合。

  • 目的: 测试模型准确理解和响应真实世界查询的能力。
  • 相关: 对于搜索引擎、问答系统和其他面向消费者的人工智能应用程序至关重要。
  • 原文:《MS MARCO: A Human Generated MAchine Reading COmprehension Dataset》
  • 资源:
    • MS-MARCO Dataset

3.3 QMSum

Query-based Multi-domain Meeting Summarization,针对特定查询从会议内容中提取和总结重要信息的基准。

  • 目的: 评估模型从会议内容中提取和总结重要信息的能力。
  • 相关: 适用于商业智能工具、会议分析应用程序和自动摘要系统。
  • 原文:《QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization》
  • 资源:
    • QMSum Dataset

3.4 PIQA

Physical Interaction: Question Answering,通过假设性场景和解决方案测试对物理世界的知识和理解。

  • 目的: 衡量模型处理物理交互场景的能力。
  • 相关: 对于机器人、物理模拟和实际问题解决系统中的人工智能应用非常重要。
  • 原文:《PIQA: Reasoning about Physical Commonsense in Natural Language》
  • 资源:
    • PIQA Dataset: GitHub

4. 内容审核和叙事控制

4.1 ToxiGen

一个关于少数群体的恶毒和善意言论的数据集,重点关注隐含的仇恨言论。

  • 目的: 测试模型识别和避免产生有毒内容的能力。
  • 相关: 对内容审核系统、社区管理和人工智能伦理研究至关重要。
  • 原文:《ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection》
  • 资源:
    • TOXIGEN Code and Prompts: GitHub
    • TOXIGEN Dataset: HuggingFace

4.2 HHH

Helpfulness, Honesty, Harmlessness,评估语言模型与有用性、诚实性和无害性等道德标准的一致性。

  • 目的: 评估模型在交互场景中的道德反应。
  • 相关: 对于确保人工智能系统促进积极互动和遵守道德标准至关重要。
  • 原文:《A General Language Assistant as a Laboratory for Alignment》
  • 资源:
    • HH-RLHF Datasets: GitHub
    • 最近进程:
      • 《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》
      • 《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》

4.3 TruthfulQA

评估 LLM 在回答容易产生错误信念和偏见的问题时的真实性的基准。

  • 目的: 测试模型提供准确无偏信息的能力。
  • 相关: 对于提供准确和公正信息至关重要的人工智能系统来说很重要,例如在教育或咨询方面。
  • 原文:TruthfulQA: Measuring How Models Mimic Human Falsehoods
  • 资源:
    • TruthfulQA Dataset: GitHub

4.4 RAI

Responsible AI,用于评估聊天优化模型在会话环境中的安全性的框架

  • 目的: 评估人工智能驱动的对话中潜在的有害内容、IP泄露和安全漏洞。
  • 相关: 对于开发安全可靠的对话式人工智能应用程序至关重要,尤其是在敏感领域。
  • 原文:《A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications》

5. 编程能力

5.1 CodeXGLUE

评估LLM在代码理解和生成、代码补全和翻译等各种任务中的能力。

  • 目的: 评估代码智能,包括理解、修复和解释代码。
  • 相关: 对于软件开发、代码分析和技术文档中的应用程序至关重要。
  • 原文:《CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation》
  • 资源:
    • CodeXGLUE Dataset: GitHub

5.2 HumanEval

包含编程挑战,评估 LLM 基于指令编写功能性代码的能力。

  • 目的: 测试根据给定需求生成正确有效的代码。
  • 相关: 对于自动化代码生成工具、编程助手和编码教育平台非常重要。
  • 原文:《Evaluating Large Language Models Trained on Code》
  • 资源:
    • HumanEval Dataset: GitHub

5.3 MBPP

Mostly Basic Python Programming,包括1000个适合初级程序员的 Python 编程问题。

  • 目的: 评估解决基本编程任务的熟练程度和对 Python的理解。
  • 相关: 适用于初级编码教育、自动代码生成和入门级编程测试。
  • 原文:《Program Synthesis with Large Language Models》
  • 资源:
    • MBPP Dataset: HuggingFace

欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873945.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文弄懂梯度下降算法

1、引言 在上一篇文章中,我们介绍了如何使用线性回归和成本损失函数为房价数据找到最拟合的线。不过,我们也看到,测试多个截距值可能既繁琐又低效。在本文中,我们将深入探讨梯度下降算法,这是一种更加强大的技术&…

three.js场景三元素

three.js是一个基于WebGL的轻量级、易于使用的3D库。它极大地简化了WebGL的复杂细节,降低了学习成本,同时提高了性能。 three.js的三大核心元素: 场景(Scene) 场景是一个三维空间,是所有物品的容器。可以将…

桌面提醒工具哪个好?简单好用的便签提醒app推荐

在日常的生活和工作中,我们经常会遇到各种各样的事情,有时候可能会遗忘一些重要的事情。这个时候,一个简单好用的便签提醒工具就显得尤为重要了。那么,哪款桌面提醒工具比较好用呢?下面,就为大家推荐一款我…

新手教程系列 -- SQLAlchemy对同一张表联表两次

在开发过程中,我们经常会遇到对同一张表进行多次联表查询的需求。比如在查询航线时,我们希望将起飞和降落的机场名称代入结果中。为了实现这一目标,机场名称统一存放在 AirPort 表中。下面,我们将介绍如何通过 SQLAlchemy 实现这一需求。 问题描述 一般情况我们第一时间会…

AI 激发算力需求暴增,施耐德电气解码智算中心发展

随着全球碳达峰目标的持续推进,各行各业都在加速绿色转型的步伐,尤其是高耗能产业更是备受关注。人工智能行业以其迅猛的发展速度令人瞩目,它所带来的不仅是算力需求的飙升,更是日益凸显的能耗问题。 目前,人工智能预…

11.常见的Transforms(二)

常见的Transforms(二) 1.Resize() 的使用 1.1 作用 resize可以把输入的图片按照输入的参数值重新设定大小。 1.2 所需参数 需要输入想要重新设定的图片大小。 输入的参数类型可以为包含长和宽数值的一个序列(h,w)或者一个整…

grpc学习golang版( 八、双向流示例 )

系列文章目录 第一章 grpc基本概念与安装 第二章 grpc入门示例 第三章 proto文件数据类型 第四章 多服务示例 第五章 多proto文件示例 第六章 服务器流式传输 第七章 客户端流式传输 第八章 双向流示例 文章目录 一、前言二、定义proto文件三、编写server服务端四、编写client客…

远程监控在工业机械安全操作中的应用——以汽车起重机为例

远程监控技术,作为现代信息技术的重要分支,正逐渐在各个领域展现其独特的价值。从字面上理解,远程监控可以分为“监”和“控”两部分:其中,“监”指的是通过网络进行信息的获取与传递,实现远程状态的实时感…

Dominate_一个用于生成和操作 HTML 文档的 Python 库

目录 01初识 Dominate 什么是 Dominate? 为什么选择 Dominate? 安装与配置 02Dominate 的基本使用 创建简单的 HTML 文档 添加表格 嵌套结构 03Dominate 的高级功能 动态内容生成 使用…

第十九课,编写并调用自定义函数

一,函数五大组成部分 因为其重要性故再此强调,参数列表可以为任意个数,返回值只能有一个(请初学者暂时这样认为) 特殊的,如果不需要返回结果,用None替代! 二,编写自定义…

JDK线程池ThreadPoolExecutor运行原理详解

jdk线程池,是java后端处理异步任务的主要解决方案,使用广泛。jdk线程池相关的面经,网上很多,但是鱼龙混杂,很多瞎写的。要想真正了解原理,还是要看源码。所以,写一篇文章,深入的了解一下 文章目…

web项目打包成可以离线跑的exe软件

目录 引言打开PyCharm安装依赖创建 Web 应用运行应用程序打包成可执行文件结语注意事项 引言 在开发桌面应用程序时,我们经常需要将网页集成到应用程序中。Python 提供了多种方法来实现这一目标,其中 pywebview 是一个轻量级的库,它允许我们…

【渗透工具】内网多级代理工具Venom详细使用教程

免责申明 本公众号的技术文章仅供参考,此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息…

SecureBoost:一种无损的联邦学习框架

SecureBoost:一种无损的联邦学习框架 文章目录 SecureBoost:一种无损的联邦学习框架1 引言2 预备知识与相关工作3 问题描述4 联邦学习与SecureBoost5 联邦推理6 无损属性的理论分析7 安全讨论8 实验9 结论 摘要——用户隐私保护是机器学习中的一个重要问…

MySQL高级-SQL优化- limit优化(覆盖索引加子查询)

文章目录 0、limit 优化0.1、从表 tb_sku 中按照 id 列进行排序,然后跳过前 9000000 条记录0.2、通过子查询获取按照 id 排序后的第 9000000 条开始的 10 条记录的 id 值,然后在原表中根据这些 id 值获取对应的完整记录 1、上传5个sql文件到 /root2、查看…

AV Foundation学习笔记二 - 播放器

ASSets AVFoundation框架的最核心的类是AVAsset,该类是整个AVFoundation框架设计的中心。AVAsset是一个抽象的(意味着你不能调用AVAsset的alloc或者new方法来创建一个AVAsset实例对象,而是通过该类的静态方法来创建实例对象)、不…

Python:探索高效、智能的指纹识别技术(简单易懂)

目录 概括 导入库 函数一 参数: 函数二 函数三 主函数 运行结果 src: model_base 7.bmp ​编辑 总结 概括 指纹识别是一种基于人体生物特征的身份验证技术。它通过捕捉和分析手指上的独特纹路和细节特征,实现高准确度的身份识别。…

多地高温持续“热力”爆表 约克VRF中央空调带你清凉舒爽一夏

“出门5分钟,流汗2小时”,夏季高温天气,怎一个“热”字了得?6月以来,我国多地迎来高温“炙烤”,全国出现40℃以上高温的范围持续增加,随着中央气象台高温预警持续拉响,人们都很纳闷:…

springboot + Vue前后端项目(第二十一记)

项目实战第二十一记 写在前面1. springboot文件默认传输限制2. 安装视频插件包命令3. 前台Video.vue4. 创建视频播放组件videoDetail.vue5. 路由6. 效果图总结写在最后 写在前面 本篇主要讲解系统集成视频播放插件 1. springboot文件默认传输限制 在application.yml文件中添…

5. Spring IoCDI ★ ✔

5. Spring IoC&DI 1. IoC & DI ⼊⻔1.1 Spring 是什么?★ (Spring 是包含了众多⼯具⽅法的 IoC 容器)1.1.1 什么是容器?1.1.2 什么是 IoC?★ (IoC: Inversion of Control (控制反转))总…