论文翻译:arxiv-2024 Benchmarking Benchmark Leakage in Large Language Models

news2024/11/13 9:01:52

Benchmarking Benchmark Leakage in Large Language Models
https://arxiv.org/abs/2404.18824

在大型语言模型中基准测试泄露的基准测试

文章目录

  • 在大型语言模型中基准测试泄露的基准测试
  • 摘要
  • 1 引言

在这里插入图片描述
在这里插入图片描述

图1:不同模型在基准测试的训练集上进行逐字训练相对于测试集以增强能力(基于PPL和N-gram准确性测量)的相对可能性。表现出接近零可能性的模型表明要么没有训练和测试分割,要么在训练过程中使用了这两个分割。这个指标并不意味着作弊,而是表明在(预)训练阶段可能使用了基准测试数据;虽然使用基准测试来增强能力是可以接受的,但缺乏相关文档可能会降低透明度,可能导致不公平的比较,并阻碍该领域的健康发展。

摘要

随着预训练数据使用的不断扩大,基准数据集泄露现象变得越来越突出,这种情况因大型语言模型(LLMs)训练过程的不透明性以及监督数据的经常未披露的包含而加剧。这个问题扭曲了基准测试的有效性,并促进了可能不公平的比较,阻碍了该领域的健康发展。为了解决这个问题,我们引入了一个利用困惑度和N-gram准确性这两个简单且可扩展的指标来衡量模型在基准测试上的预测精度的检测流程,以识别潜在的数据泄露。通过在数学推理的背景下分析31个LLMs,我们揭示了大量的训练甚至测试集误用的情况,导致可能不公平的比较。这些发现促使我们提出了关于模型文档、基准设置和未来评估的一些建议。值得注意的是,我们提出了“基准透明度卡片”(表19),以鼓励清晰地记录基准测试的使用情况,促进LLMs的透明度和健康发展。我们已经公开了我们的排行榜、流程实现和模型预测,以促进未来的研究。
代码:https://github.com/GAIR-NLP/benbench
主页:https://gair-nlp.github.io/benbench
案例研究演示:https://huggingface.co/spaces/GAIR/benbench

1 引言

大型语言模型(LLMs)的快速发展导致了评估方法/协议(Chang等人,2024年)的显著滞后。加上LLMs训练的不透明性,这可能导致个人很难对评估结果形成客观的评估(Bommasani等人,2023年)。这高估了基准测试的有效性,忽视了潜在的不公平比较因素,并最终导致错过了科学上有意义的方向,浪费了社会资源。特别是,许多模型在预训练阶段明确涉及了监督数据,如GLM-130B(Zeng等人,2023年)、Qwen(Bai等人,2023年)、Nemotron-415B(Parmar等人,2024年)、InternLM-2(Cai等人,2024年)、MiniCPM(Hu等人,2024年)等。这一背景为讨论基准数据泄露的关键问题设定了舞台。随着对这些基准测试的依赖性增加,它们可能无意中被纳入LLMs的训练数据中,从而破坏了评估的完整性并复杂化了真正的能力评估。
在探索这个问题时,选择一个合适的测试平台至关重要。理想的测试平台应该表现出特定的特征:(1)它应该包括训练集和测试集,允许受控比较;(2)在这个基准测试上提高性能应该是固有的挑战,且有效的数据集有限。这种稀缺性增加了开发者使用基准数据来提高性能的诱惑;(3)它也应该引起广泛的兴趣,确保它是评估流行模型(如GPT-4(OpenAI,2023年)、Claude-3(Anthropic,2024年)等)的标准度量。鉴于这些标准,数学推理基准数据集GSM8K(Cobbe等人,2021年)和MATH(Hendrycks等人,2021b)成为我们测试平台的合适选择,它们允许我们深入研究数据泄露,但也提供了一个相关且具有挑战性的环境。我们使用这些数据集的主要目的是挖掘潜在的基准泄露,提高语言模型开发的透明度。
鉴于训练数据和模型细节通常是不透明的,且泄露检测受到诸如模型大小和训练策略等各种因素的影响,检测基准泄露并不是一项简单的任务。在这项工作中,我们不是在追求系统开发中的技术贡献;相反,我们试图鼓励这个领域的健康发展,特别是通过数学推理任务的视角,在以下方面:(1)总结各种预训练行为和检测基准泄露的挑战(见第2节):数据泄露可能在各种场景中发生,其检测受到不可靠假设、模型大小、训练策略、未知训练数据甚至无法访问的模型权重等多种因素的影响。(2)提出用于估计预训练行为的检测流程(见第3节):我们引入了一个简单、计算效率高且可扩展的流程,利用两个基本但有洞察力的原子指标:困惑度和N-gram准确性。这些指标有效地概括了语言建模的本质,分别从连续和离散的角度捕捉其细微差别。通过改写基准测试以创建不同的参考版本,我们可以检测模型的原子指标的差异,从而识别潜在的数据泄露。这个流程的有效性得到了彻底的元实验的支持(见第4节)。(3)现有模型的泄露分析(第5节):我们将调查扩展到分析现有模型(即,31个开源LLMs),揭示除了先前确定的泄露外,许多(即,大约一半)包括知名语言模型,可能无意中利用训练数据来提高它们在数学推理任务上的性能,导致不公平的优势。此外,我们的指标甚至可以进行实例级检测,揭示了许多模型中测试集泄露的可能性(见第5.3节)。例如,我们发现Qwen1.8B可以准确预测GSM8K训练集中的223个示例中的所有5-gram,以及MATH训练集中的67个,甚至在MATH测试集中还有额外的25个正确预测。(4)关于模型文档、基准设置和未来评估的建议(见第6节):基于这些发现,我们提出了包括模型文档、基准构建、公共基准访问和多角度评估在内的建议。我们特别强调模型文档的方面;我们建议模型在发布时应附带一个文档,记录是否使用了基准数据进行特定的性能提升以及是否进行了任何数据增强。为此,我们引入了基准透明度卡片(见第A.4节和表19),以促进这一过程,希望它能够被广泛采用,以促进LLMs的透明度和健康发展。
这些发现强调了我们在开发和评估语言模型的方法上进行范式转变的紧迫性。通过精确定位潜在的数据泄露,我们的工作倡导在模型开发中实现更大的透明度和公平性,引导社区朝着更道德和有效的研究方法发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2118876.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

综合型数据防泄露系统 | 专业企业数据安全保护 | 天锐DLP

天 .锐 DLP是一款融合数据泄露防护、终端安全管理、网络准入控制以及态势感知等为一体的的综合型数据防泄露系统,拥有灵活的策略机制以及丰富的模块组合,可帮助大中型企事业单位最大化程度实现数据安全管控与防护。 【地址:点击了解天锐股份…

数学建模强化宝典(13)M-K检验法

前言 M-K检验法,全称为Mann-Kendall检验法,是一种非参数的假设检验方法,广泛应用于时间序列数据的趋势性变化检验,特别是气候序列中的趋势分析和突变点检测。以下是对M-K检验法的详细介绍: 一、定义与背景 M-K检验法由…

SD 敢达单机 +AI 对战整合版 V2.0+ 无需虚拟机

前言 今天给大家带来一款单机游戏的架设:SD 敢达 AI 对战整合版 V2.0 单机安装教程。 另外:本人承接各种游戏架设(单机联网) 本人为了学习和研究软件内含的设计思想和原理,带了架设教程仅供娱乐。 教程是本人亲自搭…

鸿蒙轻内核A核源码分析系列四(3) 虚拟内存

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 轻内核A核源码分析系列一 数据结构-双向循环链表 轻内核A核源码分析系列二 数据结构-位图操作 轻内核A核源码分析系列三 物理内存(1&#xff0…

MybatisPlus 快速入门

目录 简介 安装 Spring Boot2 Spring Boot3 Spring 配置 Spring Boot 工程 Spring 工程 常见注解 条件构造器 流式查询 使用示例 批量操作 使用示例 自定义SQL Service接口 CRUD 扩展功能 代码生成 安装插件 通用枚举 配置枚举处理器 插件功能 配置示例…

STM32 RTC实时时钟

RTC实时时钟 BKP可以在VBAT维持供电时,完成主电源掉电时,保存少量数据的任务。备份寄存器和VBAT引脚同时存在,更多是为了服务RTC的。 目前,Linux、Windows、安卓这些系统,底层的计时系统都是使用的Unix时间戳&#xf…

隔壁老樊2024全国巡回演唱会重磅来袭,首站广州正式官宣!

汹涌人潮将城市填满,斑驳心绪漂浮在时间之隙,当生活的喜悲逐渐演化成歌,天空将自己负载的缄默倾泻,那些或酸涩、或热烈的点滴滑落心海,那层悬挂在「我」与世界分野的无形壁垒,渐也被曙光渗透消融。 提炼生…

vivado 时间汇总报告

步骤7:时间汇总报告 定时路径在时钟元素处开始和结束。输入和输出端口不是顺序的 元素,默认情况下,Vivado时序分析不会对进出I/O端口的路径进行计时 设计,除非指定了输入/输出延迟约束。 在此步骤中,您将在Vivado中生成…

【Vue】关于Vue3的生命周期

目录 Vue3中新增了一个setup生命周期函数:(1) setup执行的时机是在beforeCreate生命周期函数之前执行,在setup函数中是不能通过this来获取实例的;(2) 为了命名的统一性,将beforeDestroy 改名为 beforeUnmount,destroye…

MySQL数据库(初始上)

什么是MySQL MySQL是一个客户端——服务器结构的程序,MySQL的服务器是真正的本体,负责保存和管理数据,数据存储在硬盘上。数据库指的是逻辑上数据的集合,一个MySQL服务器上可以有很多表,把有关连的连到一起就构成了一…

SAP 免费学习网站推荐

1、https://www.guru99.com/ 可以看到有很多的开发语言可以学习。其中就有SAP。 点击SAP菜单后,可以看到每个模块的操作 每个模块下面都有操作的截图,结合翻译软件看的话很容易看懂 2、https://community.sap.com/ 这个是SAP官方的社区&#xff0c…

中国各县域城乡居民收入数据集(2000-2022年)

中国各县域的城乡居民收入是衡量地方经济社会发展水平的关键指标,对于理解区域内的经济活力、居民生活水平以及城乡差距具有重要意义。城镇居民人均可支配收入与农村居民人均可支配收入反映了不同群体的经济状况,前者通常较高,后者则可能受到…

Where I can save my openai-apikey safely for my flutter app

题意:我可以在哪里安全地保存我的 OpenAI API 密钥用于我的 Flutter 应用 问题背景: I am trying using ability of openai for my flutter app, but for now I dont have experience to save apikey safely and efficiently etc. I learned that I can…

【Canvas与电脑桌面壁纸】L形交错十字桌面(1920*1080)

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>L形交错十字桌面</title><style type"text/css"…

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统 在产品将要上线之前&#xff0c;需要制作不同类型格式的根文件系统 在产品研发阶段&#xff0c;我们还是需要使用nfs的方式挂载根文件系统 优点&#xff1a;可以直接在上位机中修改文件系统内容&#xff0c;延长EMMC的寿命 【1】重启上位机nfs服…

业务架构解构与实践

往期回顾 >> CIO要懂业务架构&#xff0c;再谈业务架构的定义与作用&#xff0c;附业务架构教程下载 为什么要坚持先业务后IT&#xff1f;附71页PPT:企业架构及典型设计 为什么说“业务架构师”是ITBP的最佳人选&#xff1f; 业务架构之建模方法 业务架构的伴侣&…

线程安全问题和锁

所属专栏&#xff1a;Java学习 1. 线程的状态 新建&#xff08;New&#xff09;状态&#xff1a;当一个线程对象被创建&#xff0c;但还未调用 start () 方法启动时&#xff0c;处于新建状态。此时线程仅仅是一个 Java 对象&#xff0c;系统尚未为其分配资源。 就绪&am…

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入&#xff08;Embedding&#xff09;方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节&#xff1a;嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以…

Model-based RL动态规划(基于价值、基于策略,泛化迭代)

白盒环境和黑盒环境 白盒环境&#xff1a;知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a)&#xff1a;   白盒环境下的学习相当于直接给出了有监督学习的数据分布&#xff08;就是有了目标靶子&#xff09;&#xff0c;不需要采样了&#xff0c;直接最小…

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中&#xff0c;我们经常会遇到这样的情况&#xff1a;一不小心&#xff0c;桌面上的某个重要文件被删除了。这时&#xff0c;大多数人可能会感到惊慌失措&#xff0c;不知所措。 其实&#xff0c;不必过于担心&#xff0c;因为有很多方法可以帮助我们找回…