论文笔记:Time Travel in LLMs: Tracing Data Contamination in Large Language Models

news2024/9/20 18:27:53

iclr 2024 spotlight reviewer评分 688

1 intro

  • 论文认为许多下游任务(例如,总结、自然语言推理、文本分类)上观察到的LLMs印象深刻的表现可能因数据污染而被夸大
    • 所谓数据污染,即这些下游任务的测试数据出现在LLMs的预训练数据中
    • 保证无污染并非易事,因为有两个潜在的污染源:直接从官方数据集版本摄取(较易控制),和通过网络上某处找到的重复数据间接获得(几乎无法控制)
  • ——>论文提出了一种成本低廉且稳健的方法,自动检测给定数据集分区的数据污染
    • 论文基于两个现实假设
      • (a)无法直接访问LLMs的预训练数据
      • (b)的计算资源有限
  • 方法首先通过从相应数据集分区的小型随机样本中抽取个别实例来识别潜在污染
    • 使用从个别实例获得的信息,然后评估整个数据集分区是否受污染
  • 为了识别个别实例的污染,论文采用了一种“引导指令”:一个整合了源数据集的独特标识符的提示
    • 这些信息包括数据集名称、它的分区(训练、测试或验证)以及随机选择的参考实例的初始部分,并在相关时补充其标签
    • 指导LLM续写给定的部分实例
  • 使用这些生成的内容,论文提出了两种启发式方法来估计整个数据集分区是否受污染
    • 第一种启发式方法认为,如果在引导指令下生成的部分与参考实例之间的平均重叠得分在统计上显著高于使用不包括数据集和分区名称的“通用指令”测得的得分,则该分区很可能受污染
    • 第二种启发式方法是,如果基于GPT-4的分类器通过少量示例的in-context learning,至少标记一个生成的部分与参考实例精确匹配,或至少两个生成的部分为近精确匹配,则标记该分区为受污染

     2 method

  • 论文基于两个核心假设
    • (1)缺乏直接访问LLMs的预训练数据,
    • (2)计算资源有限
  • 在这些前提下,论文:
    • 首先检查数据集分区中的个别实例,以在实例级别发现污染
    • 其次检测到的受污染实例相关分区可以被标记为泄露给LLM的预训练数据
  • 实例的精确复制作为相应分区污染的标志

2.1 检测实例级污染

2.1.1 测量实例级污染的组件

2.1.2 测量实例级污染

  • 方法1:BLEURT和ROUGE-L
    • ROUGE-L评估词汇相似性
    • BLEURT衡量生成序列与参考实例相比的语义相关性和流畅性
    • 如果在引导指令下完成的平均重叠得分超过通用指令的得分,则检测到实例级污染
  • GPT-4评估:
    • 虽然BLEURT和ROUGE-L都量化了生成实例与参考实例之间的重叠,但它们无法精确指出近乎精确的匹配
    • ——>采用少量示例的ICL提示来指导检测精确/近精确匹配
      • 在提示中使用一些代表性的精确匹配和近乎精确匹配的示例——这些示例来自人类评估,用以评估所有其他生成的完成

2.2 检测分区级污染

  • 为了从实例级污染推广到分区级离散决策(即分区是/不是受污染的),论文利用了两个观察结果:
    • 观点1
      • 如果使用引导指令生成的完成与参考实例的平均重叠得分显著高于使用通用指令生成的完成的得分,则该数据集很可能受到污染
      • 两种指令之间的唯一区别是引导指令包含了数据集和分区的名称作为指导,因此改进只能由污染来解释
    • 观点2
      • 如果使用少量示例ICL提示的GPT-4检测到至少一个精确匹配或至少两个近乎精确匹配,则该数据集很可能受到污染

3 实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1597409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ins视频批量下载,instagram批量爬取视频信息

简介 Instagram 是目前最热门的社交媒体平台之一,拥有大量优质的视频内容。但是要逐一下载这些视频往往非常耗时。在这篇文章中,我们将介绍如何使用 Python 编写一个脚本,来实现 Instagram 视频的批量下载和信息爬取。 我们使用selenium获取目标用户的 HTML 源代码,并将其保存…

MySQL模糊查询

一、MySQL通配符模糊查询(%,_) 1.1.通配符的分类 1.“%”百分号通配符:表示任何字符出现任意次数(可以是0次) 2.“_”下划线通配符:表示只能匹配单个字符,不能多也不能少,就是一个字符。当然…

计算机组成原理【CO】Ch3 存储系统

文章目录 考纲3.1 存储系统概述3.2 主存储器3.3 主存储器与CPU的连接3.4 外部存储器3.5 高速缓冲存储器3.6 虚拟存储器【※】存储系统总体流程图【※】各个部件的存储位置计算机存储相关硬件与数据结构说明进程控制块(PCB)页表页表始址页表始址寄存器(PTR)MMU(内存管理单元…

Springboot Gateway 报错Failed to resolve “bogon”的原因及解决办法

一、问题出现原因及初步分析 今天遇到一个奇怪的错误,一个一直正确运行的微服务后台,突然无法访问,如何重启都会报错。 想到近期有人在服务器上安装过其它服务,因此,考虑可能是配置问题,可配置问题修复后…

实时数据同步之Maxwell和Canal

文章目录 一、概述1、实时同步工具概述1.1 Maxwell 概述1.2 Canal概述 2、数据同步工作原理2.1 MySQL 主从复制过程2.2 两种工具工作原理 3、MySQL 的 binlog详解3.1 什么是 binlog3.2 binlog 的开启3.3 binlog 的分类设置 4、Maxwell和Canal对比5、环境安装 二、Maxwell 使用1…

信也科技网络自动化实践-网络策略管理

1、背景 随着各种法律法规和行业标准的出台和更新,企业或组织需要遵守各种安全合规性要求。网络安全策略管理需要符合这些要求,从而保障企业或组织的安全和合规性。网络安全策略管理需要涵盖企业或组织的整个网络生命周期,包括网络规划、设计…

halcon 3.2标定相机

参考《solution_guide_iii_c_3d_vision.pdf》 3.2.2.2 Which Distortion Model to Use 选用何种畸变模型 对于面阵相机,halcon中两种畸变模型:The division model and the polynomial model(差分模型和多项式模型),前…

MLOps

参考: 什么是MLOps?与DevOps有何异同?有什么价值?https://baijiahao.baidu.com/s?id1765071998288593530&wfrspider&forpcMLOps简介_AI开发平台ModelArts_WorkflowMLOps(Machine Learning Operation)是机器学习&#xf…

kafka(六)——存储策略

存储机制 kafka通过topic作为主题缓存数据,一个topic主题可以包括多个partition,每个partition是一个有序的队列,同一个topic的不同partiton可以分配在不同的broker(kafka服务器)。 关系图 partition分布图 名称为t…

Unity 扩展自定义编辑器窗口

在Assets文件夹路径下任意位置创建Editor文件夹,将扩展编辑器的代码放在Editor文件夹下 生成编辑器窗口 代码中首先引用命名空间 using UnityEditor; 然后将创建的类继承自EditorWindow public class MenuEditor : EditorWindow 然后通过扩展编辑器菜单功能调用…

AndroidStudio 导出aar包,并使用

打包 1、确认当前选项是否勾选,如未勾选请先勾选。 2、勾选完成后重启Android Studio。 3、重启完成后,选中要打包的module 4、打包完成 使用 1.在项目中新建libs,放入aar文件。 2.修改配置 添加如下代码 flatDir {dirs("libs")}3.修改app…

【BEVHeight论文阅读】自动驾驶车路协同车端感知算法

论文名称:BEVHeight: A Robust Framework for Vision-based Roadside 3D Object Detection 论文地址:https://arxiv.org/pdf/2303.08498.pdf 代码地址:https://github.com/ADLab-AutoDrive/BEVHeight 总结:这篇文章比较有意思的点…

单元测试四大过程

单元测试四大过程(蓝桥课学习笔记) 单元测试过程 单元测试是软件测试过程中的一个关键环节,它与集成测试、系统测试一样,分为测试策划、测试设计、测试执行和测试总结几个阶段。 单元测试过程中每个阶段需要完成的主要工作如下&…

ActiveMQ主从架构和集群架构的介绍及搭建

一、主从和集群架构的特点 1.1 主从架构的-Master/slave模式特点 读写分离,纵向扩展,所有的写操作一般在master上完成,slave只提供一个热备 1.2 集群架构-Cluster模式特点 分布式的一种存储,水平的扩展,消息的分布…

基于WOA优化的CNN-LSTM-Attention的时间序列回归预测matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1卷积神经网络(CNN)在时间序列中的应用 4.2 长短时记忆网络(LSTM)处理序列依赖关系 4.3 注意力机制(Attention) 4…

聚类能代替分类吗?

聚类和分类是两种不同的机器学习方法,它们在处理数据时有着不同的目的和应用场景。 分类:分类是一种监督学习方法,它需要已标记的训练数据集。在分类中,算法会学习如何将输入数据映射到预定义的类别中。例如,给定一组包…

ActiveMQ 07 集群配置

Active MQ 07 集群配置 官方文档 http://activemq.apache.org/clustering 主备集群 http://activemq.apache.org/masterslave.html Master Slave TypeRequirementsProsConsShared File System Master SlaveA shared file system such as a SANRun as many slaves as requ…

开源相机管理库Aravis例程学习(一)——单帧采集single-acquisition

开源相机管理库Aravis例程学习(一)——单帧采集single-acquisition 简介源码函数说明arv_camera_newarv_camera_acquisitionarv_camera_get_model_namearv_buffer_get_image_widtharv_buffer_get_image_height 简介 本文针对官方例程中的第一个例程&…

vue快速入门(二十五)本地存储与初始化使用

注释很详细&#xff0c;直接上代码 上一篇 新增内容 本地获取数据数据存储到本地 源码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial…

Spire.PDF for .NET【文档操作】演示:合并 PDF 文档

需要合并 PDF 的原因有很多。例如&#xff0c;合并 PDF 文件允许您打印单个文件&#xff0c;而不是为打印机排队多个文档&#xff0c;组合相关文件通过减少要搜索和组织的文件数量来简化管理和存储多个文档的过程。在本文中&#xff0c;您将学习如何使用Spire.PDF for .NET将多…