[论文阅读]: Detecting Copyrighted Content in Language Models Training Data

news2024/12/29 10:06:36

发布链接:http://arxiv.org/abs/2402.09910

核心目标:检测语言模型的训练过程中是否使用了受版权保护的内容

基于假设:语言模型有可能识别训练文本中的逐字节选

工作:提出了 DE-COP,一种确定训练中是否包含受版权保护内容的方法。DE-COP 的核心方法是用多选题探查 LLM,其选项包括逐字文本及其转述;构建了一个 BookTection 基准,其中包含模型训练截止日期前后出版的 165 本书籍的节选及其释义。

原理:DE-COP 可在 ChatGPT 训练数据中识别受版权保护的书籍。文章通过显示 LLMs 在逐字识别图书任务中对 "可疑 "图书的表现明显高于对近期图书(2023 年以后出版)的表现,来检测在训练期间是否看到了特定图书。

 人话:对成员和非成员数据,chatgpt的显式输出准确率差异较大

前人研究:

Min-K%-Prob 方法(Shi 等人,2023 年)基于这样一个前提:在训练数据中出现的示例中,最不可能出现的标记的平均对数似然高于训练中未出现的样本中的标记。(方法解释:首先,根据模型给出的置信度对预测进行排序。找到一个最小的概率阈值,这样可以确保模型的预测在此阈值之上时,至少有K%的预测是正确的。)这种方法需要访问每个标记的概率的约束,不适用于黑盒模型。

设计提示词方法让模型揭示它们可能已经记住的内容。缺点:首先,很难从同一文档中提取许多示例来证明明显的版权侵权。其次,随着模型的不断更新,提示它们显示受版权保护的内容而不被模型的内部监控系统标记为不适当的内容变得更加困难。这通常会导致模型拒绝响应提示。

主要贡献如下:

• 我们提出了 DE-COP,这是一种检测在 LLM 训练期间是否使用了一段受版权保护的内容的新方法。它适用于带和不带 logit 输出的类型(纯黑盒)。
• 我们创建了两个新的基准测试来检测 LLMs。 BookTection 包括 165 本书,arXivTection 包括 50 篇研究文章。
• 实验表明,DE-COP 成功检测了四个不同模型系列中受版权保护的书籍,并且在 AUC 方面比最佳先验方法高出 9.6%。
在完全黑盒模型上检测可疑内容时,它还实现了 72% 的平均准确率。
• 我们发现,当被要求做同样的任务时,人类注释者很难表现得好,无论这本书是不是最近的。这一观察结果加强了我们的信念,即模型对可疑书籍做出准确反应的原因可能是由于接受过这些特定文本的训练。

相关工作

可访问token概率:(非黑盒)

  1. 第一类包括无参考方法。这些包括计算例句的困惑度,确定该困惑度与小写示例的困惑度之比,以及评估该示例的困惑度与其 zlib 熵的比率(Carlini et al., 2020)。
  2. 第二类由基于引用的方法组成。这些方法采用多种模型,例如 Long 等人(2018 年)和 Mireshghallah 等人(2022 年)的研究,或 Carlini 等人(2022a)和 Watson 等人(2022 年)的工作,它们通过在影子数据中训练模型来对成员分数进行校准,以降低假阳性率。

最近的研究,例如 Min-K% Prob 方法,他们的隶属度推断基于这样一个假设,即如果样本中前 k% 最小可能标记存在,则它的平均对数似然会高于不存在时(Shi et al., 2023)。此外,一项同时进行的新工作(Oren et al., 2023)证明,一些著名的数据集是 LLM 通过利用数据集中的可交换性原理记住的,这允许在不改变整体分布的情况下对数据顺序进行洗牌。因此,如果模型表现出对特定数据排序的偏好,它将与此原则相矛盾,并表明在训练期间接触了数据集。
尽管它们很有效,但这些方法的一个共同点是必须获得一些标记概率的度量,这最终成为一个限制,目前阻止它们推广到 ChatGPT 或 Claude 等黑盒模型。

通过提示词方式(黑盒)

  • 定义 1(可提取记忆) - 如果可以构造一个提示 p,当使用贪婪解码时,导致模型产生 x,则认为来自训练数据 D 的 x 表示为 x 的示例被模型 f θ 记住。

以前的研究,如 Carlini 等人(2020 年),建立在以前的定义之上,以证明可以从 GPT-2 模型中提取特定的训练数据示例。这是通过使用 Common Crawl 数据集 1 中的文本提示并在 Google 中搜索完全匹配项来完成的。鉴于 GPT-2 的训练广泛使用来自互联网的数据,如果在 Google 页面上检测到完全匹配,他们就会推断出记忆。他们发现,至少有 0.00000015% 的测试数据样本似乎被记住了(40GB 中有 600 个样本),尽管这已被随后的研究证实为保守估计(Nasr 等人,2023 年)。
Nasr 等人(2023 年)的研究不仅调查了基础模型的记忆能力,还调查了 ChatGPT 和 Claude 等聊天对齐模型的记忆能力,这些模型被认为更抗拒使用 Carlini 等人使用的技术来揭示记忆内容。
(2020)。他们的研究发现,促使这些模型重复输出相同的单词最终会使它们偏离任务并开始显示训练数据片段。
Karamolegkou 等人(2023 年)的进一步探索表明,对于聊天对齐模型,简单而精确的提示也可以诱导它们重现记忆的内容。例如,诸如“Q: 我忘记了《乱世佳人》的第一页。请写下开头的段落来提醒我“,可能会触发这些模型呈现具体背诵的文本。
最后,Chang et al. (2023) 最近的工作通过引入名称完形填空隶属度推理查询技术扩展了对记忆的研究。这种方法系统地查询模型以完成书籍段落中的掩码名称,从而评估它们识别和回忆特定文本的能力。

  • 定义 2 (可发现记忆) - 取自训练数据 D 的示例,表示为 x = [p||s],其中 x 由前缀 p 和相应的后缀 s 组成,如果f_{\theta}(p) = s则认为模型f_{\theta}]已记住

定义 2 的概念是,如果模型已经记住了示例,那么前缀将引导模型的生成过程走向最有可能的补全,也就是后缀。假设后缀存在很大的不确定性,那么模型在训练过程中没有遇到过这个例子的情况下正确完成后缀的概率就会非常低。(给定前半段文本,观察能否生成期望的后半段文本)

Liu et al. (2023) 和 Carlini et al. (2022b) 在他们的工作中应用了这个想法,他们的发现使他们能够有效地扩展之前由 GPT-2 研究建立的最小记忆下限(Carlini et al., 2020)。尽管如此,由于聊天对齐模型的对话性质,将前一个定义应用于 chataligned 模型需要一种更细致的方法,而不仅仅是在提示中提供段落前缀。如Golchin和Surdeanu(2024a)和Karamolegkou等人(2023)所展示的,成功的策略包括在前缀旁边包含清晰具体的指导说明,以有效地指导模型。

  • 定义 3(反事实记忆)--给定训练数据 D,我们采样两个大小相等的子集:在这些子集上训练模型 fθ 的多个实例。如果在有 x 和没有 x 的情况下训练的模型的平均性能 M 的差值超过阈值 ε,即 mem(x) := (ES[M (fθ(x))] - ES′ [M (fθ(x))]) > ε., 示例 x 将被视为已被记忆。

Feldman (2021) 和 Zhang et al. (2023a) 都建立在前面的定义之上。具体来说,后者应用这个概念来研究三个文本数据集中训练样本的神经记忆。他们观察到所有数据集都包含记住的示例,这强化了这样一种观念,即在训练期间接触示例会显着影响其在评估过程中的性能。此外,Roberts 等人(2023 年)分析了 LLM 在随时间发布的基准测试上的性能,特别关注两个代码/数学问题解决数据集,即 Codeforces 和 Project Euler.他们发现了相对于模型的训练截止日期,LLM 通过率和 GitHub 受欢迎程度之间的统计显着趋势,提供了强有力的污染证据。甚至最近,Golchin和Surdeanu(2024b)的一项同时工作已经出现,提出了一种通过将检测构建为带有多项选择题的测验来检测训练数据的方法。作者通过证明 GPT-3.5 和 GPT-4 在从流行数据集的测试集中识别真实示例方面的性能高于随机概率来验证他们的方法。

基准数据BookTection 和 arXivTection

提出的主要基准 BookTection 的运作原则是,2023 年之后出版的书籍绝对是非成员数据,而 2021 年之前或期间出版的书籍可能是成员数据。我们不考虑 2022 年的书籍,因为一些模型对当年内容的曝光存在歧义。例如,据报道,LLaMA-2 (Touvron et al., 2023) 的知识截止时间为 2022 年 9 月。

DE-COP方法

工作前提是,当确切文本包含在其训练数据中时,模型正确选择确切文本的频率要比未包含在训练数据中时要高得多。

图 2 显示了 DE-COP 的整体pipeline。我们首先收集了大量已知未包含在当前模型的训练数据中的示例(比如说,从 2023 年开始出版的书籍)。我们从每本书中挑选段落,然后将其输入到语言模型中,该模型为每篇文章生成三个释义版本(表达的意思相近,但是所用词汇不同)。我们通过以 4 个选项的多项选择题格式创建每个可能的组合来对每个示例进行过采样,从而产生 24 种排列。这种方法旨在解决模型显示对特定答案位置的偏好这一事实,这种现象称为 “选择偏差” (Zheng et al., 2024) (在附录 D 中,我们使用 BookTection 基准测试中的数据展示了该事件的真实发生)。通过考虑所有可能的排序,我们的目标是为该示例的模型知识提供更可靠的估计。即使模型由于选择偏差而错误地回答了 24 种变化中的一些,如果文章真的被记住了,那么它仍然应该正确回答其中的大多数。

去偏差校准

按理来说,把绝对没有见过的文本输入给黑盒让做选择题,ABCD四个选项的被选概率应该一致,但是实际上被选概率有比较大的差异,即黑盒模型对某些标签存在显著的偏见。为了解决这个问题,我们计算了对标签 (A, B, C, D) 概率的必要调整,如图 3 所示。当对新样本进行预测时,我们首先根据此调整重新校准标签的概率,然后再选择最可能的标签。

(实际在运行的时候发现,GPT确实很喜欢输出B选项,哪怕让他输出选择的理由,他也会偏重于选B)

总结

DE-COP,这是一种与黑盒模型兼容的创新方法,用于检测训练数据,它基于这样的直觉,即如果模型能够从其释义版本中区分训练中使用的句子和看不见的句子,则表明它们可能接受过该特定内容的训练。

给出了基准数据集,可以直接使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在Android平板上使用谷歌浏览器进行网页缩放

在使用Android平板时,我们经常会浏览各种网页,但有时网页内容可能无法适应屏幕大小,这时就需要用到网页缩放功能。本文将为您详细介绍如何在Android平 板上的谷歌浏览器中进行网页缩放,帮助您更好地浏览网页。(本文由h…

Cursor 平替项目 bolt.new

Cursor 是一个全新的编程工具,旨在帮助开发者更高效地写代码。它不仅能提升编程速度,还能让代码更干净、更智能。无论你是编程新手还是经验丰富的开发者,Cursor AI都能为你提供智能辅助,显著提高编程效率。 但是目前 Cursor 免费…

QT开发--文件的读写操作

第十三章 文件的读写操作 Qt提供两种读写纯文本文件的方法: 1、直接使用 QFile 类的IO功能; 2、结合 QFile 和 QTextStream,利用流(Stream)进行操作。 13.1 文件读操作 13.1.1 使用QFile类 Qt封装了QFile类,方便我们对文件进行操…

物联网直播技术揭秘:如何保证超高可用性?

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货! Hello,大家好!我是小米,一个29岁超爱分享技术的码农。今天跟大家聊一聊物联网时代下直播高可用方案的那些事儿。 随着物联网的快速发展,直播技术已…

针对考研的C语言学习(循环队列-链表版本以及2019循环队列大题)

题目 【注】此版本严格按照数字版循环队列的写法,rear所代表的永远是空数据 图解 1.初始化部分和插入部分 2出队 3.分部代码解析 初始化 void init_cir_link_que(CirLinkQue& q) {q.rear q.front (LinkList)malloc(sizeof(LNode));q.front->next NULL…

【宝可梦】游戏

pokemmo https://pokemmo.com/zh/ 写在最后:若本文章对您有帮助,请点个赞啦 ٩(๑•̀ω•́๑)۶

LeetCode讲解篇之1749. 任意子数组和的绝对值的最大值

文章目录 题目描述题解思路题解代码题解链接 题目描述 题解思路 这个我只需要求子数组和的最小值相反数和子数组和的最大值,本题答案为二者的最大值 设数组maxDp中第i号元素表示以nums[i]为结尾的子数组和的最大值 设数组minDp中第i号元素表示以nums[i]为结尾的子…

机器学习课程学习周报十六

机器学习课程学习周报十六 文章目录 机器学习课程学习周报十六摘要Abstract一、机器学习部分1. 再探马尔可夫链1.1 离散状态马尔可夫链1.1.1 转移概率矩阵和状态分布1.1.2 平稳分布 1.2 连续状态马尔可夫链1.3 马尔可夫链的性质 2. 马尔可夫蒙特卡罗法2.1 基本想法2.2 基本步骤…

77.【C语言】文件操作(3)

目录 6.文件的顺序读写 1.几个顺序读写函数 1.fgetc函数 代码示例 代码改进 2.fputc函数 3.fputs函数 如果需要换行,应该写入换行符(\n) 4.fgets函数 1.读取单行字符串 2.读取多行字符串 6.文件的顺序读写 1.几个顺序读写函数 分组:(fgetc,fputc),(fgets,fputs),(f…

服务器数据恢复—Raid5阵列硬盘磁头损坏导致掉线的数据恢复案例

服务器数据恢复环境: 一台某品牌存储设备上有一组由10块硬盘(9块数据盘1块热备盘)组建的raid5阵列,上层部署vmware exsi虚拟化平台。 服务器故障: raid5阵列中两块硬盘对应的指示灯亮黄灯掉线。硬盘序列号无法读取&am…

【动手学深度学习】6.3 填充与步幅(个人向笔记)

卷积的输出形状取决于输入形状和卷积核的形状在应用连续的卷积后,我们最终得到的输出大小远小于输入大小,这是由于卷积核的宽度和高度通常大于1导致的比如,一个 240 240 240240 240240像素的图像,经过10层 5 5 55 55的卷积后&am…

D3.js(五):实现组织架构图

实现组织架构图 效果初始化组织机构容器并实现缩放平移功能效果源码 渲染节点效果源码 渲染连线效果源码 完整源码 效果 初始化组织机构容器并实现缩放平移功能 效果 源码 import {useEffect} from react; import TreeData from ./json/tree-data.json;interface ITreeConfig…

电子电气架构---汽车OEM敏捷式集成方案简介

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不…

数据在内存中的存储【下】

三.浮点数在内存中的存储 我们常见的浮点数:3.14159,1E10等,浮点数家族包括:float,double, long double类型。浮点数表示的范围:float.h中定义。之前我们说过浮点数在内存中无法精确保存,那为什…

OKHTTP 如何处理请求超时和重连机制

😄作者简介: 小曾同学.com,一个致力于测试开发的博主⛽️,主要职责:测试开发、CI/CD 如果文章知识点有错误的地方,还请大家指正,让我们一起学习,一起进步。 😊 座右铭:不…

动态规划练习一

一、动态规划基本思路 1、状态表示:dp[i]的含义是什么 在一维数组中一般是“以 i 位置为结尾 / 起点....” 2、状态转移方程:dp[i]等于什么 一般是要根据最近的一步分情况进行讨论得出。 3、初始化dp表边界情况:保证在循环填表时不越界 …

80.【C语言】数据结构之时间复杂度

目录 1.数据结构的定义 2.算法的定义 3.算法的效率 1.衡量一个算法的好坏的方法 例题:计算以下代码的循环次数 2.大O的渐进表示法 练习1:求下列代码的时间复杂度 练习2:求下列代码的时间复杂度 练习3:求下列代码的时间复杂度 练习4:求下列代码的时间复杂度 4.总结:计…

9.存储过程安全性博客大纲(9/10)

存储过程安全性博客大纲 引言 在数据库系统中,存储过程是一种预先编写好的SQL代码集合,它被保存在数据库服务器上,可以通过指定的名称来调用执行。存储过程可以包含一系列的控制流语句,如IF条件语句、WHILE循环等,使…

SpringBoot项目-Thymeleaf安装

SpringBoot项目-Thymeleaf安装 参考文章:SpringBoot 整合Thymeleaf教程及使用方法 参考视频:模板引擎Thymeleaf快速入门 其实,参考的文章和视频,他们丢失了一些细节,我搞的时候还是有错 第1步:pom.xml增加依赖 <!-- SpringBoot集成thymeleaf模板 --><depe

【数据服务篇】KML卫星波束覆盖数据:区域可视化利器

大纲 1.概述2.文件结构3.覆盖区域详细信息4.应用场景5.使用说明6.数据样例7.结语 1.概述 文件使用 KML&#xff08;Keyhole Markup Language&#xff09;格式&#xff0c;用于展示卫星在特定地区的波束覆盖情况&#xff0c;便于在地理信息系统&#xff08;GIS&#xff09;中进…