大语言模型水印

news2024/9/26 20:04:22

来源:ICML-2024

题目:Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models

参考文献格式:Huo, M., Somayajula, S.A., Liang, Y., Zhang, R., Koushanfar, F. & Xie, P.. (2024). Token-Specific Watermarking with Enhanced Detectability and Semantic Coherence for Large Language Models. (ICML 2024


研究背景

2017年,Google提出一种基于自注意力机制的特征提取器Transformer模型,相比传统的RNN模型,具有更好的并行性能和更短的训练时间,突破了远距离文本依赖的学习限制

Large Language Models得益于Transformer架构的出色可并行性和容量,使LLMs可以参数规模更为庞大,理解上下文和生成语言的能力不断增加,并得到广泛应用

 

模型在处理文本时,能够同时关注输入中的所有词汇,无论句子长短,都能精准捕捉到远距离的语义关联

模型由编码器Encoder)和 解码器Decoder)两部分组成,相比于传统的RNN模型,具有更好的并行性能和更短的训练时间,能够更好地捕捉长距离依赖关系。Transformer架构的出色可并行性和容量,它已成为开发各种LLMs的事实标配,使得将语言模型扩展到数千亿或数万亿参数成为可能。CLS是个特殊标记,起始位置。在训练阶段,使用大量文本数据集对LLM进行训练,使其学习语言的模式和结构。

训练的目标通常是让模型能够预测下一个最可能的单词或令牌(token),这基于给定的前文序列。

训练过程中,模型会调整其内部参数,以最小化预测错误,这通常通过优化算法(如随机梯度下降)来实现。

一旦模型训练完成,它就能够接收输入(如一段文本或提示)并生成输出。 对于给定的输入序列,模型会计算每个可能的输出令牌的概率分布,这些概率分布通常表示为“逻辑”(logits

令牌采样(Token Sampling

从逻辑值中采样以生成最终的文本输出。这个过程可以采用不同的采样技术,如贪婪采样、束搜索(beam search)或核采样(nucleus sampling)。

贪婪采样会选取概率最高的令牌作为输出,而束搜索会考虑概率最高的几个令牌组合,核采样则在考虑概率的同时保持输出的多样性。

水印技术在这一背景下至关重要,它涉及在 LLM 推理阶段将隐藏标记嵌入文本中,这些标记对人类不可察觉。水印分类如下:

区分AI生成文本和人类编写文本,可用于监管检测LLM生成的文本成为一项关键任务,支撑着AI伦理和安全的更广泛目标。

租用OpenAI的接口,利用聊天的结果来优化自家的大模型

前述方法在文本水印方面取得了显著进展。然而,它们通常依赖于可能导致不自然修改的特定规则,可能会降低文本质量。如果这些线索被人类攻击者检测到,他们可能会设计水印移除攻击或尝试伪造水印

模型水印分类

基于规则的水印:通过文本转换嵌入水印,同时确保整体语义连贯性不受影响。这些转换涉及改变词汇属性、操纵语言特征或替换同义词。

基于规则方法的一个显著限制是它们容易受到攻击(例如,用同义词替换单词)

神经水印:利用神经网络将水印嵌入文本并进行解码,然后使用一个消息解码器从这个水印文本中提取LLM签名,由于通常涉及复杂的神经网络以插入水印,在文本生成和水印检测期间产生高计算成本;

推理时水印:在推理期间将统计信号插入模型logits中以提高可检测性,但会降低语义连贯性,因此提出了一系列工作来解决这个问题。

大语言模型水印框架结构

 

不区分绿色列表

水印效果的丧失:水印的目的是在一个可控和可检测的方式中,对文本进行微小的修改。如果你让所有单词都成为绿色列表的一部分,那么在生成文本时,模型实际上不会受到任何限制,水印的效果就会丧失。

检测困难:水印检测算法依赖于绿色列表和红色列表之间的平衡来检测文本。如果所有单词都是绿色列表的一部分,那么检测算法将无法通过统计方法(如计算绿色列表单词的比例)来识别文本是否包含水印。

文本质量不变:从积极的方面来看,如果所有单词都是绿色列表的一部分,那么理论上水印算法对文本质量的影响将降至最低。然而,这也意味着水印失去了其应有的功能。

z-scorez 分数)是用来检测文本中水印存在与否的一个统计量。它基于统计假设测试,特别是一个比例的 z-检验。z 分数计算的目的是确定文本中绿色列表(Green List)词汇的出现频率是否超出了随机选择时的预期范围,从而判断文本是否被嵌入了水印。

z-score𝑧=𝑠𝐺𝛾𝑇/𝑇𝛾1−𝛾z=(|s|_G-γT)/√(Tγ(1-γ) )

 KGW水印举例: 

KGW水印技术是一个两阶段过程:

1、在文本生成期间嵌入水印,在生成令牌 s(t) 时,前一个令牌 s(t−1) 的哈希值作为随机种子,

将词汇表 V 分割成一个包含总词汇表比例γ绿色列表 和包含剩余的 (1−γ)比例的词汇表,称为红色列表

参数 𝛾γ,称为分割比例( splitting ratio ,例参数 γ =0.20,则绿色列表为总词汇表大小的20%

而一个常数水印logits,记为  𝛿δ,会被加到绿色列表令牌的逻辑值上。

2、基于这些调整后的逻辑值采样下一个令牌,软提示使用绿色列表令牌。

𝑠𝐺𝛾𝑇|s|_G-γT​,其中 𝑠𝐺|s|_G表示水印文本中绿色列表令牌的计数,𝑇T表示文本的长度。

计算出的z-score超过预定阈值时,认为成功检测到水印

 提出的算法

 

引入了一种新的多目标优化(MOO水印方法

利用轻量级网络生成特定于token的两个超参数:分割比例(𝛾γ水印logitsδ

通过动态调整分割比例( γ 和水印logitsδ

利用 MOO 优化检测和语义目标函数,优化可检测性和语义连贯性。

测量有水印文本和无水印文本之间的可检测性通过基于文本中绿色令牌计数的单侧z检验来评估

Token嵌入: 

可检测性通过修改版 z-score来评估

语义连贯性通过 余弦相似度 来评估

使用多目标优化 MOO来优化分割比例 𝛾 、附加Logits 𝛿δ的选择

 

余弦相似度用于评估水印文本和未水印文本之间的语义相似性。通过计算文本的嵌入向量(通常是通过神经网络模型如SimCSE得到的)之间的余弦相似度,可以量化文本在语义上保持一致的程度。这对于确保水印过程不会对文本的语义质量产生负面影响是很重要。

优化变量是γδ生成器网络的权重参数,因为sw的水印由这些网络控制。由于生成swRoBERTa-base模型 ​ 和生成swLLM共享相同的分词器,我们直接使用LLM生成的嵌入作为 ​ 的输入,使得操作关于γδ生成器网络的参数是可微的。

实验效果

 多目标优化效果:

检查了为不同令牌学习到的水印logitsδ)和分割比例(γ)。对于每个词性(part-of-speech, POS)类别计算了基于带有此类别标签的前一个令牌生成的γδ值的平均值和标准差。

在十个文本上进行,每个文本包含200个有水印的token

当前一个token形容词(ADJ限定词(DET时,倾向于分配较低的γδ值,而ADJDET通常在名词之前。降低γ会导致选择较少的绿色令牌,同时降低δ会导致对这些选定令牌应用较小的水印logits值,可以减弱这些词带有水印的可能性。

ADJDET之后的令牌应用较弱的水印,促进了下一个具有最高模型逻辑值的令牌的选择,这最有可能是名词,因此增强了语义连贯性和句法一致性。

标点符号(PUNCT代表句子或短语的结束,通过为标点之后的token分配更多的γδ值,就有更多单词放入绿色列表,提高选词的自由度,嵌入水印的同时不会对语义连贯性产生太多影响。

 

对两种常见水印攻击

1改写攻击Paraphrase Attack

2复制粘贴攻击Copy-Paste Attack

目的都是为了覆盖、隐藏水印

下图是使用Dipper改写LLM来执行改写攻击。基于T5-XXL模型微调,攻击更有效

改写强度设置为推荐水平,lex=40(词汇相似度) div=100(多样性)

 

总结:

1、介绍了一种新颖的多目标优化框架,用于在推理时对大型语言模型(LLMs)进行水印处理

2、旨在同时优化两个轻量级网络,负责生成特定于标记的分割比率和水印logits

3、核心目标是最小化检测损失语义损失 寻找Pareto最优解

4、结果表明在提高Pareto前沿方面优于现有技术,在抵抗改写攻击复制粘贴攻击方面有更好的鲁棒性

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2167848.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文2000字从0到1详解requests接口自动化测试!

前言 接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换,传递和控制管理过程,以及系统间的相互逻辑依赖关系等。 1、理解什么是接口 接口一般来说有两种…

【JaveEE】——(手把手教你)用IDEA手搓一个定时器Timer

阿华代码,不是逆风,就是我疯,你们的点赞收藏是我前进最大的动力!!希望本文内容能够帮助到你! 目录 一:什么是定时器 二:IDEA中的定时器Timer 1:实例化Timer 2&#…

C语言-动态内存分配讲解

目录 ✨1.什么是动态内存分配 💕2.动态内存开辟函数 malloc ✨3.malloc函数的检查(两种方法) 💕4.动态内存释放函数 free ✨5.free 函数接收空指针 ✨6.为什么要释放动态内存 💕7.动态内存开辟函数calloc &#…

免杀笔记 ---> 一种有想法的Indirect-Syscall

今天来分享一下,看到的一种Indirect-Syscall,也是两年前的项目了,但是也是能学到思路,从中也是能感受到杀软对抗之间的乐趣!!说到乐趣,让我想起看到过一位大佬的文章对"游褒禅山记"的…

学习RocketMQ

RocketMQ是一个分布式消息和流平台,它被设计为具有简单和可复制的架构,同时具有高性能和高可靠性。以下是RocketMQ从入门到精通的一些关键概念和示例代码。 1、安装和启动RocketMQ 1.1、下载并解压RocketMQ二进制文件。 wget https://archive.apache.…

JavaWeb--08BeanUtils:自定义转换器

在07创建了表单,但是获取网页信息的java代码太繁杂了,每次获取数据都要书写依次如下的: 重新创建一个web工程项目test1010---需要配置tomacat,具体传送门:CSDN 配置好了如下: 在里面web目录下创建一个reg…

JVM 基础知识(基础组成 )

使用场景 线上系统突然宕机,系统无法访问,甚至直接 O0M;线上系统响应速度太慢,优化系统性能过程中发现 CPU 占用过高,原因也许是因为 JVM的 GC 次数过于频繁;新项目上线,需要设置 JVM的各种参数;等 JDK / JRE / JVM JDK JDK 全称 ( Java Development Kit ) ,是 Ja…

Git 使用方法

简介 Git常用命令 Git 全局设置 获取Git 仓库 方法二用的比较多 将仓库链接复制 在 git base here ----> git clone 仓库链接 工作区、暂存区、版本库 Git 工作区中文件中的状态 本地仓库的操作 远程仓库操作 git pull 将代码推送到远程仓库 1. git add 文件名 ---放…

C++:继承和多态,自定义封装栈,队列

1.栈: stack.cpp #include "stack.h"Stack::Stack():top(nullptr),len(0){} //析构函数 Stack::~Stack() {while(!empty()){pop();} }bool Stack::empty() //判断栈是否为空 {return topnullptr; }int Stack::size()//获取栈的大小 {return len; } //压…

万字长文详解Java线程知识

什么是进程、线程、协程? 进程 进程是计算机科学中的一个核心概念,它指的是在操作系统中正在执行的一个程序的实例。进程是操作系统中的一个独立执行单元,具有独立的内存空间和系统资源。每个进程都有自己独立的地址空间和文件描述符&#x…

循环神经网络笔记

循环神经网络学习 RNN训练方法–BPTT BPTT (Backpropagation Through Time),这是一种用于训练循环神经网络(RNNs)的算法。由于 RNNs 能够处理序列数据,并且在每个时间步上都有内部状态,因此需…

南京自闭症寄宿学校:打造温馨的第二家

南京自闭症寄宿学校的愿景与广州星贝育园的温馨实践 在探讨自闭症儿童教育的广阔领域中,寄宿制学校以其独特的优势,为这些特殊的孩子提供了全方位的支持与关怀,致力于打造一个温馨如家的第二生活环境。虽然本文的主题是围绕南京自闭症寄宿学…

Chirp通过Sui让IoT世界变得更简单

据估计,未来十年内,联网设备的数量将增长到近400亿台。无论是追踪共享出行车辆的移动、改善食品追溯性、监控制造设施,还是保障家庭安全,物联网 ( Internet of Things,IoT) 对企业和消费者来说都已经成为一项关键技术。…

刷题学习日记 (1) - SWPUCTF

写这篇文章主要是想看看自己一个下午能干啥,不想老是浪费时间了,所以刷多少题我就会写多少题解,使用nss随机刷题,但是今天下午不知道为啥一刷都是SWPUCTF的。 [SWPUCTF 2021 新生赛]gift_F12 控制台ctrlf搜索flag即可&#xff0…

什么是竞争条件?

竞争条件,简单来说就是多个进程同时访问同一个共享资源,导致出现预期结果以外的错误的情况。 出现竞争条件的本质原因是cpu对程序的调度是没有特定规律的,某一时刻cpu处理哪个进程是不确定的。 简单写一个测试程序,先需要子进程和…

ubuntu安装emqx

目录 1.预先下载好emqx压缩包 2.使用tar命令解压 3.进入bin目录 5.放开访问端口18083 6.从通过ip地址访问emqx后台 7.默认用户名密码为admin/public 8.登录后台 9.资源包绑定在此博文可自取 1.预先下载好emqx压缩包 2.使用tar命令解压 sudo tar -xzvf emqx-5.0.8-el8-…

手机轻松解压 RAR 文件指南

手机通常不直接支持 RAR 文件打开,主要有以下几个原因。首先,手机操作系统的设计初衷并非为了处理各种复杂的压缩文件格式。 大多数手机内置的文件管理器主要侧重于管理手机内部存储和常见的文件类型,如图片、音频、视频等。对于像 RAR 这样…

【UR #1】外星人(dp思维技巧)

考虑去除后效性,常用方法排序状态可以直接以答案为状态来判断合法性考虑转移方向,向后转移,选与不选来定向答案 f[i][j]表示前i个数答案为j的方案数 不选i 则加上f[i][j] 的方案数 * (n-i),ai可以在后面随便选。 选…

Python 课程20-Scikit-learn

前言 Scikit-learn 是 Python 中最流行的机器学习库之一,它提供了多种用于监督学习和无监督学习的算法。Scikit-learn 的特点是简单易用、模块化且具有高效的性能。无论是初学者还是专业开发者,都可以借助它进行快速原型设计和模型开发。 在本教程中&a…

为何专利对企业创新与竞争至关重要?

在当今这个技术飞速发展的时代,每一个创新的火花都可能成为推动行业进步的关键力量。然而,创新并非一蹴而就,它需要时间、资金与智慧的共同投入,更需要一套完善的保护机制来确保其成果不被轻易窃取或模仿。这一重任,便…