大语言模型稀疏水印技术

news2026/2/12 16:07:18

面对大型语言模型（LLMs）在假新闻制造与作弊方面的潜在风险，研究者提出了稀疏水印（Sparse Watermark）——种创新的文本水印技术，旨在监测和追溯LLMs生成的内容。不同于传统水印方法在可检测性与文本质量间的妥协，Sparse Watermark仅对特定词性的词语施加水印，实现了高识别度与文本自然度的平衡。Sparse Watermark的出现，为提升LLMs的安全性和使用责任性提供了有力支撑，标志着AI领域在防止模型滥用方面迈出了重要一步。

在这里插入图片描述

1 水印技术

水印技术非常重要，表现在以下几个方面：

检测与监控：水印技术允许用户验证文本是否由特定的LLM生成，这对于防止未经授权使用或恶意操纵LLM生成的内容至关重要。
版权保护：对于拥有LLM知识产权的公司来说，水印可以帮助追踪内容的来源，保护其知识产权不受侵犯。
责任归属：当生成的内容引起争议时，水印可以帮助确定责任方，例如，在虚假信息传播的情况下。

同时，现有的技术有一些优缺点：

增强的鲁棒性和安全性：一些技术通过使用固定词表或哈希方案增强了水印的抗攻击能力。
训练基本水印：设计了基于训练的水印，通过生成两个神经网络分别用于文本生成和水印检测，创建不可伪造的水印。
低熵token的水印：引入熵阈值以避免水印低熵token，因为这可能损害生成序列的正确性。
采样过程中的水印嵌入：某些方法的token采样过程中嵌入水印，以减少对LLM概率分布的扭曲，但这在低温度设置下可能难以产生可检测的水印。
多目标优化：引入了动态生成偏置参数和绿名单比率的方法，以达到检测性和语义连贯性的平衡。

2 水印对文本质量的影响

但是，在模型中加入水印，可能会带来下面一些影响：

质量与强度的权衡：大多数情况下，水印的强度越高，对生成文本的质量影响越大，导致文本的自然流畅性和语义连贯性下降。
分布偏移：引入分布偏移以提高水印的可检测性，但同时可能导致生成不太可能的token，影响文本的内在质量。
采样方案：旨在最小化对生成质量影响的采样方案在实践中可能无法在低温设置下产生可检测的水印。
动态优化：通过多目标优化方法可以实现水印的检测性和文本的语义连贯性之间的平衡。

3 Sparse Watermark

Sparse Watermark的目标是在不降低文本质量的前提下，增强水印的检测能力。这种方法通过仅对生成文本中一小部分选定的token进行水印处理，而不是像其他方法那样标记所有或大部分token。关键策略是将水印token锚定在具有特定词性标签（Part-of-Speech, POS）的词语上。Sparse Watermark在文本中稀疏地分布水印token，这意味着只有一小部分生成的token会被水印化，而其余的保持不变。

检测机制：Sparse Watermark的检测过程集中于那些被水印化的token，而不是检查整个文本中的每一个token，这有助于保持文本的整体质量。实验证明，即使Sparse Watermark的“绿名单”（即可以被水印化的token列表）比其他方法小很多，其生成的文本仍能保持较高的语义相似度。在各种生成任务中，Sparse Watermark生成的文本质量高于其他水印方法，同时保持了高可检测性。
对比分析：与SelfHash等其他水印技术相比，尽管SelfHash对更多的token进行了编码，但其生成的文本质量较低，而Sparse Watermark通过编码较少的token实现了更高的语义相似度。尽管SelfHash在z-score上表现更优，但考虑到Sparse Watermark使用了更少的token，其在保持文本质量和水印检测能力方面表现优异。
局限性：Sparse Watermark目前仅限于使用通用词性标签，这可能会简化水印去除的过程，但可以通过使用更复杂的词性标签集来克服这一问题。对于短文本，Sparse Watermark的适用性受限，因为短文本可能缺乏可用于水印的词语。