论文阅读：2023-arxiv Can AI-Generated Text be Reliably Detected?

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

文章目录

Abstract（摘要）
1 Introduction（引言）
Conclusion（结论）

Can AI-Generated Text be Reliably Detected?

https://arxiv.org/abs/2303.11156

https://www.doubao.com/chat/1883681028955650

Abstract（摘要）

大语言模型（LLMs）在文档完成、问答等各种应用中表现出色。以ChatGPT为例，它能像人一样编写计算机程序代码、创作歌词、完成文档以及回答问题。

然而，这些模型存在被滥用的风险，比如用于抄袭、制造假新闻和发送垃圾邮件等，这引发了人们对合理使用它们的担忧。因此，可靠地检测人工智能生成的文本成为了一个关键的研究领域。

近期的研究尝试通过多种方法来解决这个问题，例如识别生成文本输出中的模型特征，以及应用水印技术来检测人工智能生成的文本。在特定的设置下，这些检测方法是有效的。

在本文中，作者对这些人工智能文本检测器在攻击者存在的情况下进行了压力测试。作者引入了递归释义攻击，测试了多种检测方案，包括基于水印的、基于神经网络的、零样本分类器和基于检索的检测器。

实验用的文本段落大约300个词，实验结果显示，这些检测器对攻击的敏感程度各不相同。同时，递归释义攻击会使文本质量略有下降。作者通过人工研究、困惑度得分和文本基准测试的准确率，分析了攻击强度与文本质量之间的权衡关系。研究发现，递归释义方法能显著降低检测率，但在很多情况下对文本质量的影响很小，这表明当前的检测系统在面对攻击者时可能存在漏洞。

此外，作者还研究了带有水印的大语言模型容易受到的欺骗攻击，这种攻击会把人类写的文本误判为人工智能生成的。研究证明，攻击者无需直接访问检测方法的内部细节，就能推断出隐藏的人工智能文本特征，这可能会给大语言模型开发者带来声誉风险。

最后，作者提供了一个理论框架，将最佳检测器的受试者工作特征曲线下面积（AUROC）与人类文本和人工智能文本分布之间的总变差距离联系起来。这一分析揭示了随着语言模型不断发展，可靠检测所面临的根本挑战。本文的代码可在https://github.com/vinusankars/Reliability-of-AI-text-detectors上公开获取。

1 Introduction（引言）

近年来，人工智能取得了巨大进展，从计算机视觉领域的生成模型，到自然语言处理领域的大语言模型都有体现。大语言模型如今能够生成高质量的文本，并在众多应用场景中展现出潜力。就像ChatGPT可以完成各种各样的任务，应用范围十分广泛，并且随着时间推移，大语言模型的性能还会不断提升。

但是，这也带来了真实性和监管方面的重大挑战。人工智能工具可能会被用户滥用，用于不道德的目的。比如有人可能利用它抄袭，把人工智能生成的内容当作自己的；制造假新闻，误导大众；发送垃圾邮件，干扰人们正常使用网络；生成虚假的产品评论，影响消费者的判断；甚至为了社会工程目的操纵网页内容等，这些都会对社会产生负面影响。就像有些由人工智能改写的新闻文章存在很多基础性错误。所以，确保这些生成式人工智能工具的合理使用至关重要。为此，近期很多研究都聚焦于检测人工智能生成的文本。

近期的研究提出了多种检测方法。基于神经网络的检测器将检测问题视为一个二分类任务，OpenAI通过对基于RoBERTa的GPT-2检测器模型进行微调，来区分非人工智能生成的文本和GPT-2生成的文本，但这种方法需要针对每个新发布的大语言模型进行有监督的微调，才能实现可靠检测。零样本检测器则无需额外的训练，通过评估文本中每个词的预期对数概率并设置阈值来检测人工智能生成的文本，比如DetectGPT，但它需要访问生成人工智能文本的原始模型才能达到最佳性能。而且，基于神经网络的检测器和零样本检测器都依赖深度网络进行检测，容易受到对抗攻击和中毒攻击。

与这些方法不同，水印技术通过在人工智能生成的文本上添加人类难以察觉的特定模式，显著简化了检测过程。比如软水印技术，它把词分为 “绿色” 和 “红色” 列表，带有水印的大语言模型会根据前缀词由伪随机生成器确定的绿色列表中，以较高概率采样词。水印检测器会将包含大量绿色列表词的段落分类为人工智能生成的文本。这种软水印方法在多种场景下都很有效，但其要想真正发挥防止人工智能滥用的作用，必须在所有主要的大语言模型生成器中应用，否则攻击者可能会使用没有水印的大语言模型。还有基于信息检索的检测器，它通过将大语言模型的输出存储在数据库中，对候选文本进行语义相似性匹配来检测，但这种方法可能会引发严重的隐私问题。

一些新闻报道显示，这些流行的人工智能文本检测器在实际应用中可能会失效。在本文中，作者通过一系列实验，对当前最先进的人工智能文本检测器进行压力测试，评估它们在攻击者存在时的稳健性。

作者开发了一种递归释义攻击方法，利用基于神经网络的释义技术，对大语言模型的输出文本进行递归释义。通过自动递归释义实验，展示了一系列人工智能文本检测器对第二类错误（将人工智能生成的文本误判为人类生成的文本）的敏感性。例如，对长度约300个词的水印文本进行递归释义攻击，能使检测率（在1% 误报率下的真阳性率，即TPR@1%FPR）从99.3% 降至9.7%。并且这种攻击会使文本质量略有下降，作者通过人工研究、困惑度得分和文本基准测试的准确率，分析了攻击与文本质量之间的权衡关系。

作者的攻击方法与之前相对较弱的攻击不同，之前的攻击只是用大语言模型随机替换文本中的一些词，而作者的攻击实验更能体现水印方案在面对更强攻击者的释义攻击时的敏感性。与其他基于替换的攻击相比，本文的攻击重点在于非对抗性的迭代或递归文本释义攻击。

经过释义后，零样本检测器的受试者工作特征曲线下面积（AUROC）从96.5% 降至25.2%，基于神经网络的训练检测器性能也显著下降，比如OpenAI的RoBERTa-Large-Detector的TPR@1%FPR从100% 降至60%。此外，原本设计用来规避释义攻击的基于检索的检测器，也容易受到作者递归释义攻击的影响，其检测准确率从100% 降至60% 以下。

为了量化递归释义后文本质量的下降程度，作者进行了MTurk人工评估研究，并测量了困惑度和文本基准测试准确率等自动指标。人工评估研究表明，77% 的递归释义段落在内容保留方面被评为高质量，89% 在语法或文本质量方面被评为高质量。将递归释义应用于问答数据集等文本基准测试时，不会影响其性能，这进一步证明递归释义不会损害原始文本的内容。虽然攻击者可能会通过人工干预进一步提高文本质量，但释义攻击足以让攻击者进行垃圾邮件发送、网络钓鱼或传播宣传等社会工程任务。

在第3节中，作者还展示了对各种人工智能文本检测器进行欺骗攻击的可能性。在这种攻击中，攻击者生成的非人工智能文本被误判为人工智能生成的，从而增加了第一类错误（将人类生成的文本误判为人工智能生成的文本）。攻击者可能会利用这种攻击生成诋毁性文本，并使其被误判为人工智能生成的，从而影响目标大语言模型开发者的声誉。例如，攻击者可以在不了解检测方法内部细节的情况下，通过多次查询目标大语言模型并分析生成的词的统计信息，推断出隐藏的人工智能文本特征。

最后在第4节中，作者给出了关于人工智能文本检测难度的理论结果。定理1表明，区分人类文本和人工智能生成文本的最佳检测器的AUROC，会随着两者之间的总变差距离减小而降低。这意味着随着大语言模型越来越复杂，攻击者可以训练模型模仿人类文本，缩小两者之间的总变差距离，使检测变得更加困难。虽然从有限的样本中估计文本分布之间的准确总变差距离是一个具有挑战性的问题，但作者通过模拟数据和总变差估计提供了一些经验证据，表明更先进的大语言模型可能会导致更小的总变差距离。此外，该理论还揭示了人工智能文本检测中第一类错误和第二类错误之间的基本权衡关系。

识别人工智能生成的文本对于避免其被滥用至关重要，但盲目依赖这些检测器可能会带来问题，比如错误地指责人类抄袭。本文的研究结果突出了多种检测器对逃避攻击和欺骗攻击的敏感性，表明在有攻击者的情况下开发可靠的检测器存在困难。作者希望通过这些压力测试实验，揭示人工智能文本检测器对各种攻击的敏感性。

本文的主要贡献包括：首次全面分析了基于水印、神经网络、零样本和基于检索这四类检测器的稳健性，并在攻击者存在的情况下对它们进行了压力测试，其中开发的递归释义攻击首次成功破解了近期提出的水印和基于检索的检测器，且通过实验分析发现递归释义在很多情况下只会轻微降低文本质量；首次证明现有检测器容易受到欺骗攻击，攻击者无需了解检测方法的内部细节，就能写出被误判为人工智能生成的文本，比如通过探测带水印的大语言模型来推断水印特征。

在这里插入图片描述

Conclusion（结论）

本文对四类不同的文本检测器进行了压力测试，这些检测器包括基于水印、神经网络、零样本和基于检索的检测器，测试是在存在攻击者的情况下进行的。作者开发了一种强大的逃避攻击方法，名为递归释义攻击，这种攻击能够破解近期提出的基于水印和基于检索的检测器。

为了量化攻击后文本质量的下降程度，作者利用MTurk人工研究以及其他自动指标进行评估。同时，论文还表明攻击者可以欺骗这些检测器，从而增加第一类错误（将人类文本误判为AI生成文本）的发生概率，这可能会对大语言模型开发者的声誉造成损害。

最后，作者建立了一个理论联系，将最佳可能的检测器的受试者工作特征曲线下面积（AUROC）与人类文本和AI生成文本分布之间的总变差距离（TV距离）联系起来。这个理论联系可用于研究更先进大语言模型的可靠检测问题的根本难度。

从未来发展来看，根据本文的理论，攻击者可能会对抗性地训练大语言模型，使其专门模仿特定人群的文本风格，从而最小化总变差距离，以此轻松逃避检测。这方面可能会有更多有趣的研究出现。虽然目前作者使用的释义工具已经很强大，但在一些特定的技术领域，如临床文本数据，这些工具可能表现不佳。不过，未来更强大的释义工具或许能够解决这些问题。通过展示更大模型的总变差距离估计值更小的实证证据，作者推测随着大语言模型变得更强大，可靠检测会变得更加困难。

理想情况下，检测器应该能够可靠地识别出AI生成的文本，以防止大语言模型被滥用。然而，检测器误识别的代价可能非常大。如果检测器的误报率不够低，人类（例如学生）可能会被错误地指控使用AI进行抄袭。此外，一篇被误判为AI生成的诋毁性文章可能会影响大语言模型开发者的声誉。因此，AI文本检测器的实际应用可能变得不可靠和无效。

安全方法不一定需要做到万无一失，但必须确保攻击者难以突破这些安全防御。所以，对当前和未来的检测器进行压力测试至关重要，这样可以避免营造出一种虚假的安全感。