论文阅读:2023-arxiv Can AI-Generated Text be Reliably Detected?

news2025/3/18 15:49:02

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

文章目录

  • Abstract(摘要)
  • 1 Introduction(引言)
  • Conclusion(结论)

Can AI-Generated Text be Reliably Detected?

https://arxiv.org/abs/2303.11156

https://www.doubao.com/chat/1883681028955650

Abstract(摘要)

大语言模型(LLMs)在文档完成、问答等各种应用中表现出色。以ChatGPT为例,它能像人一样编写计算机程序代码、创作歌词、完成文档以及回答问题。

然而,这些模型存在被滥用的风险,比如用于抄袭、制造假新闻和发送垃圾邮件等,这引发了人们对合理使用它们的担忧。因此,可靠地检测人工智能生成的文本成为了一个关键的研究领域。

近期的研究尝试通过多种方法来解决这个问题,例如识别生成文本输出中的模型特征,以及应用水印技术来检测人工智能生成的文本。在特定的设置下,这些检测方法是有效的。

在本文中,作者对这些人工智能文本检测器在攻击者存在的情况下进行了压力测试。作者引入了递归释义攻击,测试了多种检测方案,包括基于水印的、基于神经网络的、零样本分类器和基于检索的检测器。

实验用的文本段落大约300个词,实验结果显示,这些检测器对攻击的敏感程度各不相同。同时,递归释义攻击会使文本质量略有下降。作者通过人工研究、困惑度得分和文本基准测试的准确率,分析了攻击强度与文本质量之间的权衡关系。研究发现,递归释义方法能显著降低检测率,但在很多情况下对文本质量的影响很小,这表明当前的检测系统在面对攻击者时可能存在漏洞。

此外,作者还研究了带有水印的大语言模型容易受到的欺骗攻击,这种攻击会把人类写的文本误判为人工智能生成的。研究证明,攻击者无需直接访问检测方法的内部细节,就能推断出隐藏的人工智能文本特征,这可能会给大语言模型开发者带来声誉风险。

最后,作者提供了一个理论框架,将最佳检测器的受试者工作特征曲线下面积(AUROC)与人类文本和人工智能文本分布之间的总变差距离联系起来。这一分析揭示了随着语言模型不断发展,可靠检测所面临的根本挑战。本文的代码可在https://github.com/vinusankars/Reliability-of-AI-text-detectors上公开获取。

1 Introduction(引言)

近年来,人工智能取得了巨大进展,从计算机视觉领域的生成模型,到自然语言处理领域的大语言模型都有体现。大语言模型如今能够生成高质量的文本,并在众多应用场景中展现出潜力。就像ChatGPT可以完成各种各样的任务,应用范围十分广泛,并且随着时间推移,大语言模型的性能还会不断提升。

但是,这也带来了真实性和监管方面的重大挑战。人工智能工具可能会被用户滥用,用于不道德的目的。比如有人可能利用它抄袭,把人工智能生成的内容当作自己的;制造假新闻,误导大众;发送垃圾邮件,干扰人们正常使用网络;生成虚假的产品评论,影响消费者的判断;甚至为了社会工程目的操纵网页内容等,这些都会对社会产生负面影响。就像有些由人工智能改写的新闻文章存在很多基础性错误。所以,确保这些生成式人工智能工具的合理使用至关重要。为此,近期很多研究都聚焦于检测人工智能生成的文本。

近期的研究提出了多种检测方法。基于神经网络的检测器将检测问题视为一个二分类任务,OpenAI通过对基于RoBERTa的GPT-2检测器模型进行微调,来区分非人工智能生成的文本和GPT-2生成的文本,但这种方法需要针对每个新发布的大语言模型进行有监督的微调,才能实现可靠检测。零样本检测器则无需额外的训练,通过评估文本中每个词的预期对数概率并设置阈值来检测人工智能生成的文本,比如DetectGPT,但它需要访问生成人工智能文本的原始模型才能达到最佳性能。而且,基于神经网络的检测器和零样本检测器都依赖深度网络进行检测,容易受到对抗攻击和中毒攻击。

与这些方法不同,水印技术通过在人工智能生成的文本上添加人类难以察觉的特定模式,显著简化了检测过程。比如软水印技术,它把词分为 “绿色” 和 “红色” 列表,带有水印的大语言模型会根据前缀词由伪随机生成器确定的绿色列表中,以较高概率采样词。水印检测器会将包含大量绿色列表词的段落分类为人工智能生成的文本。这种软水印方法在多种场景下都很有效,但其要想真正发挥防止人工智能滥用的作用,必须在所有主要的大语言模型生成器中应用,否则攻击者可能会使用没有水印的大语言模型。还有基于信息检索的检测器,它通过将大语言模型的输出存储在数据库中,对候选文本进行语义相似性匹配来检测,但这种方法可能会引发严重的隐私问题。

一些新闻报道显示,这些流行的人工智能文本检测器在实际应用中可能会失效。在本文中,作者通过一系列实验,对当前最先进的人工智能文本检测器进行压力测试,评估它们在攻击者存在时的稳健性。

作者开发了一种递归释义攻击方法,利用基于神经网络的释义技术,对大语言模型的输出文本进行递归释义。通过自动递归释义实验,展示了一系列人工智能文本检测器对第二类错误(将人工智能生成的文本误判为人类生成的文本)的敏感性。例如,对长度约300个词的水印文本进行递归释义攻击,能使检测率(在1% 误报率下的真阳性率,即TPR@1%FPR)从99.3% 降至9.7%。并且这种攻击会使文本质量略有下降,作者通过人工研究、困惑度得分和文本基准测试的准确率,分析了攻击与文本质量之间的权衡关系。

作者的攻击方法与之前相对较弱的攻击不同,之前的攻击只是用大语言模型随机替换文本中的一些词,而作者的攻击实验更能体现水印方案在面对更强攻击者的释义攻击时的敏感性。与其他基于替换的攻击相比,本文的攻击重点在于非对抗性的迭代或递归文本释义攻击。

经过释义后,零样本检测器的受试者工作特征曲线下面积(AUROC)从96.5% 降至25.2%,基于神经网络的训练检测器性能也显著下降,比如OpenAI的RoBERTa-Large-Detector的TPR@1%FPR从100% 降至60%。此外,原本设计用来规避释义攻击的基于检索的检测器,也容易受到作者递归释义攻击的影响,其检测准确率从100% 降至60% 以下。

为了量化递归释义后文本质量的下降程度,作者进行了MTurk人工评估研究,并测量了困惑度和文本基准测试准确率等自动指标。人工评估研究表明,77% 的递归释义段落在内容保留方面被评为高质量,89% 在语法或文本质量方面被评为高质量。将递归释义应用于问答数据集等文本基准测试时,不会影响其性能,这进一步证明递归释义不会损害原始文本的内容。虽然攻击者可能会通过人工干预进一步提高文本质量,但释义攻击足以让攻击者进行垃圾邮件发送、网络钓鱼或传播宣传等社会工程任务。

在第3节中,作者还展示了对各种人工智能文本检测器进行欺骗攻击的可能性。在这种攻击中,攻击者生成的非人工智能文本被误判为人工智能生成的,从而增加了第一类错误(将人类生成的文本误判为人工智能生成的文本)。攻击者可能会利用这种攻击生成诋毁性文本,并使其被误判为人工智能生成的,从而影响目标大语言模型开发者的声誉。例如,攻击者可以在不了解检测方法内部细节的情况下,通过多次查询目标大语言模型并分析生成的词的统计信息,推断出隐藏的人工智能文本特征。

最后在第4节中,作者给出了关于人工智能文本检测难度的理论结果。定理1表明,区分人类文本和人工智能生成文本的最佳检测器的AUROC,会随着两者之间的总变差距离减小而降低。这意味着随着大语言模型越来越复杂,攻击者可以训练模型模仿人类文本,缩小两者之间的总变差距离,使检测变得更加困难。虽然从有限的样本中估计文本分布之间的准确总变差距离是一个具有挑战性的问题,但作者通过模拟数据和总变差估计提供了一些经验证据,表明更先进的大语言模型可能会导致更小的总变差距离。此外,该理论还揭示了人工智能文本检测中第一类错误和第二类错误之间的基本权衡关系。

识别人工智能生成的文本对于避免其被滥用至关重要,但盲目依赖这些检测器可能会带来问题,比如错误地指责人类抄袭。本文的研究结果突出了多种检测器对逃避攻击和欺骗攻击的敏感性,表明在有攻击者的情况下开发可靠的检测器存在困难。作者希望通过这些压力测试实验,揭示人工智能文本检测器对各种攻击的敏感性。

本文的主要贡献包括:首次全面分析了基于水印、神经网络、零样本和基于检索这四类检测器的稳健性,并在攻击者存在的情况下对它们进行了压力测试,其中开发的递归释义攻击首次成功破解了近期提出的水印和基于检索的检测器,且通过实验分析发现递归释义在很多情况下只会轻微降低文本质量;首次证明现有检测器容易受到欺骗攻击,攻击者无需了解检测方法的内部细节,就能写出被误判为人工智能生成的文本,比如通过探测带水印的大语言模型来推断水印特征。

在这里插入图片描述

Conclusion(结论)

本文对四类不同的文本检测器进行了压力测试,这些检测器包括基于水印、神经网络、零样本和基于检索的检测器,测试是在存在攻击者的情况下进行的。作者开发了一种强大的逃避攻击方法,名为递归释义攻击,这种攻击能够破解近期提出的基于水印和基于检索的检测器。

为了量化攻击后文本质量的下降程度,作者利用MTurk人工研究以及其他自动指标进行评估。同时,论文还表明攻击者可以欺骗这些检测器,从而增加第一类错误(将人类文本误判为AI生成文本)的发生概率,这可能会对大语言模型开发者的声誉造成损害。

最后,作者建立了一个理论联系,将最佳可能的检测器的受试者工作特征曲线下面积(AUROC)与人类文本和AI生成文本分布之间的总变差距离(TV距离)联系起来。这个理论联系可用于研究更先进大语言模型的可靠检测问题的根本难度。

从未来发展来看,根据本文的理论,攻击者可能会对抗性地训练大语言模型,使其专门模仿特定人群的文本风格,从而最小化总变差距离,以此轻松逃避检测。这方面可能会有更多有趣的研究出现。虽然目前作者使用的释义工具已经很强大,但在一些特定的技术领域,如临床文本数据,这些工具可能表现不佳。不过,未来更强大的释义工具或许能够解决这些问题。通过展示更大模型的总变差距离估计值更小的实证证据,作者推测随着大语言模型变得更强大,可靠检测会变得更加困难。

理想情况下,检测器应该能够可靠地识别出AI生成的文本,以防止大语言模型被滥用。然而,检测器误识别的代价可能非常大。如果检测器的误报率不够低,人类(例如学生)可能会被错误地指控使用AI进行抄袭。此外,一篇被误判为AI生成的诋毁性文章可能会影响大语言模型开发者的声誉。因此,AI文本检测器的实际应用可能变得不可靠和无效。

安全方法不一定需要做到万无一失,但必须确保攻击者难以突破这些安全防御。所以,对当前和未来的检测器进行压力测试至关重要,这样可以避免营造出一种虚假的安全感。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2317300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Language Models are Few-Shot Learners,GPT-3详细讲解

GPT的训练范式:预训练Fine-Tuning GPT2的训练范式:预训练Prompt predict (zero-shot learning) GPT3的训练范式:预训练Prompt predict (few-shot learning) GPT2的性能太差,新意高&…

Hoppscotch 开源API 开发工具

Hoppscotch 是一个开源的 API 开发工具,旨在为开发者提供一个轻量级、快速且功能丰富的 API 开发和调试平台。以下是对其主要特性和功能的详细介绍: 1. 轻量级与高效 Hoppscotch 采用简约的 UI 设计,注重易用性和高效性。它支持实时发送请求…

【芯片验证】面试题·对深度为60的数组进行复杂约束的技巧

朋友发给我的芯片验证笔试题,觉得很有意思,和大家分享一下。 面试题目 class A中一个长度为60的随机数组rand int arr[60],如何写约束使得: 1.每个元素的值都在(0,100]之间,且互不相等; 2.最少有三个元素满足勾股数要求,比如数组中包含3,4,5三个点; 请以解约束最快…

Manus “Less structure,More intelligence ”独行云端处理器

根据市场调研机构Statista数据显示,全球的AR/AR的市场规模预计目前将达到2500亿美元,Manus作为VR手套领域的领军企业,足以颠覆你的认知。本篇文章将带你解读Manus产品,针对用户提出的种种问题,Manus又将如何解决且让使…

【再读】R1-Onevision通过跨模态形式化为复杂多模态推理任务提供了系统性解决方案

R1-Onevision:跨模态形式化驱动的多模态推理技术突破,R1-Onevision通过跨模态形式化、双阶段训练和教育级基准测试,为多模态推理树立了新标杆。其技术创新不仅提升了模型在复杂任务中的表现,更重要的是为行业提供了一种可解释、可迁移的多模态处理范式。随着形式化方法的不断…

SSM框架——Spring面试题

Spring常见面试题 Spring框架中的单例bean是线程安全的吗 不是线程安全的 Spring框架中有一个Scope注解,默认的值就是singleton,单例的。 因为一般在spring的bean的中都是注入无状态的对象,没有线程安全问题,如果在bean中定义了可…

云原生大佬重生,记忆逐步复苏(十三:selinux模块)

目录 1:什么是selinux 1.1 SELinux 的作用 1.2. SELinux 的工作原理 1.3. SELinux 的运行模式 2:解析selinux文件上下文标签策略 3:selinux的布尔值 4:调查和解决selinux问题 1:什么是selinux SELinux(Security-Enhanced L…

MySQL高频八股——事务过程中Undo log、Redo log、Binlog的写入顺序(涉及两阶段提交)

大家好,我是钢板兽! 在上一篇文章中,我分别介绍了 Undo Log、Redo Log 和 Binlog 在事务执行过程中的作用与写入机制。然而,实际应用中,这三种日志的写入是有先后顺序的。因此,本篇文章将深入探讨它们的写…

C++进阶——AVL树的实现

1、AVL的概念 1.1 AVL 树的发明 AVL 树由 G.M. Adelson-Velsky 和 E.M. Landis 在 1962 年的论文《An algorithm for the organization of information》中提出。他们的设计目标是解决二叉搜索树在动态操作(插入、删除)中可能退化为链表的问题。 1.2 …

打包当前Ubuntu镜像 制作Ubuntu togo系统

我的系统的基本情况说明: 我原来的系统的具体型号如下: uname -rLinux Engine 5.15.0-134-generic #145~20.04.1-Ubuntu SMP Mon Feb 17 13:27:16 UTC 2025 x86_64 x86_64 x86_64 GNU/Linux我原来的硬盘以及分区策略如下: 可以看到我的分区…

系统架构设计师—案例分析—架构设计

文章目录 经典架构风格对比面向对象架构风格/显示调用风格优点缺点举例 事件驱动的系统/隐式调用风格优点缺点举例 基于规则的系统架构风格优点缺点举例 管道过滤器风格优点缺点举例 仓库风格优点缺点举例 解释器风格优点缺点举例 分层架构风格优点缺点举例 经典架构风格对比 …

基于javaweb的SpringBoot智能相册管理系统图片相册系统设计与实现(源码+文档+部署讲解)

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…

Android 14 Telephony 网络选择功能介绍

一、总体介绍 (一)功能 手动搜网的流程:用户通过UI触发,调用TelephonyManager的API,比如startNetworkScan,然后这个请求会传递到RIL层,通过AT命令与基带通信,进行网络扫描。结果返回后,经过TelephonyRegistry通知应用层。中间可能涉及IPC,比如Binder通信,因为应用和…

深入解析音频编解码器(Audio CODEC):硬件、接口与驱动开发

音频编解码器(Audio CODEC)是音频处理系统中的核心组件,负责 模拟信号与数字信号的相互转换,广泛应用于 智能音箱、嵌入式系统、消费电子产品 等设备。本篇文章将从 硬件结构、接口解析、驱动开发 和 软件配置 等方面,…

深度学习【迭代梯度下降法求解线性回归】

梯度下降法 梯度下降法是一种常用迭代方法,其目的是让输入向量找到一个合适的迭代方向,使得输出值能达到局部最小值。在拟合线性回归方程时,我们把损失函数视为以参数向量为输入的函数,找到其梯度下降的方向并进行迭代&#xff0…

[Lc14_priority_queue] 最后一块石头重量 | 数据流中的第 K 大元素 | 前K个高频单词 | 数据流的中位数

目录 1.最后一块石头的重量 题解 2.数据流中的第 K 大元素 题解 3.前K个高频单词 题解 代码 ⭕4.数据流的中位数 题解 在C中,使用标准库中的priority_queue,默认情况下它是一个最大堆(即大堆排序),这意味着最…

熔断和降级的区别,具体使用场景有哪些?

熔断与降级的核心区别在于触发条件和应用目标,具体差异及使用场景如下: 一、核心区别 对比维度熔断降级触发原因下游依赖服务故障(如超时、异常率过高)触发系统整体负载过高或流量洪峰管理目标层级框架级保护(无业务优…

利用hexo+github部署属于自己的个人博客网站(2025年3月所写)

利用hexogithub部署属于自己的个人博客网站 前情提要:如果你出现了莫名其妙的报错,可能与权限有关,可以以管理员的身份运行git bash或者cmd 本篇博客仅限于利用hexo搭建博客,并且部署到github上面,让自己可以有一个访…

pandas学习笔记(一)——基础知识和应用案例

pandas学习笔记 基础语法参考菜鸟教程:https://www.runoob.com/pandas/pandas-tutorial.html # jupyter import pandas as pd import matplotlib from matplotlib import pyplot as plt import numpy as npmatplotlib.use(TkAgg)data {timestamp: [1, 2, 3, 4, 5…

【AI 大模型】RAG 检索增强生成 ⑤ ( 向量数据库 | 向量数据库 索引结构和搜索算法 | 常见 向量数据库 对比 | 安装并使用 向量数据库 chromadb 案例 )

文章目录 一、向量数据库1、向量数据库引入2、向量数据库简介3、向量数据库 索引结构和搜索算法4、向量数据库 应用场景5、传统数据库 与 向量数据库 对比 二、常见 向量数据库 对比三、向量数据库 案例1、安装 向量数据库 chromadb2、核心要点 解析① 创建数据库实例② 创建数…