多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

news2024/11/16 5:40:28

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——

Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃

无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。

图片

研究人员设计了一种名为多次样本越狱(Many-shot Jailbreaking,MSJ)的攻击方法,通过向大模型灌输大量包含不良行为的文本样本实现。

通过这种方法,他们测试了包括Claude 2.0、GPT-4等在内的多个知名大模型。

结果,只要忽悠的次数足够多,这种方法就能在各种类型的不良信息上成功攻破大模型的防线。

目前,针对这一漏洞,尚未发现完美的解决方案,Anthropic表示,发布这一信息正是为了问题能尽快得到解决,并已提前向其他厂商和学术界通报了这一情况。

图片

那么,这项研究具体都有哪些发现呢?

知名模型无一幸免

首先,研究人员用去除了安全措施的模型生成了大量的有害字符串。

这些内容涵盖滥用或欺诈内容(Abusive or fraudulent)、虚假或误导性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威胁内容四个方面,每个方面各生成了2500条样本,研究人员从每种类型中各挑选了200个用于测试。

然后,研究人员把这些内容打乱顺序,并改编成用户与模型的“聊天记录”,并将目标问题一起输入被测模型。

图片

然后,研究人员用一个拒绝分类器(refusal classifier)来对攻击效果进行了评估,这个分类器会根据模型的响应来判断其是否“拒绝”了不适当的请求。

结果发现,闭源模型中最强的GPT-4和Claude,以及开源模型中最知名的Llama和Mistral,在面对不同类型的攻击信息时,无一例外全部沦陷。

而且随着样本数量的不断增多,这种攻击方法在四种类型的有害内容上的攻击成功率都呈现出了大幅上升,最多的已经超过了70%。

而且成功的概率与样本数量之间呈现出了指数分布,样本数量在8时以下几乎无法成功,而到了2^5(32)的位置出现了明显拐点,再到2^8(256)时已经拥有极高的成功率。

而从模型的维度看,除了Llama2-70B由于窗口长度限制没有样本较多时的数据之外,GPT、Claude等模型的负对数似然(NLL,越低代表攻击越成功)值也呈现出了这样的分布规律。

图片

同时研究人员还发现,目标问题与给出信息的匹配程度模型大信息的格式,也都会影响攻击的成功率。

当目标问题与攻击信息不匹配时,如果攻击信息涵盖的类型足够多样化,攻击成功率几乎没有受到任何影响,但当其涉及范围较窄时,攻击则几乎失效。

规模方面,越大的模型,被攻击的概率也越大;而通过交换身份、翻译等方式修改攻击内容的格式,也会提高成功概率。

图片

此外,这种攻击方式还可以与其他越狱技术结合,例如与黑盒攻击一同使用时,成功率最多可以提高将近20个百分点。

图片

总的来说,这样的攻击方式,从原理上看似乎很简单,但为什么窗口长度变长之后,成功率就增加了呢?

或许你已经注意到,研究人员发现“越狱”的成功率和样本数量遵循幂律分布,也就是随着样本越来越多,成功率不仅更高,增长得也更快。

而且研究发现,较大的模型在长上下文中学习的速度也更快,更容易受到上下文内容的影响。

而窗口长度的增加,也就意味着为有害信息提供了更多的土壤,可以加入的样本数量变多了,模型能看到学到的也就更多了,“越狱”概率自然随之大幅上升。

此外还有模型的长期依赖性的影响——较长的上下文允许模型学习并模仿更长序列的行为模式,这也可能导致模型在面对攻击时表现出不期望的行为。

那么,有没有什么办法能解决这个问题呢?有,但都还不完善。

解决方案仍待探索

针对这一问题,研究人员也提出了一些可能的解决方案,不过都还存在瑕疵。

最简单粗暴的,就是限制窗口长度,这种方法直接“釜底抽薪”,理论上是有效的,但难免有些因噎废食。

第二个思路,则是通过监督学习(SL)和强化学习(RL)来进行对齐微调,从而减少有害内容的生成。

可以看出,随着对齐强度的增大,成功攻击所需的样本数量确实有所增大,但并未改变指数型的增长趋势。

图片

于是研究人员又改用具有针对性的SL和RL,结果是外甥打灯笼——照旧(舅)。

随着RL步数的增加,攻击难度同样是越来越大,但是整体趋势依旧无法扭转。

图片

另外一种方式就是从提示词下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——

ICD在提示前添加拒绝有害问题的示例,而CWD则在提示前后添加警告文本,意图预防或减轻这种攻击带来的影响。

结果发现,作者提出的CWD方法效果出奇的好,在样本数不超过128时,攻击几乎无法取得成功,继续增加样本量时,61%的成功率也降到了2%。

图片

但这种方法同样存在局限性,一是攻击策略在不断变化、新的有害内容类型也随时可能出现,CWD可能需要频繁更新和维护才能保持有效,无疑会增加运营成本。

另外,过多的警告性文本可能会干扰模型的正常运作,例如减慢响应时间或影响生成内容的自然流畅性,导致用户体验下降。

总之,目前尚未找到既能完美解决问题又不显著影响模型效果的办法,Anthropic选择发布通告将这项研究公之于众,也是为了让整个业界都能关注这个问题,从而更快找到解决方案。

而这背后也体现出了人们对大模型认识的不足,就像这位Anthropic员工所说,人们在认识上下文窗口这件事情上,还有很长的路要走……

图片

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1568319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络-HTTP相关知识-HTTP的发展

HTTP/1.1 特点: 简单:HTTP/1.1的报文格式包括头部和主体,头部信息是键值对的形式,使得其易于理解和使用。灵活和易于扩展:HTTP/1.1的请求方法、URL、状态码、头字段等都可以自定义和扩展,使得其具有很高的…

Golang 内存管理和垃圾回收底层原理(一)

一、这篇文章我们来聊聊Golang内存管理和垃圾回收,主要注重基本底层原理讲解,进一步实战待后续文章 1、这篇我们来讨论一下Golang的内存管理 先上结构图 从图我们来讲Golang的基本内存结构,内存结构可以分为:协程缓存、中央缓存…

Redis的高可用(主从复制、哨兵模式、集群)的概述及部署

目录 一、Redis主从复制 1、Redis的主从复制的概念 2、Redis主从复制的作用 ①数据冗余: ②故障恢复: ③负载均衡: ④高可用基石: 3、Redis主从复制的流程 4、Redis主从复制的搭建 4.1、配置环境以及安装包 4.2所有主机…

chabot项目介绍

项目介绍 整体的目录如下所示: 上述的项目结构中出了model是必须的外,其他的都可以根据训练的代码参数传入进行调整,有些不需要一定存在data train.pkl:对原始训练语料进行tokenize之后的文件,存储一个list对象,list的每条数据表…

解密AI人工智能的整体分层架构:探索智能科技的未来之路

随着人工智能技术的迅猛发展,AI已经渗透到我们生活的方方面面。而支撑AI人工智能系统运作的核心是其整体分层架构。本文将深入探讨AI人工智能的整体分层架构,揭示其中的奥秘,探索智能科技的未来之路。 ### AI人工智能整体分层架构的重要性 …

Linux上安装DM8(达梦数据库),SpringBoot集成达梦

1.达梦数据库在Linux上的安装 官方手册:https://eco.dameng.com/document/dm/zh-cn/start/install-dm-linux-prepare.html 1.1下载安装包 官网:https://www.dameng.com/list_103.html 点击”服务与合作”--> “下载中心” 这里选择对应的cpu和操作系统(举个例子:windows版本…

Java基础 - 代码练习

第一题&#xff1a;集合的运用&#xff08;幸存者&#xff09; public class demo1 {public static void main(String[] args) {ArrayList<Integer> array new ArrayList<>(); //一百个囚犯存放在array集合中Random r new Random();for (int i 0; i < 100; …

JimuReport 积木报表

一款免费的数据可视化报表&#xff0c;含报表和大屏设计&#xff0c;像搭建积木一样在线设计报表&#xff01;功能涵盖&#xff0c;数据报表、打印设计、图表报表、大屏设计等&#xff01; Web 版报表设计器&#xff0c;类似于 excel 操作风格&#xff0c;通过拖拽完成报表设计…

从零到百万富翁:ChatGPT + Pinterest

原文&#xff1a;Zero to Millionaire Online: ChatGPT Pinterest 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 在社交媒体上赚取百万美元 - 逐步指南&#xff0c;如何在线赚钱版权 献给&#xff1a; 我将这本书&#xff0c;“从零到百万富翁在线&#xff1a;Chat…

【御控物联】JavaScript JSON结构转换(18):数组To对象——多层属性重组

文章目录 一、JSON结构转换是什么&#xff1f;二、案例之《JSON数组 To JSON对象》三、代码实现四、在线转换工具五、技术资料 一、JSON结构转换是什么&#xff1f; JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换&#xff0c;生成新的JS…

基于PHP的校园招聘管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的校园招聘管理系统 一 介绍 此校园招聘管理系统基于原生PHP开发&#xff0c;数据库mysql&#xff0c;前端bootstrap。系统角色分为个人用户&#xff0c;企业和管理员三种。 技术栈&#xff1a;phpmysqlbootstrapphpstudyvscode 二…

JS——判断节假日(假日包括周末,不包括调休上班的周末)

思路&#xff1a;创建两个数组&#xff0c;数组1为节假日数组&#xff0c;数组2为是周末上班日期数组。如果当前日期&#xff08;或某日期&#xff09;同时满足2个条件&#xff08;1.在节假日数组内或在周末。2.不在周末上班日期数组&#xff09;即为节假日&#xff0c;否则即为…

Mybatis-Plus05(分页插件)

分页插件 MyBatis Plus自带分页插件&#xff0c;只要简单的配置即可实现分页功能 1. 添加配置类 Configuration MapperScan("com.atguigu.mybatisplus.mapper") //可以将主类中的注解移到此处 public class MybatisPlusConfig {Bean public MybatisPlusIntercepto…

LeetCode-105. 从前序与中序遍历序列构造二叉树【树 数组 哈希表 分治 二叉树】

LeetCode-105. 从前序与中序遍历序列构造二叉树【树 数组 哈希表 分治 二叉树】 题目描述&#xff1a;解题思路一&#xff1a;暴力搜索解题思路二&#xff1a;哈希查找解题思路三&#xff1a; 题目描述&#xff1a; 给定两个整数数组 preorder 和 inorder &#xff0c;其中 pr…

通过vite创建项目

一、VUE3官网 Vue.js - 渐进式 JavaScript 框架 | Vue.js (vuejs.org) 二、通过Vite创建项目 1、在cmd窗口下&#xff0c;全局安装vite //使用国内镜像源 npm config set registryhttps://registry.npmmirror.com//安装最新版vite npm install -g vitelatest Vite | 下一代…

Python爬虫——基于JWT的模拟登录爬取实战

基于JWT的模拟登录爬取实战 JWT&#xff08;JSON Web Token&#xff09;主要由三部分组成&#xff1a; Header&#xff1a;包含了Token的类型&#xff08;“typ”&#xff09;和签名算法&#xff08;“alg”&#xff09;信息。通常情况下&#xff0c;这个部分会指定为{"…

ChatGPT 之创造力与沟通的演化

原文&#xff1a;ChatGPT … The Evolution of Creativity and Communication 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 作者注 亲爱的读者&#xff0c; ChatGPT&#xff0c;一位 AI 专家和一位律师走进了一家酒吧。酒保看着他们说&#xff1a;“这是什么&…

企业邮箱给谷歌Gmail报错550-5.7.25解决方案

企业邮箱给谷歌Gmail报错550-5.7.25解决方案 问题表现 今天接到同事报告企业邮箱发送报错的问题&#xff0c;具体问题表现如下&#xff1a; 我司内部邮箱 xxXXX.com 邮箱给国内的163和新浪和企业内部发送邮件可以成功给Hotmail发送邮件&#xff0c;成功。给Gmail发送邮件&am…

java计算机网络(一)-- url,tcp,udp,socket

网络编程&#xff1a; 计算机网络 计算机网络指将地理位置不同的具有独立功能的多台计算机及其外部设备&#xff0c;通过通信线路连接起来&#xff0c;在网络操作系统、网络管理软件及网络通信协议的管理和协调下&#xff0c;实现资源共享和信息传递的计算机系统。 网络协议…

前端工程师————CSS学习

选择器分类 选择器分为基础选择器和复合选择器 基础选择器包括&#xff1a;标签选择器&#xff0c;类选择器&#xff0c;id选择器&#xff0c;通配符选择器标签选择器 类选择器 语法&#xff1a;.类名{属性1&#xff1a; 属性值&#xff1b;} 类名可以随便起 多类名使用方式&am…