论文翻译:arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models

news2024/11/25 4:31:48

Ignore Previous Prompt: Attack Techniques For Language Models
https://arxiv.org/pdf/2211.09527

忽略之前的提示:针对语言模型的攻击技术

文章目录

  • 忽略之前的提示:针对语言模型的攻击技术
  • 摘要
  • 1 引言

摘要

基于Transformer的大型语言模型(LLMs)为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而,探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT,一个基于掩码的迭代对抗性提示组合的平淡对齐框架,我们检验了GPT-3(生产中部署最广泛的语言模型)如何容易被简单的手工输入所误导。特别是,我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的,但足够恶意的代理,也可以轻易利用GPT-3的随机性,造成长尾风险。PROMPTINJECT的代码可在github.com/agencyenterprise/PromptInject上获得。

1 引言

2020年,OpenAI引入了GPT-3 [3],这是一个能够完成文本输入以产生类似人类结果的大型语言模型(LLM)。它的文本完成能力可以推广到其他自然语言处理(NLP)任务,如文本分类、问答和摘要。从那时起,GPT-3和其他LLMs——如BERT [5]、GPT-J [25]、T5 [22]和OPT [31]——通过在各种任务上取得最先进的成果,彻底改变了NLP。

创建GPT-3(和类似LLMs)应用程序的一种方法是设计一个接收用户输入的提示,通过字符串替换 [15]。例如,可以通过使用提示“纠正这个到标准英语:‘{user_input}’”,其中{user_input}是最终用户提供的短语,简单地构建一个语法修复工具。值得注意的是,一个非常简单的提示能够完成非常复杂的任务。使用基于规则的策略构建类似的应用程序将会更加困难(甚至不可行)。

然而,使用GPT-3构建应用程序的便利性是有代价的:恶意用户可以通过应用程序界面轻易注入对抗性指令。由于GPT-3提示的非结构化和开放式特性,保护应用程序免受这些攻击可能非常具有挑战性。我们将插入恶意文本以误导LLM的行为定义为提示注入。提示注入最近在社交媒体上引起了关注,用户发布了提示注入的例子,以误导基于GPT-3的应用程序的目标 [8, 27, 28]。然而,探索这些现象的研究仍然很少。在这项工作中,我们研究了对手如何通过提示注入滥用LLMs。我们提出了两种攻击(图1)——目标劫持和提示泄露——并分析了它们的可行性和有效性。

我们将目标劫持定义为将提示的原始目标重新对齐到打印目标短语的新目标的行为。我们展示了恶意用户可以通过人工制作的提示注入轻易执行目标劫持。

我们将提示泄露定义为将提示的原始目标重新对齐到打印部分或全部原始提示的新目标的行为。恶意用户可以尝试执行提示泄露,目标是复制特定应用程序的提示,这可能是基于GPT-3的应用程序最重要的部分。

我们的工作强调了研究提示注入攻击的重要性,并提供了影响因素的见解。我们相信,我们的工作可以帮助社区更好地理解使用LLMs的安全风险,并设计更好的LLM驱动的应用程序。我们的主要贡献如下:

  1. 我们研究了针对LLMs的提示注入攻击,并提出了一个框架来探索这类攻击。
  2. 我们调查了两种特定的攻击:目标劫持和提示泄露。
  3. 我们提供了我们工作的AI x-risk分析 [9](附录A)。
    在这里插入图片描述

图1:图表显示了对抗性用户输入如何破坏模型指令。在两种攻击中,攻击者的目标是改变原始提示的目标。在目标劫持中,新目标是打印一个特定的目标字符串,该字符串可能包含恶意指令,而在提示泄露中,新目标是打印应用程序提示。应用程序提示(灰色框)显示了原始提示,其中{user_input}被用户输入替换。在这个例子中,用户通常会输入一个短语供应用程序(蓝色框)更正。目标劫持和提示泄露(橙色框)显示了两种攻击的恶意用户输入(左)以及在攻击成功时各自的模型输出(右)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2128671.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

G1: Yunli‘s Subarray Queries (easy version)(1900)(定长区间众数)

思路&#xff1a;因为是定长区间&#xff0c;因此我们可以利用滑动窗口维护定长区间的众数的数量 AC代码&#xff1a; #include<bits/stdc.h>using namespace std;typedef long long ll; const int MOD 998244353; const int N 2e5 10;ll a[N]; ll b[N];//前i个数的…

com.alibaba.druid.pool.DruidDataSource error

Druid报错 Sep 11, 2024 11:16:03 AM com.alibaba.druid.pool.DruidDataSource error SEVERE: init datasource error, url: "jdbc:mysql://x.x.x.x:xxxx/test01?useSSLfalse&serverTimezoneUTC" java.sql.SQLException: connect error, url "jdbc:mysql:…

JAVA:对称加密技术的详细指南

请关注微信公众号&#xff1a;拾荒的小海螺 博客地址&#xff1a;http://lsk-ww.cn/ 1、简述 对称加密是一种加密算法&#xff0c;其中加密和解密使用相同的密钥。其主要特点是速度快、效率高&#xff0c;适用于大数据量的加密需求。对称加密算法通常用于保护数据的机密性和完…

Day17_0.1基础学习MATLAB学习小技巧总结(17)——字符向量元胞数组

利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍&#xff0c;为了在这个过程中加深印象&#xff0c;也为了能够有所足迹&#xff0c;我会把自己的学习总结发在专栏中&#xff0c;以便学习交流。 素材来源“数学建模清风” 特此说明&#xff1a;本博客的内容只在于总结在…

谷歌浏览器Chrome安装历史版本(亲测可用)

前言&#xff1a; 谷歌浏览器Chrome安装历史版本&#xff08;亲测可用&#xff09; 官网链接&#xff1a; https://downzen.com/en/windows/google-chrome/versions/?page4https://downzen.com/en/windows/google-chrome/versions/?page4 使用教程&#xff1a; 1、打开官网…

C++ 二叉树进阶

1.二叉搜索树简介 二叉搜索树又称二叉排序树&#xff0c;它或者是一棵空树 &#xff0c;或者是具有以下性质的二叉树 : 若它的左子树不为空&#xff0c;则左子树上 所有节点的值都小于根节点的值 若它的右子树不为空&#xff0c;则右子树上 所有节点的值都大于根节点的值 它…

人工智能对教育4.0的影响

随着技术变革的加速&#xff0c;迫切需要支持教育系统管理新的机遇和风险。如果管理得当&#xff0c;技术为帮助教育系统实现教育4.0提供了一个独特的机会。教育4.0是一种专注于为学习者提供适合未来的能力、技能、态度和价值观的教学方法。“教育4.0”是由全球教育专家、从业者…

艾体宝干货丨OIDA之二:掌握数据包分析-学会识别

在 OIDA 方法&#xff08;观察、识别、剖析、分析&#xff09;中&#xff0c;识别阶段对于在捕获的网络流量中精确定位相关数据至关重要。本文重点介绍如何在这一关键步骤中有效使用 Wireshark 和 Profitap 的 IOTA。 OIDA方法系列文章主要包含四个部分&#xff0c;分别是观察…

鸿蒙OS 应用基础知识

APP HarmonyOS 的应用软件包以 APP Pack&#xff08;Application Package&#xff09;形式发布&#xff0c;它是由一个或多个 HAP&#xff08;HarmonyOS Ability Package&#xff09;以及描述每个 HAP 属性的 pack.info 组成。HAP 是 [Ability]的部署包&#xff0c;HarmonyOS …

虚拟机安装VMware-tools详细教程

这里以VM16.12版本为例子&#xff0c;所有windows系统在所有虚拟机版本上都是一样的操作&#xff0c;参考即可 第一步打开虚拟机&#xff0c;这里需要注意的是虚拟机设备要有CD/DVD驱动器&#xff0c;这也是很多人说vmtool安装按钮是灰色的原因 第二步:打开虚拟机&#xff0c;…

linux入门到实操-1 Linux概述、诞生过程、发行版本,如何安装?

教程来源&#xff1a;B站视频BV1WY4y1H7d3 3天搞定Linux&#xff0c;1天搞定Shell&#xff0c;清华学神带你通关_哔哩哔哩_bilibili 整理汇总的课程内容笔记和课程资料&#xff0c;供大家学习交流下载&#xff1a;夸克网盘分享 本文内容为完整笔记的入门篇 概述部分历史内容…

git push失败原因上传的文件超过了Gitee的上限100M

! [remote rejected] master -> master (pre-receive hook declined) error: failed to push some refs to 这个错误信息表明你在尝试将更改推送到Gitee的socket_service仓库时遇到了问题。具体来说&#xff0c;问题出在你尝试推送的文件大小超过了Gitee平台设定的限制。Git…

Science Robotics 在小动物模型中实现渐进和可逆主动脉收缩的软机器人平台

前言速览&#xff1a;目前对左心室压力过载引起心脏重构过程的理解主要来源于主动脉束带的动物模型。然而&#xff0c;这些研究未能同时控制疾病的进展和逆转&#xff0c;阻碍了其临床意义。为此&#xff0c;来自哈佛大学、麻省理工学院等的研究人员介绍了一种基于植入式可扩张…

回馈式负载箱的操作和维护

回馈式负载箱是用于测试电源设备&#xff08;如发电机、逆变器等&#xff09;性能的设备&#xff0c;它可以模拟真实的负载情况&#xff0c;通过调节负载的大小和类型&#xff0c;来检测电源设备的输出能力和稳定性。回馈式负载箱的操作和维护对于保证其正常工作和延长使用寿命…

19:I2C一:程序模拟I2C通信时序

I2C 1、什么是I2C2、I2C的通信时序2.1&#xff1a;起始信号2.2&#xff1a;停止信号2.3&#xff1a;主机向从机发送一个字节数据2.4&#xff1a;主机向从机读取一个字节数据2.5&#xff1a;主机接收应答2.6&#xff1a;主机发送应答 3、程序模拟I2C的通信时序3.1&#xff1a;指…

为什么企业需要数据目录?

想象一下&#xff0c;如果在没有目录系统的庞大图书馆里寻找一本特定的书&#xff0c;你可能会耗费无数个小时搜索&#xff0c;但最终却一无所获。 同理&#xff0c;企业的数据如果没有一个组织良好、易于搜索的系统&#xff0c;也无法充分发挥其潜力。企业数据目录能够简化这一…

“爱满中华”与“民生之语”——全国人民的幸福之音!

近年来,随着科技的不断进步,数字化手段在各个领域的应用越来越广泛。在此背景下,我国宣传部推出了“爱满中华”全民自助补贴APP,旨在通过数字化手段,更有效地推行全民扶贫补助政策,而“爱满中华”自助补贴平台和“民生之语”利民通讯软件也正式被我国中信办称为国家网络未来工程…

组合总和IV(力扣---动态规划)

文章目录 1.题目描述2.解题思路3.代码实现 1.题目描述 题目描述见&#xff1a;组合总和IV 2.解题思路 视频参考&#xff1a; 组合总和IV 以上述的示例1为例&#xff1a; dp[4]的含义是什么&#xff1f;和为4的组合有多少种 一般动态规划是可以由前面的dp[3]推导而来的 dp[3…

使用Lua碰到的问题、踩坑记录

文章目录 1. 获得整除结果2. 在数组末尾添加元素的两种写法3. 接收可变参数 ...4. 复杂表结构的定义5. 一行代码, 同时定义多个变量6. 数组与集合的遍历方式7. 函数声明和调用的位置关系 1. 获得整除结果 用 “/” 来做除法, 得到的结果中总会带有小数. 可以使用 math.modf() …

windows下使用 vscode 远程X11服务GUI显示的三种方法

总结三种方法&#xff1a; 前言 ssh连接要使用-XY。 -X 表示ForwardX11&#xff0c;-Y 是ForwardX11Trusted&#xff0c;就是允许了X11转发&#xff0c;可以实现图形显示&#xff0c;虽然很多工具会默认使用这些参数&#xff0c;但是一般手动加也不会报错&#xff0c;所以就…