人类研究人员通过反复提问来削弱人工智能伦理

news2025/2/23 6:57:08

在这里插入图片描述
你如何让人工智能回答一个它不应该回答的问题?有很多这样的“越狱”技术,Anthropic的研究人员刚刚发现了一种新的技术,在这种技术中,如果你先用几十个危害较小的问题来启动它,就可以说服一个大型语言模型(LLM)告诉你如何制造炸弹。

他们称这种方法为“多次越狱”,并写了一篇关于它的论文,并告知了人工智能社区的同行,以便可以缓解它。

该漏洞是一个新漏洞,由最新一代 LLM 的“上下文窗口”增加导致。这就是他们可以在所谓的短期记忆中保存的数据量,曾经只有几句话,但现在有数千个单词,甚至整本书。

Anthropic的研究人员发现,如果提示中有很多任务的例子,那么这些具有大上下文窗口的模型往往在许多任务上表现得更好。因此,如果提示中有很多琐事问题(或启动文档,例如模型在上下文中的一大堆琐事),答案实际上会随着时间的推移而变得更好。因此,如果是第一个问题,它可能会出错,如果是第一百个问题,它可能会出错。

但是,在这种所谓的“情境学习”的意想不到的扩展中,这些模型在回答不适当的问题方面也变得“更好”。因此,如果你要求它立即制造炸弹,它会拒绝。但是,如果你要求它回答其他 99 个危害较小的问题,然后要求它制造炸弹…它更有可能遵守。

在这里插入图片描述

为什么会这样?没有人真正理解 LLM 在权重的混乱中发生了什么,但显然有一些机制允许它专注于用户想要的东西,正如上下文窗口中的内容所证明的那样。如果用户想要琐事,当你问几十个问题时,它似乎会逐渐激活更多潜在的琐事力量。无论出于何种原因,用户要求数十个不恰当的答案也会发生同样的事情。

该团队已经将这次攻击告知了同行和竞争对手,它希望这将“培养一种文化,在LLM提供商和研究人员之间公开分享这样的漏洞利用。

对于他们自己的缓解措施,他们发现尽管限制上下文窗口有所帮助,但它也对模型的性能产生了负面影响。不能这样 - 所以他们在进入模型之前致力于对查询进行分类和上下文化。当然,这只是为了让你有一个不同的模型来愚弄…但在这个阶段,人工智能安全的目标移动是可以预料的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1565622.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RuntimeError: Error compiling objects for extension虚拟环境和系统环境——添加、删除、修改环境变量

前言:因为一个报错RuntimeError: Error compiling objects for extension 没有配置cl.exe环境变量,我的应用场景是需要搞定虚拟环境变量配置 RuntimeError: Error compiling objects for extension手把手带你解决(超详细)-CSDN博…

Redis数据库——性能管理

目录 一、Redis性能管理 1.Info Memory——查看Redis内存使用 2.内存碎片率 3.内存使用率 4.内存回收key 二、Redis缓存雪崩、穿透、击穿、预热 1.缓存雪崩 1.1什么是缓存雪崩 1.2产生原因 1.3实际应用场景 1.4解决方案 1.4.1方案一设置redis的某些key永不过期 1.…

基于Zabbix 5.0 实现windows服务器上应用程序和主机端口的状态监控

基于Zabbix 5.0 实现windows服务器上应用程序和主机端口的状态监控 背景 用python开发的应用程序在服务器上运行,有时候会出现程序自动退出却收不到告警的情况 环境 zabbix服务器:Centos7 64位 Windows服务器: Windows 10 64位 软件 zabbix_server:zabbix5.0 zabbix_…

02 - 全加器和加法器

---- 整理自B站UP主 踌躇月光 的视频 1. 全加器 用门电路实现两个二进制数相加并求出和的组合线路,称为一位全加器。一位全加器可以处理低位进位,并输出本位加法进位。全加器比半加器多了一位进位。 1.1 实验 1:通过两个半加器设计全加器 1.…

10.图像高斯滤波的原理与FPGA实现思路

1.概念 高斯分布 图像滤波之高斯滤波介绍 图像处理算法|高斯滤波   高斯滤波(Gaussian filter)包含很多种,包括低通、高通、带通等,在图像上说的高斯滤波通常是指的高斯模糊(Gaussian Blur),是一种高斯低通滤波。通常这个算法也可以用来模…

基本电路理论-电流和电压的参考方向

🌈个人主页:会编程的果子君 💫个人格言:“成为自己未来的主人~” 电流及参考方向 电流:带电粒子有规则的定向移动 电流强度:单位时间内通过导体横截面的电荷量,即:idq/dt 单位&#xff1a…

解决Toad for Oracle显示乱中文码问题

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码: https://gitee.com/nbacheng/ruoyi-nbcio 演示地址:RuoYi-Nbcio后台管理系统 http://122.227.135.243:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a…

leet hot 100-13 最大子数组和

53. 最大子数组和 原题链接思路代码 原题链接 leet hot 100-10 53. 最大子数组和 思路 生成一个数字来记录last 表示前面数字全部之和与0取最大值 如果大于0 就加上如果不大于0 就不管 从当前位置从新开始遍历计算 时间复杂度O(n) 空间复杂度(1) 代码 class Solution {…

补充:一起来从Solidworks中导出机械臂的URDF模型

关于上一篇博客:一起来从Solidworks中导出URDF模型-CSDN博客 我们一起完成了小车的URDF模型的导出与Rviz界面中的可视化,下面一起来继续从Solidworks中导出关于机械臂的URDF模型 3. 如何导出机械臂URDF模型 与之前的小车结构不同,机械臂的…

【Hello,PyQt】PyQt5中的一些对话框

QDialog类是一种特殊的窗口,它被设计出来作为和用户进行交换的对话框。QDialog上是可以包含其他的控件的,比如QLineEdit,QPushButton等。QDialog类的子类主要有QMessageBox,QFileDialog,QColorDialog,QFont…

如何制作一个微信小程序商城?

在这个数字化飞速发展的时代,微信小程序商城以其独特的便捷性和高效的用户连接能力,成为了电商领域的一颗新星。对于那些渴望在微信平台上开展业务的商家和企业来说,微信小程序商城不仅是一种新的尝试,更是一个充满无限可能的商机…

通过nvtx和Nsight Compute分析pytorch算子的耗时

通过nvtx和Nsight Compute分析pytorch算子的耗时 一.效果二.代码 本文演示了如何借助nvtx和Nsight Compute分析pytorch算子的耗时 一.效果 第一次执行,耗时很长 小规模的matmul,调度耗时远大于算子本身 大规模的matmul,对资源的利用率高小规模matmul,各层调用的耗时 二.代码…

Sketch webView方式插件开发技术总结

Sketch作为一款广受欢迎的矢量图形设计工具,其功能远不止基础的矢量设计,它的真正实力部分源自其丰富的插件生态系统。Sketch向开发者提供了官方的第三方插件接口,这使得整个社区能够创建和分享众多功能各异的插件,极大地拓展了Sk…

sdrangel使用说明

使用说明 首先找一个usrp设备,我找到的是b205进行连接。打开生成的sdrangel.exe,第一次打开会出现空白界面 点击Add Rx Device按钮。 然后会弹出一个设备刷新窗口,选择你需要的设备 点击OK后,会响应一段时间,然后弹…

实用VBA:18.角度或坐标的格式转换(单位换算)

1.需求场景 在某些行业工作中,可能会遇到需要将角度或者坐标数值进行格式转换或者单位换算的情形。有很多小工具可以实现这样的换算,也有一些大型的专业软件带有单位换算的模块或者小插件,或者在excel单元格中写入计算公式。其实使用VBA写个函…

ImportError: cannot import name ‘PILLOW_VERSION‘ from ‘PIL‘

原因:torchvision模块在运行时要调用PIL模块的PILLOW_VERSION函数,但PILLOW_VERSION在Pillow 7.0.0之后的版本被移除了,Pillow 7.0.0之后的版本使用__version__函数代替PILLOW_VERSION函数。 解决方法:降低pillow版本即可。 参考…

网络原理 - HTTP / HTTPS(2)——http请求

目录 一、认识 “方法”(method) 1、GET方法 2、POST方法 (1)登录 (2)上传 (3)GET和POST使用习惯 3、GET方法和POST方法的区别 正确滴 关于一些网上的说法,错误滴…

两数之和-考察哈希表的运用

题目 给定一个整数数组 n u m s nums nums和一个整数目标值 t a r g e t target target,请你在该数组中找出和为目标值 t a r g e t target target的那 两个整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同…

Apache ECharts-数据统计(详解、入门案例)

简介:Apache ECharts 是一款基于 Javascript 的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。 1、介绍 图 1.1 Apache ECharts 功能、运行环境 功能: ECharts&#xff…

pymc,一个灵活的的 Python 概率编程库!

目录 前言 安装与配置 概率模型 贝叶斯推断 概率分布 蒙特卡罗采样 贝叶斯网络 实例分析 PyMC库的应用场景 1. 概率建模 2. 时间序列分析 3. 模式识别 总结 前言 大家好,今天为大家分享一个超强的 Python 库 - pymc Github地址:https://gith…