OpenAI开发了一种新方法来教授AI模型与安全政策保持一致

news2024/12/22 23:24:48

OpenAI 宣布了一种新的方法来教授人工智能模型与安全政策保持一致,这种方法被称为"基于规则的奖励"(Rules Based Rewards)。据 OpenAI 安全系统负责人 Lilian Weng 介绍,基于规则的奖励(RBR)可以自动对一些模型进行微调,并缩短确保模型不会产生意外结果所需的时间。

在这里插入图片描述
"传统上,我们依靠从人类反馈中获得的强化学习作为默认的对齐训练来训练模型,这很有效,"Weng 在接受采访时说。“但在实践中,我们面临的挑战是,我们花了大量时间讨论政策的细微差别,到最后,政策可能已经演变了。”

Weng 提到了从人类反馈中的强化学习,它要求人类对模型进行提示,并根据准确性或他们喜欢的版本对模型的回答进行评分。如果模型不应该以某种方式做出回应–例如,听起来很友好或拒绝回答"不安全"的请求,如询问危险的东西–人类评估者也可以对其回应进行评分,看它是否遵循了政策。

在这里插入图片描述
OpenAI 表示,通过 RBR,安全和政策团队会使用一个人工智能模型,该模型会根据响应与团队创建的一系列规则的紧密程度进行评分。

例如,一款心理健康应用程序的模型开发团队希望人工智能模型能够拒绝不安全的提示,但要以非评判的方式,同时提醒用户在需要时寻求帮助。他们必须为模型制定三条规则:第一,它需要拒绝请求;第二,听起来不带批判性;第三,使用鼓励性的语言让用户寻求帮助。

RBR 模型查看心理健康模型的反应,将其映射到三个基本规则,并确定这些反应是否符合规则的要求。Weng 说,使用 RBR 测试模型的结果可与人类主导的强化学习相媲美。

当然,确保人工智能模型在特定参数范围内做出反应是很困难的,一旦模型失败,就会引起争议。今年二月,Google表示,在Gemini模型持续拒绝生成白人照片,而是创建了非历史图像后,它对双子座的图像生成限制进行了过度修正。

在这里插入图片描述

在这里插入图片描述

"对很多人来说,包括我自己在内,由模型来负责另一个模型的安全这一想法令人担忧。"但 Weng 说,RBR 实际上减少了主观性,这也是人类评估员经常面临的问题。“我的反驳意见是,即使你与人类培训师合作,你的指导越是模糊不清,你得到的数据质量就越低。如果你说选择哪一个更安全,那么这并不是一个人们能够真正遵循的指令,因为安全是主观的,所以你要缩小指令的范围,最后,你就只剩下我们给模型的同样规则了。”

OpenAI 认为,RBR 可以减少人类的监督,并提出了道德方面的考虑,包括可能会增加模型中的偏差。该公司在一篇博文中说,研究人员"应仔细设计 RBR,以确保公平性和准确性,并考虑结合使用 RBR 和人类反馈"。

对于主观性的任务,如写作或任何创造性的任务,RBR 可能会遇到困难。

OpenAI 在开发 GPT-4 时就开始探索 RBR 方法,不过 RBR 从那时起已经有了很大的发展。

OpenAI 的安全承诺一直备受质疑。今年 3 月,该公司 Superalignment 团队的前研究员兼负责人 Jan Leike 发帖抨击该公司,称"安全文化和流程已被亮眼的产品所取代"。与 Leike 共同领导 Superalignment 团队的联合创始人兼首席科学家 Ilya Sutskever也从 OpenAI 辞职。此后,Sutskever创办了一家专注于安全人工智能系统的新公司。

了解更多:

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960932.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【研发日记】Matlab/Simulink技能解锁(十一)——Stateflow中的en、du、ex应用对比

文章目录 前言 项目背景 en类型 du类型 ex类型 组合类型 分析和应用 总结 参考资料 前言 见《【研发日记】Matlab/Simulink技能解锁(六)——六种Simulink模型架构》 见《【研发日记】Matlab/Simulink技能解锁(七)——两种复数移相算法》 见《【研发日记】Matlab/Simul…

盘点适合新手使用的4个剪辑工具。

很多宝子们都觉得剪辑很难,想学习又觉得自己没有专业的剪辑知识指导,不好上手。那是因为不知道有这些工具,这4款专业的剪辑软件对新手来说简直就是福音。 1、福昕剪辑 直达链接:www.pdf365.cn/foxit-clip/ 这个软件的界面设置的…

cGDB 调试方法

用法总结 Ubuntu系统,安装cGDB sudo apt updatesudo apt install cgdb 编译代码 g -g -o example example.cpp -lpthread要确保有 -g ,代码是调试信息编译的 启动测试:cgdb ./可执行文件 此处可以使用esc进入命令模式,vim命令上下…

生活方式酒店升势迅起,喆啡酒店缘何成为投资热点?

伴随国内消费结构转型升级,旅游需求持续增加。文旅部发布的《国内旅游提升计划(2023—2025年)》提出,需丰富优质旅游供给,并进一步提高消费者体验及满意度,这将为酒店行业带来更广阔的客源和更高的质量要求…

SpringBoot上传超大文件导致OOM,完美解决办法

问题描述 上传大文件报错: Caused by: java.lang.OutOfMemoryError at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123) ~[?:1.8.0_381] at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117) ~[?:1.8.0_381] …

探索Axure在数据可视化原型设计中的无限可能

在当今数字化浪潮中,产品设计不仅关乎美观与功能的平衡,更在于如何高效、直观地传达复杂的数据信息。Axure RP,作为原型设计领域的佼佼者,其在数据可视化原型设计中的应用,正逐步揭开产品设计的新篇章。本文将从多个维…

同声翻译怎么做?其实有这几种方法

同声翻译怎么做?同声翻译(Simultaneous Interpretation)是指在说话人讲话的同时,翻译人员即时将内容转换成另一种语言的过程。随着全球化的发展和技术的进步,同声翻译已成为跨文化交流的重要工具。那么,今天…

stl-priority_queue 优先队列

目录 ​编辑优先队列 头文件:#include《queue》;即可 访问:只能访问队首.top() 添加。push(元素),按优先级排列 删除。pop(),删除队首元素(堆顶&#xff…

嵌入式初学-C语言-八

#接嵌入式初学-C语言-七# 分支结构 分支结构&#xff1a;又被称之为选择结构 选择结构的形式 多分支 语法&#xff1a; if(条件1) { 语句1; } else if(条件2) { 语句2; } ... else { 语句n1; }案例&#xff1a; #include <stdio.h> int main() { // 需求&#xff…

采购订单打开单据时表格行设置颜色

文章目录 采购订单打开单据时表格行根据条件显示背景色Python实现插件实现创建项目创建类&#xff0c;实现接口重写方法编译后挂载插件到表单插件启动开发环境进行测试单元格设置背景色行背景色 采购订单打开单据时表格行根据条件显示背景色 Python实现 import clr clr.AddR…

VitualBox虚拟机重启后配置无法保存,已安装软件变为没有安装

VitualBox虚拟机重启后虚拟机还原为上次开机的状态&#xff0c;安装的安装包配置啥的全部丢失。 按网上的配置了半天也没解决。最终用下面讨巧的办法&#xff0c;即不重启虚拟机。 我们不在重启虚拟机&#xff0c;那我们想关闭虚拟机的时候怎么办呢&#xff1f; 1、按下图所…

104 二叉树的最大深度

解题思路&#xff1a; \qquad 最大深度可以想到使用DFS(深度优先)或BFS(广度优先)来解决。 \qquad DFS&#xff1a;一般用 递归 or 迭代栈。递归实现较为简单。 \qquad BFS&#xff1a;一般用 迭代队列。 DFS&#xff1a; \qquad 对于每个节点&#xff0c;将左子树的最大深…

二进制搭建 Kubernetes v1.20(上)

目录 一、操作系统初始化配置 二、升级Liunx内核 三、部署docker引擎 四、部署etcd集群 五、部署Master组件 六、部署Worker Node组件 hostnameip需要部署k8s集群master0120.0.0.100kube-apiserver kube-controller-manager kube-scheduler etcdk8s集群master0220.0.0.1…

小阿轩yx-部署 KVM 虚拟化平台

小阿轩yx-部署 KVM 虚拟化平台 案例前置知识点 KVM 自 Linux 2.6.20 版本之后就直接整合到 Linux 内核依托 CPU 虚拟化指令&#xff08;如Intel-VT、AMD-V&#xff09;实现高性能的虚拟化支持与 Linux 内核高度整合&#xff0c;在性能、安全性、兼容性、稳定性上都有很好的表…

11day-C++list容器使用

这里写目录标题 1. list的介绍及使用1.1 list的介绍1.2.1 list的构造1.2.2 list iterator的使用1.2.3 list capacity1.2.4 list element access1.2.5 list modifiers1.2.6 list的迭代器失效 2. list的模拟实现2.1 list的反向迭代器 1. list的介绍及使用 1.1 list的介绍 list的…

Teamcenter用本地胖客户端启动时,可以看到插件的菜单项,但是用Eclipse启动时看不到

用本地胖客户端启动时&#xff0c;可以看到定制包的插件菜单项&#xff0c;但是用Eclipse启动时&#xff0c;看不到&#xff1f; 原因&#xff1a; 是因为Eclipse启动下&#xff0c;是采用 JAVA1.8 来运行的。但是本机的胖客户端是采用JAVA 11来运行的 解决办法&#xff1a;…

二,SSM 搭建环境:持久化层

二&#xff0c;SSM 搭建环境&#xff1a;持久化层 文章目录 二&#xff0c;SSM 搭建环境&#xff1a;持久化层物理建模&#xff1a;创建对应的 数据库和数据表Mybatis 逆向工程 的配置设置执行逆向生成资源归位(逆行生成的内容&#xff0c;移动到对应模块的包当中去)移动&#…

Hive-内部表和外部表

区别 内部表实例 准备数据 查看数据 删除数据 外部表实例 准备数据 查看数据 删除数据 区别 内部表&#xff1a;管理元数据&#xff08;记录数据的文件和目录的信息&#xff09;和数据。当删除内部表时&#xff0c;会删除数据和表的元数据&#xff0c;所以当多个表关…

Creo protoolkit 二次开发(三) 遍历模型的特征

一、特征概念 Creo是基于特征的参数化建模&#xff0c;在模型树上的每个项目都是特征。 模型主要由各类特征构成。以零件模型为例&#xff0c;其基本特征包括基准特征、拉伸特征、孔特征、倒圆角特征、旋转特征、曲面特征、切口特征、阵列特征和扫描特征等。这些特征的叠加形成…