论文阅读:2023 arxiv Safe RLHF: Safe Reinforcement Learning from Human Feedback

news2025/7/8 10:15:12

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Safe RLHF: Safe Reinforcement Learning from Human Feedback

https://arxiv.org/pdf/2310.12773

https://github.com/PKU-Alignment/safe-rlhf

速览

  • 研究动机:大语言模型发展中,平衡性能与安全至关重要,现有方法在平衡有用和无害性上存在挑战。
  • 研究问题:如何设计算法平衡大语言模型有用性和无害性,使其兼具帮助性、安全性与回应意愿?
  • 研究方法:提出Safe RLHF算法,解耦人类偏好,构建奖励和成本模型,利用拉格朗日法在微调时平衡两个目标。
  • 研究结论:实验表明Safe RLHF能有效提升大语言模型的帮助性和无害性,优于静态平衡算法。
  • 不足:无法获取预训练数据,SFT数据质量和规模不足,缺乏前后检查策略且成本高。

这篇论文叫《SAFE RLHF: SAFE REINFORCEMENT LEARNING FROM HUMAN FEEDBACK》,主要是说随着大语言模型(LLMs)发展,要平衡模型性能和安全性,提出了Safe RLHF算法来解决相关问题。下面从背景、方法、实验等方面,用通俗的话来讲讲具体内容。

  1. 研究背景:大语言模型在很多方面表现出色,但它生成的内容不能有害,像歧视、错误信息等都不行。强化学习从人类反馈(RLHF)是让大语言模型符合人类偏好的好方法,不过追求有用性和无害性这两个目标在实际中会相互矛盾。比如模型拒绝回答问题,虽然安全但没什么用。所以,研究的目标就是要开发出既有用、又安全还愿意回答问题的大语言模型。
  2. 研究方法:提出Safe RLHF算法,核心是在数据标注时把人类对有用性和无害性的偏好分开,设立两个优化目标。在数据标注阶段,采用两阶段标注策略,标注员根据14个预定义的伤害类别给问答对标注安全性,再分别对回答的有用性和无害性进行排序。然后,训练两个独立的偏好模型,即奖励模型和成本模型。奖励模型根据有用性数据集训练,为强化学习阶段提供有用性的奖励信号;成本模型根据无害性数据集训练,能体现人类对大语言模型回答安全性的看法。在强化学习阶段,用奖励模型评估有用性,成本模型评估无害性,通过拉格朗日方法动态调整两者的平衡。
  3. 实验:用Safe RLHF算法对Alpaca - 7B模型进行了三轮微调实验。实验结果表明,Safe RLHF能同时提高大语言模型的有用性和无害性。和传统的单维标注和训练相比,Safe RLHF标注时标注员之间的一致性更高,和研究人员的一致性也更高,而且在训练阶段能主观调整平衡有用性和无害性。和采用静态平衡的奖励塑造方法相比,Safe RLHF能更好地平衡有用性和无害性这两个目标。另外,对比实验还证明了成本模型设计的重要性,它能同时拟合人类偏好和安全标签,对实现Safe RLHF的成功很关键。
  4. 研究局限和未来工作:研究存在一些局限,比如无法获取预训练数据,没有大量高质量的监督微调数据,虽然通过模型微调实现了安全对齐,但还需要加入预检查和后检查策略,而且研究成本高。未来打算扩展框架,纳入更多偏好类别,将模型应用到多轮对话场景,还考虑用Llama - 2作为基础预训练模型来提升性能。
  5. 研究贡献:这篇论文提出的Safe RLHF算法是首次将安全强化学习和RLHF框架结合,在大语言模型微调时有效平衡了有用性和无害性这两个常常冲突的目标,对基于大语言模型的人工智能系统安全性有重要意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6.8.最小生成树

一.复习: 1.生成树: 对于一个连通的无向图,假设图中有n个顶点,如果能找到一个符合以下要求的子图: 子图中包含图中所有的顶点,同时各个顶点保持连通, 而且子图的边的数量只有n-1条&#xff0…

QT中栅格模式探索

1、Qt中选择了栅格模式,如下图所示: 2、在进行整个大的UI界面布局时,需了解每个控件所需要选择的属性sizePolicy。 sizePolicy包含如下几种选择: 3、举个例子:此时整个UI界面,我采用了栅格模式&#xf…

C++入门基础:命名空间,缺省参数,函数重载,输入输出

命名空间: C语言是基于C语言的,融入了面向对象编程思想,有了很多有用的库,所以接下来我们将学习C如何优化C语言的不足的。 在C/C语言实践中,在全局作用域中变量,函数,类会有很多,这…

tomcat 的安装与启动

文章目录 tomcat 服务器安装启动本地Tomcat服务器 tomcat 服务器安装 https://tomcat.apache.org/下载 Tomcat 10.0.X 启动本地Tomcat服务器 进入 Tomcat 的 bin

算法-堆+单调栈

堆 首先堆在我们的Java中我们的是一个优先队列类 PriorityQueue 然后我们要弄最大堆和最小堆 最大堆&#xff1a; PriorityQueue<Integer> pq new PriorityQueue<Integer>((a, b) -> b - a); 最小堆&#xff1a; PriorityQueue<Integer> pq new P…

物联网平台管理系统

物联网平台管理系统概述 物联网平台管理系统是物联网架构中的核心枢纽&#xff0c;承担着承上启下的关键作用。它向下连接各类物联网设备&#xff0c;实现设备的接入、管理与控制&#xff1b;向上为应用开发提供统一的数据接口和共性模块工具&#xff0c;支撑起各种丰富多彩的…

STM32CubeMX-H7-15-SPI通信协议读写W25Q64

前言 SPI&#xff08;Serial Peripheral Interface&#xff09;通信协议是一种高速、全双工、同步的串行通信协议 本篇文章就使用W25Q64模块来学习SPI,包括软件SPI代码的编写&#xff0c;硬件SPI&#xff0c;中断SPI和DMASPI SPI的应用场景和模块 &#xff01;这里是抄AI的&a…

【软考】论devops在企业信息系统开发中的应用

摘要&#xff1a; 随着互联网的不断发展&#xff0c;各行各业都在建设自己的企业信息系统&#xff0c;而随着业务的不断升级和复杂化&#xff0c;系统的更新迭代速度越来越快&#xff0c;系统也越来越复杂。对于信息系统开发者&#xff0c;架构师&#xff0c;管理者&#xff0c…

生物化学笔记:医学免疫学原理22 肿瘤及肿瘤治疗

肿瘤及肿瘤治疗 免疫疗法 CAR-T细胞介绍

JVM考古现场(二十二):降维打击·用二向箔优化内存模型

"警报&#xff01;三维堆内存正在经历二维化坍缩&#xff01;" 我腰间的玄铁令突然震动&#xff0c;在蜀山剑派的量子剑阵中投射出诡异的曼德博分形——这是三体文明发动降维打击的铁证&#xff01; 楔子&#xff1a;二向箔奇点降临 昆仑镜监控日志&#xff1a; // …

操作系统-PV

&#x1f9e0; 背景&#xff1a;为什么会有 PV&#xff1f; 类比&#xff1a;内存&#xff08;生产者&#xff09; 和 CPU&#xff08;消费者&#xff09; 内存 / IO / 磁盘 / 网络下载 → 不断“生产数据” 例如&#xff1a;读取文件、下载视频、从数据库加载信息 CPU → 负…

医院数据中心智能化数据上报与调数机制设计

针对医院数据中心的智能化数据上报与调数机制设计,需兼顾数据安全性、效率性、合规性及智能化能力。以下为系统性设计方案,分为核心模块、技术架构和关键流程三部分: 一、核心模块设计 1. 数据上报模块 子模块功能描述多源接入层对接HIS/LIS/PACS/EMR等异构系统,支持API/E…

【MATLAB代码例程】AOA与TOA结合的高精度平面地位,适用于四个基站的情况,附完整的代码

本代码实现了一种基于到达角(AOA) 和到达时间(TOA) 的混合定位算法,适用于二维平面内移动或静止目标的定位。通过4个基站的协同测量,结合最小二乘法和几何解算,能够有效估计目标位置,并支持噪声模拟、误差分析和可视化输出。适用于室内定位、无人机导航、工业监测等场景…

PC主板及CPU ID 信息、笔记本电脑唯一 MAC地址获取

&#x1f947; 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 &#x1f389; 声明: 作为全网 AI 领域 干货最多的博主之一&#xff0c;❤️ 不负光阴不负卿 ❤️ 文章目录 PC主板及CPU ID 信息物理 MAC地址获取win11 新电脑 wmic 安装❤️ 欢迎一起学AI…

C++17 信号量模拟实现

C17 信号量模拟实现 一、实现原理 C17 标准库没有原生信号量(C20才有)&#xff0c;但可以通过 std::mutex std::condition_variable 模拟实现。以下是核心逻辑&#xff1a; #include <mutex> #include <condition_variable>class CountingSemaphore { private:…

web后端语言中篇

#作者&#xff1a;允砸儿 #日期&#xff1a;乙巳青蛇年 三月十八 笔者本来打算隔一天给它更完的&#xff0c;但是事情有点多这几天&#xff0c;实在是抱歉。废话不多说直接进入正题。 PHP流程控制语句 什么是流控:流程控制语句用于决定代码的执行顺序。 #注意流程控制语句…

Spine-Leaf 与 传统三层架构:全面对比与解析

本文将详细介绍Spine-Leaf架构&#xff0c;深入对比传统三层架构&#xff08;Core、Aggre、Access&#xff09;&#xff0c;并探讨其与Full-mesh网络和软件定义网络&#xff08;SDN&#xff09;的关联。通过通俗易懂的示例和数据中心网络分析&#xff0c;我将帮助您理解Spine-L…

Vmware esxi 查看硬盘健康状况

起因 硬盘掉盘 - - 使用自带的命令esxcli 列出所有硬盘 esxcli storage core device list[rootlocalhost:~] esxcli storage core device list t10.NVMe____INTEL_MEMPEK1W016GAL____________________PHBT83660BYP016D____00000001Display Name: Local NVMe Disk (t10.NVMe…

4.黑马学习笔记-SpringMVC(P43-P47)

1.SpringMVC简介 SpringMVC技术&#xff08;更少的代码&#xff0c;简便&#xff09;与servlet技术功能相同&#xff0c;属于web层开发技术。 SpringMVC是一种基于java实现MVC模型的轻量级web框架。 轻量级指的是&#xff08;内存占用比较低&#xff0c;运行效率高&#xff09;…

【文件操作与IO】详细解析文件操作与IO (一)

本篇博客给大家带来的是文件操作的知识点. &#x1f40e;文章专栏: JavaEE初阶 &#x1f680;若有问题 评论区见 ❤ 欢迎大家点赞 评论 收藏 分享 如果你不知道分享给谁,那就分享给薯条. 你们的支持是我不断创作的动力 . 王子,公主请阅&#x1f680; 要开心要快乐顺便进步 一. …