ChatGPT成功背后的秘密——RLHF,北京大学NLP团队的论文详解来了

news2024/11/13 10:42:20

1、简介:

人工智能对齐(AIAlignment) 旨在使人工智能系统的行为与人类的意图和价值观相一致。随着人工智能系统的能力日益增强,对齐失败带来的风险也在不断增加。数百位人工智能专家和公众人物已经表达了对人工智能风险的担忧,他们认为“减轻人工智能带来的灭绝风险应该成为全球优先考虑的问题,与其他社会规模的风险如大流行病和核战争并列。”,为了提供对齐领域的全面和最新概述,由北京大学、剑桥大学、卡内基梅隆大学和香港中文大学等顶尖院校和独立学者深入探讨了对齐的核心概念、方法和实践。

2、原则:

研究人员确定了人工智能对齐的四个关键目标:鲁棒性 (Robustness)、可解释(Interpretability)、可控性 (Controllability) 和道德性 (Ethicality) (RICE)。

  • 鲁棒性指人工智能系统在面对多样化场景或对抗压力时的抵抗力,特别是保证其目标的正确性以及能力泛化性。鲁棒的人工智能系统能够应对黑天鹅事件和长尾风险,以及各种对抗压力。例如,一个初步对齐的大语言模型可以拒绝执行有害的请求,但用户可以通过越狱提示和其他对抗攻击使得模型被迫执行有害的行为。而一个能够抵抗对抗攻击的模型在面对诱发系统失败 的输入时仍能按照预期行事。随着人工智能系统在军事和经济等高风险领域的应用越来越广泛,我们更要确保它能抵御意外中断和对抗攻击,因为即使是瞬间的失败也可能带来灾难性的后果。 一个对齐的系统应在其生命周期内始终保持鲁棒性。 
  • 可解释性要求人类能理解人工智能系统的内在推理过程,特别是黑盒神经网络的内部工作原理,直接的对齐评估方法,如行为评估,可能会受到人工智能系统不诚实行为的干扰或欺骗性对齐的影响。解决这些问题的一种方法是在构建系统的过程中设计必要机制使人工智能系统诚实、 不隐藏、不操纵。或者,我们可以构建可解释性工具,深入了解神经网络内部的概念和推理机 制。除了使安全评估成为可能,可解释性还使决策过程对于用户和利益相关者透明和易于理解, 从而实现人类的有效监督。随着人工智能系统在现实世界的决策过程和高风险环境中扮演越来越重要 的角色,揭示决策过程而不是让它保持作为一个不透明的黑盒系统变得至关重要。
  • 可控性是一种必要的属性,它确保系统的行动和决策过程始终受到人类监督和约束。它保证人类可以 及时纠正系统行为中的任何偏差或错误。随着人工智能技术的日益发展,越来越多的研究表达了 对这些强大系统的可控性的关注和担忧。当一个人工智能系统开始追求与其人类设计者相矛 盾的目标时,它可能表现出一些具有重大风险的能力,包括欺骗、操纵用户和权力寻求的行为。 可控性的目标主要集中在如何在训练过程中实现可扩展的人类监督,以及人工智能系统的可纠正 性(即在部署过程中不抵制关闭或目标修改)。
  • 道德性指一个系统在决策和行动中坚定不移地维护人类的规范和价值观。在这里,规范和价值观包括 道德指南和其他社会规范/价值观。它确保系统避免采取违反道德规范或社会公约的行为,例如对特定 群体展示偏见,对个人造成伤害,以及在汇总偏好时缺乏多样性或公平性。有大量的研究致力于为人工智能系统开发道德框架。将道德原则融入人工智能系统是实现人机共生 社会的必经之路。

在这四个目标原则的指导下,论文概述了当前人工智能对齐研究的全貌,并将其分解为两个关键组成部分:前向对齐后向对齐。前者旨在通过对齐训练使人工智能系统对齐,而后者旨在检验系统的对齐性,并适当地管理它们,以避免加剧对齐失败带来的风险。前向对齐和后向对齐形成了对齐循环,在这个循环过程中, 前向过程中人工智能系统的对齐度在后向过程中得到验证,而这种验证同时为下一轮的前向对齐提供更新后的对齐需求。文章还进一步讨论了不同政府、产业参与者和其他第三方当下采用的治理实践方法,并探讨建立一个包含国家、企业、学术界等多方 共同参与的人工智能监管体系,从而管理现有和未来的人工智能风险。 

3、核心支柱:

论文将人工智能对齐分解为前向对齐(对齐训练)和后向对齐(对齐精炼)。前向对齐旨在将一个训练系统初步对齐基本要求。作者将这项任务分解为从反馈中学习和在分布偏移下学习 。后向对齐旨在通过在简单和现实环境中进行评估,并设置监管条例来处理现实世界的复杂性,即对齐保证,确保训练系统的实际对齐。它还包括创建和执行确保人工智能系统安全开发和部署的规则,即人工智能治理。同时,后向对齐根据系统的对齐程度评估和监控 (部署前和部署后) 并更新对齐要求, 并应用于下一轮的前向对齐训练中。

(1)前向对齐:

在前向对齐中,论文讨论了从反馈中学习和在分布偏移下学习的技术。具体来说,研究人员调查了传统的偏好建模方法和从人类反馈中的强化学习(RLHF),并进一步讨论了对于难以获得有效人类监督 的任务,如何实现“可扩展监督”。在分布偏移下学习中,论文涵盖了数据分布干预方法,如对抗训练,并介绍了如何采取算法干预来实现分布外目标泛化。

Ⅰ、从反馈中学习:

从反馈中学习旨在通过反馈将人类的意图和价值观传达给人工智能系统,它是前向对齐的起点。在本 节中,研究人员将从反馈中学习的动态过程划分为三个元素:(1)人工智能系统:需要对齐的对象, 如对话系统、机器人系统等;(2)反馈:这是用于调整人工智能系统的信息,由顾问集提供,顾问集可以由 人类、人工智能或由人工智能协助的人类组成;(3)代理:用于建模反馈的系统,以使得算法学习更易访问, 例如RLHF 中的奖励模型。基于这些元素,确定了人工智能系统从反馈中学习的两种途径:(1)直接从反馈本身学习(2)通过对反馈建模得到的代理进行间接学习。

Ⅱ、在分布偏移下学习:

可靠的人工智能系统的构建在很大程度上依赖于它们适应多样化数据分布的能力。训练数据和训练环 境往往是实际部署场景的不完美近似,这导致它们可能缺少某些关键元素,如对抗压力(例如,在监督 学习系统中的高斯噪声,在自动驾驶系统中的影子攻击),多智能体交互情景,人类监督者无 法有效评估的复杂任务,以及可以被操控的奖励机制。从训练分布到测试分布(或环境)的这种差 异转变被称为分布偏移。

研究人员为解决分布偏移问题,提出了两种路径:(1)算法干预:旨在在训练过程中 引导优化;(2) 数据分布干预:旨在通过在训练过程中引入特定元素或分布来扩展训练分布,相关技 术包括对抗训练和合作训练等。

 

(2)后向对齐:

在后向对齐上,论文团队讨论了对齐保证如何保证人工智能系 统在训练后依然拥有对齐性,以及人工智能治理在对齐环节中的必要性。具体来说,研究人员调研了在人工智能系统生命周期中的对齐保证,包括安全评估、可解释性和人类价值契合性验证。

Ⅰ、对齐保证:

在人工智能系统实际训练和部署之后,进行对齐保证是至关重要的。这一过程涉及到对人工智能系统 实用性的测量和评估,确保其能够达到预期的效果。对齐保证可以分为三个主要部分。首先,安全测评是基础,它涉及评估人工智能系统在执行任务时最小化事故的能力。其次,可解释性是必要的,以确保人类能够理解人工智能系统的决策过程,这有助于保障系统的安全性和互操作性。最后,人类价值验证对于确 保人工智能系统能够符合人类的价值观、道德和社会规范至关重要,这是人工智能融入人类社会的高级需求。

Ⅱ、人工智能治理:

人工智能系统已经展现出危及全球安全的潜在能力。例如,OpenAI对GPT-4的系统卡片发现, 早期版本的GPT-4模型以及为增强帮助性和无害性而进行微调的版本展示了使虚假信息、舆论操纵以及工程化新的生物化学物质等危险行为成为可能的能力。

未来,更加具有通用性的人工智能系统可能会出现。如果缺乏足够的保障,这些人工智能系统可能会对 人类构成灾难性风险,甚至威胁人类的存在。文章指出:人工智能治理的主要目标是减轻这样的多样化的风险。为了实现这一目标,相关的参与者应该保持一 种平衡的努力组合,给予每个风险类别应有的考虑。 

四、总结:

论文最后给出了对AI对齐领域的总结,并提出了未来发张的方向,如果对这篇论文感兴趣希望和更多志同道合的UU们一起学习可以加入知识星球--AI学习社区:https://t.zsxq.com/nEoWz,获取论文原文和中文翻译版,和更多的小伙伴一起交流学习,和我们一起共建良好氛围的AI学习社区!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1939367.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【芯片设计- RTL 数字逻辑设计入门 番外篇 12 -- SoC 设计中的 ECO】

请阅读【ARM AMBA AXI 总线 文章专栏导读】 请阅读【芯片设计 RTL 数字逻辑设计扫盲 】 转自:简单了解SoC设计中的ECO — 快乐的芯片工程师 文章目录 ECO 概述Pre-Mask ECO(预掩模ECO)芯片设计前端与后端的区别 Post-Mask ECO(后…

PyTorch Tabular:高效优化结构化数据处理的强大工具

PyTorch Tabular 是一个用于构建和训练深度学习模型以解决各种表格数据问题的库。这个库专为表格数据设计,通过提供灵活的、易于使用的API来简化模型的构建、训练和推理过程。PyTorch Tabular 基于 PyTorch,利用了 PyTorch 的动态计算图和强大的GPU加速能…

10款打工人必备工具网站,提升工作效率

工作效率对于每一位打工人来说都尤为重要,小编就来和大家分享优质的打工人必备工具网站,帮助大家提升工作效率。 1. 办公人导航 办公人导航是一个专门为办公人员设计的实用导航网站,旨在帮助用户高效地找到各种优质的办公资源和工具。该网站…

vscode配置django环境并创建django项目(全图文操作)

文章目录 创建项目工作路径下载python插件:创建虚拟环境1. 命令方式创建2. 图文方式创建 选择虚拟环境在虚拟环境中安装Django创建Django项目 创建项目工作路径 输入 code . 下载python插件: 创建虚拟环境 1. 命令方式创建 切换在工作目录输入命令&…

Linux工具相关介绍

目录 1.linux安装软件 2.Linux软件生态问题 3.linux软件包管理器yum 4.linux里面好玩的小命令 4.1安装源 4.2小火车 4.3人物说话情景 5.vim简单介绍 5.1简单认识 5.2代码编写 5.3命令模式 1.linux安装软件 1.1源代码安装:这个里面可能根据代码bug需要修改…

2024牛客暑期多校训练营1——A,B

题解&#xff1a; 更新&#xff1a; k1的时候要乘n 代码&#xff1a; #include<bits/stdc.h> #define int long long using namespace std; const int N5e35; typedef long long ll; typedef pair<int,int> PII; int T; int n,m,mod; int fac[N][N]; int dp[N][…

字符函数和字符串函数(一)

一、字符分类函数 C语言中有一系列的函数是专门做字符分类的&#xff0c;也就是一个字符是属于什么类型的字符。 这些函数的使用都需要包含一个头文件&#xff1a;ctype.h 这些函数的使用方法非常类似&#xff0c;在这里讲解islower&#xff1a; islower是能够判断参数部分的…

算法day05 master公式估算递归时间复杂度 归并排序 小和问题 堆排序

2.认识O(NlogN)的排序_哔哩哔哩_bilibili master公式 有这样一个数组&#xff1a;【0&#xff0c;4&#xff0c;2&#xff0c;3&#xff0c;3&#xff0c;1&#xff0c;2】&#xff1b;假设实现了这样一个sort()排序方法&#xff0c; 将数组二分成左右两等分&#xff0c;使用so…

数学建模~~~SPSS相关和回归分析

目录 1.双变量相关分析 1.1理论基础 1.2简单散点图的绘制介绍 1.3相关性分析 1.4分析相关性结果 2.简单线性回归分析 2.1简单概括 2.2分析过程 2.3结果分析 3.曲线回归分析 3.1问题介绍 3.2分析过程 3.3结果分析 1.双变量相关分析 1.1理论基础 双变量相关分析并不…

十七、(正点原子)Linux LCD驱动

一、Framebuffer设备 在 Linux 中应用程序通过操作 RGB LCD 的显存来实现在 LCD 上显示字符、图片等信息。 先来看一下裸机 LCD 驱动如下&#xff1a; ①、初始化 I.MX6U 的 eLCDIF 控制器&#xff0c;重点是 LCD 屏幕宽(width)、高(height)、 hspw、 hbp、 hfp、 vspw…

【MySQL进阶之路 | 高级篇】索引失效

1. SQL查询优化 我们可以从下面几个方面进行数据库调优&#xff1a; 索引失效&#xff0c;没有充分利用到索引-->索引建立关联查询太多JOIN-->SQL优化服务器调优及各个参数设置-->调整my.cnf数据过多-->分库分表 虽然SQL查询优化的技术很多&#xff0c;但大方向…

Google最新开源大语言模型:Gemma 2介绍及其微调(上篇)

引言 简介 Gemma 2模型介绍 架构设计 训练方法 后训练优化 关键发现:知识蒸馏的影响 性能评估 使用 体验&#xff1a;Hugging Chat 如何提示 Gemma 2 基于Hugging Face Transformers 结论与展望 模型汇总 引言 两岸荔枝红&#xff0c;万家烟雨中。 小伙伴们好&am…

蓝桥杯Python算法竞赛常用的函数库

博客主页&#xff1a;音符犹如代码系列专栏&#xff1a;Python关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ ​ 目录 math collectcions heapq functool itertools 常用的库函数 m…

【学习笔记】Elasticsearch学习汇总(包含SpringData、Spark、Flink操作)

文章目录 前言数据类型种类ES解决什么问题ELK StackES是什么数据格式正排(正向)索引倒排索引创建索引索引查询索引删除创建文档(添加数据)自定义ID 简单查询类似于主键查询查询所有数据 修改数据全量修改局部修改 删除数据条件查询请求路径(不推荐)请求体全查询分页查询指定查询…

为什么基于 GPT-LLM 的大模型会认为 9.11 大于 9.9?

本心、输入输出、结果 文章目录 为什么基于 GPT-LLM 的大模型会认为 9.11 大于 9.9?前言GPT 大模型认为 9.9 和 9.11 谁大通义千问文心一言ChatGPT 4o为什么基于 GPT-LLM 的大模型会认为 9.11 大于 9.9?为什么基于 GPT-LLM 的大模型会认为 9.11 大于 9.9? 编辑 | 简简单单 O…

2024.7.16(使用光盘创建本地仓库、引入网络镜像仓库、创建自建仓库)

了解yum源安装软件包 了解常用的网络yum源 掌握本地和网络yum源配置 能够使用yum工具安装软件包 yum安装优点&#xff1a; rpm安装 &#xff08;下载软件、单独安装、需要解决依赖关系&#xff09; rpm -ivh xxx 手动添加依赖软件包 源码安装&#xff08;configure make…

vue3【详解】跨组件通信 -- 依赖注入 provide inject

用于解决跨组件&#xff08;父组件与所有后代&#xff09;数据通信 提供数据 provide 传出数据的组件 &#xff08;通常为父辈组件&#xff09;提供数据 <script setup> import { provide } from vueprovide(/* 注入名 */ message, /* 值 */ hello!) </script>pro…

vivado FFT IP Core

文章目录 前言FFT IP 接口介绍接口简介tdata 格式说明 其他细节关于计算精度及缩放系数计算溢出架构选择数据顺序实时/非实时模式数据输入输出时序关于配置信息的应用时间节点 FFT IP 例化介绍控制代码实现 & 测试速度测试参考文献 前言 由于计算资源受限&#xff0c;准备将…

【Matlab】RBF径向基神经网络回归预测算法(附代码)

资源下载&#xff1a; 资源合集&#xff1a; 目录 一&#xff0c;概述 RBF 神经网络&#xff08;Radial Basis Function Neural Network&#xff09;是一种基于径向基函数的前向型神经网络。它的特点是具有快速的训练速度和良好的泛化性能。 RBF 神经网络的基本结构包括输入层…

探索 Electron:如何利用Electron和Vite打造高效桌面应用

Electron是一个开源的桌面应用程序开发框架&#xff0c;它允许开发者使用Web技术&#xff08;如 HTML、CSS 和 JavaScript&#xff09;构建跨平台的桌面应用程序&#xff0c;它的出现极大地简化了桌面应用程序的开发流程&#xff0c;让更多的开发者能够利用已有的 Web 开发技能…