【码银送书第十期】《强化学习:原理与Python实战》

news2025/1/11 17:09:33

目录

1.什么是人工智能对齐

2.为什么要研究人工智能对齐

3.人工智能对齐的常见方法


1.什么是人工智能对齐

人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。

人工智能系统可能会出现“不对齐”(misalign)的问题。以ChatGPT这样的问答系统为例,ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主义核心价值观的言论,也可能会出现阿谀奉承、威逼利诱、信口雌黄等干预用户达到预定目标的情况。消除人工智能系统不对齐的过程就称为人工智能对齐。

图 ChatGPT的不对齐行为

2.为什么要研究人工智能对齐

根据人工智能对齐的定义,所有的人工智能问题(包括AI伦理、AI治理、可解释性AI,甚至是最基本的回归和分类问题)都可以算是人工智能对齐问题。那么为什么学术界还要发明“人工智能对齐”这个新概念?研究“人工智能对齐”这个新概念有什么价值呢?

事实上,人工智能对齐这一概念和ChatGPT这样的通用大模型的诞生密不可分。对于通用大模型而言,一个模型可以同时完成多种任务,而且不同的任务有着不同的期望:有的任务希望能够更有想象力,有的任务希望能够更尊重事实;有的任务希望能够理性客观,有的任务希望能有细腻丰富的情感。任务的多样性导致了需要对大模型进行全方面的对齐,而不仅仅是就某些方面进行对齐。传统的研究往往针对某个方面进行对齐,对于ChatGPT这样的通用模型会导致“按下葫芦浮起瓢”,无法面面俱到。

随着机器学习模型规模的不断变大以及神经网络的大量应用,人类已经无法完全理解和解释人工智能的某些行为。例如,用于围棋AlphaGo下的某些棋迄今也不能被人类所完全理解。在未来,有可能会出现全方面碾压人类的人工智能(比如《流浪地球》里的MOSS)。传统的对齐方法显然不能满足对这样的人工智能的对齐需求。

3.人工智能对齐的常见方法

人工智能对齐离不开人的接入。人对人工智能系统进行评估和反馈,可以确认人工智能中不对齐的情况,并指导其进行改进。

人工智能对齐的方法包括模仿学习和人类反馈强化学习。ChatGPT就采用了这些对齐方法。

图片
ChatGPT训练步骤(图片来源:https://openai.com/blog/chatgpt)

上图是ChatGPT的训练步骤图。步骤一利用收集到的数据进行监督学习,这一部分就是在用模仿学习进行人工智能对齐。不过,ChatGPT的训练团队认为,仅仅用模仿学习并不能完全达到要求。

模仿学习不能完全满足对齐需求的原因可能如下:模仿学习使用的数据集能覆盖到的数据范围是有限的,不可能包括所有的情况。用这样数据集训练出来的人工智能难免有些边脚情形的表现不对齐。另外,虽然训练后能够让训练目标基本上达到最优,但是在训练目标最优情况下还是会出现在某些样本点上表现不好的情况。而这些样本点也许还挺重要,这些不好的样本点可能会涉及到重大的法律或是舆论风险。

为此,ChatGPT的训练过程进一步地使用了人类反馈强化学习。步骤图中的第二步和第三步就用到了人类反馈强化学习。

第二步通过人类的反馈构建奖励模型。在这一步中,提供反馈的人可以就其认为需要重点关注的问题进行着重考察,来确保在哪些重要的问题上奖励模型是正确的。并且在后续的测试中如果发现了之前没有预料到的新问题,还可以通过提供更多反馈样本来为奖励模型打上补丁。这样,通过人工干预、不断迭代反馈,奖励模型就趋于完善。这样,就让奖励模型的人类的期望对齐。

在利用反馈进行奖励模型对齐的训练过程中,对于每个样本,先由语言模型输出几个备选的回答,然后再由人类对这些回答进行排序。这样的做法与直接让用户提供参考答案相比,更能够激发语言模型本身的创造力,也能使得反馈更快更省钱。

第三步利用奖励模型进行强化学习。步骤中提到的PPO算法就是一种强化学习算法。通过使用强化学习算法,使得系统的行为和奖励模型对齐。

基于反馈的强化学习在ChatGPT等大模型上的成功应用使得该算法称为最受关注的大模型对齐算法。目前绝大多数的大模型都采用了这个技术进行对齐。

延伸阅读

图片

《强化学习:原理与Python实战》

肖智清 著

解密ChatGPT关键技术PPO和RLHF

理论完备:涵盖强化学习主干理论和常见算法,带你参透ChatGPT技术要点;

实战性强:每章都有编程案例,深度强化学习算法提供TenorFlow和PyTorch对照实现;

配套丰富:逐章提供知识点总结,章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。

  • 本次送书二本
  • 活动时间:截止到2023-11-21
  • 参与方式:关注博主、并在此文章下面点赞、收藏并任意评论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1195365.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python喜羊羊

目录 系列文章 写在前面 绘图基础 画喜羊羊 写在后面 系列文章 序号文章目录直达链接表白系列1浪漫520表白代码https://want595.blog.csdn.net/article/details/1306668812满屏表白代码https://want595.blog.csdn.net/article/details/1297945183跳动的爱心https://want5…

elemetui 解决同个页面,同时使用多个el-table表格组件导致的数据错乱

1、背景 在一个页面中,使用了饿了么框架的3个el-table表格,3个表格平级,只不过是根据条件判断渲染哪个表格。本来以为使用v-if就可以隔离,没想到还是出现了问题,因为3个表格中有几列绑定的字段一模一样,导…

STM32基础--NVIC中断控制器

一、NVIC是什么? NVIC是一种中断控制器。当一个中断正在处理时,另一个更高优先级的中断可以打断当前中断的执行,并立即得到处理。这种机制使得处理器在高速运行的同时,能够及时响应不同优先级的中断请求。 二、有哪些优先级&…

如何在 Idea 中修改文件的字符集(如:UTF-8)

以 IntelliJ IDEA 2023.2 (Ultimate Edition) 为例,如下: 点击左上角【IntelliJ IDEA】->【Settings…】,如下图: 从弹出页面的左侧导航中找到【Editor】->【File Encodings】,并将 Global Encoding、Project E…

Excel函数 - 多条件查找查询公式

如下图所示,要求在H2单元格,根据A列序号和B列姓名,从表中查找对应的成绩。 1、Vlookup公式(数组公式) VLOOKUP(F2&G2,CHOOSE({1,2},A2:A7&B2:B7,C2:C7),2,0) 注:Excel最新版不需要按Ctrlshiftente…

vscode调试react 最初的源码

如果直接在react项目中打点调试, 调试的是 react-dom.development.js, 而源码里这些逻辑是分散在不同的包里的,如何才能够调试 React 最初的源码呢? JS 代码经过编译,会产生目标代码,但同时也会产生 sourcemap。sourcemap 的作用就是映射目…

通用文件在线预览软件kkFileView

什么是 kkFileView ? kkFileView 为文件文档在线预览解决方案,基本支持主流办公文档的在线预览,如 doc,docx,xls,xlsx,ppt,pptx,pdf,txt,zip&…

系统分区、MSR -重装系统中的一点小知识

一、前言: 在使用优启通装载的U盘重装系统时,出现了一点问题,问题和解决方法以及涉及知识贴在下面。 以前大都是使用微软官方的镜像系统直接写入U盘,将其做成系统盘(媒体创建工具Media Creation Tool)&am…

Qt 自定义全局悬浮置顶按钮

Qt 自定义全局悬浮置顶按钮 效果 使用示例 ResetButton* resetBtn; resetBtn new ResetButton(); resetBtn->show(); resetBtn->move(QPoint(1000, 800)); connect(resetBtn, &ResetButton::clicked, this, &MainWindow::Reset);自行加入图片,透明…

第二证券:杯柄形态最佳买入点?

杯柄形状是遭到股票剖析师广泛应用的一个技能政策。它经过图表剖析来确定买入或卖出的机遇,被认为是股票剖析中非常重要的判别方法之一。关于杯柄形状,股票剖析师们最感喜好的当然是杯柄的买入点。那么,杯柄形状最佳的买入点是什么&#xff1…

阻容降压电阻应用

公式:Xc1/2πfC 电流:IU/Xc 举例:1uf金属化聚丙烯膜电容的容抗是3184欧姆。电流是70ma。 实际应用中根据工作电流去倒推算电容。

收集不同富文本编辑器的使用(vue3版本)

文章目录 一、ueditor(百度富文本编辑器)安装使用并二次封装组件 二、KindEditor下载文件新建组件及使用 一、ueditor(百度富文本编辑器) 参考 ueditor 和 vue-ueditor-wrap 这里直接使用 封装好的vue组件 vue-ueditor-wrap vue3版…

【Android】画面卡顿优化列表流畅度三之RecyclerView刷新机制notifyItemRangeInserted

经过长达一个多星期的反复渲染耗时记录,大致上有以下几个方面的地方可以优化: 列表组件RecyclerView刷新机制由notifyDataSetChanged()优化为notifyItemRangeInserted(),后期有必要也会使用notifyItemRangeRemoved、n…

node插件MongoDB(四)—— 库mongoose 的条件控制(三)

文章目录 前言一、运算符二、逻辑运算1. $or 逻辑或2. $and 逻辑与 三、正则匹配 前言 在mongodb 不能使用 > < > < ! 等运算符&#xff0c;需要使用替代符号。 一、运算符 > 使用 $gt< 使用 $lt> 使用 $gte< 使用 $lte! 使用 $ne 例子&#xff1a;获…

高性能网络编程 - 解读3种线程模型

文章目录 Pre线程模型1&#xff1a;传统阻塞 I/O 服务模型线程模型2&#xff1a;Reactor 模式Reactor 模式的基本设计思想Reactor 模式中的关键组成3种典型实现单 Reactor 单线程单 Reactor 多线程主从 Reactor 多线程 小结 线程模型3&#xff1a;Proactor 模型 Pre 高性能网络…

git命令之遭遇 ignore罕见问题解决

我先来讲讲背景 我的一些文件在ignore了&#xff0c;不会被提交到远程仓库&#xff0c;这时候我的远程仓库中是没有这几个文件的&#xff0c;这时候我如果使用 git reset 的话这时候除了那几个 ignore 的文件以外都被更新的&#xff0c;但是如果我不需要这几个被 ignore 的文件…

【操作系统】2011年408真题第 31 题

文章目录 题目描述解析单缓冲区双缓冲区 原题 & 解析 题目描述 31.某文件占10个磁盘块&#xff0c;现要把该文件磁盘块逐个读入主存缓冲区&#xff0c;并送用户区进行分析&#xff0c;假设一个缓冲区与一个磁盘块大小相同&#xff0c;把一个磁盘块读入缓冲区的时间为100μ…

MySQL | 数据库的表的增删改查【进阶】

MySQL | 数据库的表的增删改查【进阶】 文章目录 MySQL | 数据库的表的增删改查【进阶】系列文章目录本节目标&#xff1a;数据库约束约束类型NULL约束UNIQUE&#xff1a;唯一约束DEFAULT&#xff1a;默认值PRIMARY KEY&#xff1a;主键FOREIGN KEY&#xff1a;外键CHECK 表的设…

Wincc flexible SMART v4 报警蜂鸣器的基本使用方法示例

Wincc flexible SMART v4 报警蜂鸣器的基本使用方法示例 WinCC flexible SMART V4 SP1 软件针对SMART LINE V4 面板新增了触发蜂鸣器报警功能,但要注意该功能仅支持固件版本为 4.0.1.0 及以上的设备。 可通过配置以下两个系统函数来触发蜂鸣器: 举例说明: 组态离散量报警,在…

Leetcode刷题详解——全排列 II

1. 题目链接&#xff1a;47. 全排列 II 2. 题目描述&#xff1a; 给定一个可包含重复数字的序列 nums &#xff0c;按任意顺序 返回所有不重复的全排列。 示例 1&#xff1a; 输入&#xff1a;nums [1,1,2] 输出&#xff1a; [[1,1,2],[1,2,1],[2,1,1]]示例 2&#xff1a; 输…