《Reinforcement Learning: An Introduction》第1章笔记

news2025/1/10 12:17:16

文章目录

    • 1.1 强化学习
    • 1.2 强化学习的例子
    • 1.3 强化学习的要素
    • 1.4 局限和范围
    • 1.5 拓展例子:井字游戏
    • 1.6 总结
    • 1.7 强化学习的早期历史
    • 参考资料

1.1 强化学习

强化学习是学习做什么—如何将情景映射到动作—以便最大化数字奖励信号。学习者不会被告知该采取什么动作,而是必须通过尝试来发现哪个动作会获得最大的奖励。在最有趣和最具挑战的情况下,动作不仅仅影响即时的奖励还会影响下一情境,甚至通过这种情况影响到接下来的所有奖励。 试错搜索和延迟奖励(trial-and-error search and delayed reward)是强化学习最重要的两个区别性特征。

强化学习(Reinforcement learning)同其他名字以”ing" 结尾的主题如学习(learning)一样,同时是一个问题、一类可有效解决该问题的方法、研究这个问题和解决方法的领域。用一个名词表示三件事很方便,但是也要注意保持这三个概念的独立,不然就是造成很多困惑的源头了。

利用动态系统理论的思想将强化学习的问题形式化,特别是作为不完全已知的马尔科夫决策过程(incompletely-known Markov decision processes)的最优控制。 形式化的细节要等到第3章,但是最基本的思想是捕捉 学习agent随时间的推移与它的环境交互来实现一个目标 所面临的实际问题的最重要方面。一个学习agent必须能够某种程度上感知其环境的状态,并且必须采取能够影响到该状态的动作。 agent也必须有一个或多个与环境状态相关的目标。 马尔科夫决策过程意在只包含这三个方面—感知、行动、目标—在最简单的可能形式而不在意细节。 任何适合于解决此类问题的方法被考虑为一种强化学习方法。

强化学习被看作监督学习和无监督学习外的第3种机器学习范式:

强化学习与监督学习的区别:监督学习是从知识渊博的外部监督者提供的带标签示例的训练集中学习。监督学习的目标是泛化它的响应以便在 从未中出现于训练集的情景也表现正确。但是只靠监督学习不足以从交互中学习,在交互问题中,要获得既正确又代表 agent 必须采取行动的所有情况的期望行为的示例通常是不现实的。 在未知领域中,agent必须能够从自己的经验中学习。

强化学习与无监督学习的区别:无监督学习通常是发现未标注数据中的隐藏结构。强化学习是试图最大化奖励信号而不是发现隐藏结构。从agent的经验中揭示结构肯定对于强化学习有帮助,但是它本身不足以代表强化学习的最大化奖励。

强化学习面临探索(exploration)和利用(exploitation)的权衡的挑战:为了获得更多的奖励,强化学习agent必须偏爱过去尝试过并且发现能有效产生奖励的动作;但是为了发现这样的行为,它必须尝试它之前没有选择过的动作。也就是说agent必须利用(exploit)它已经经历的,同时为了在将来获得更好的动作选择也必须探索(explore)。困境在于,不管是探索还是利用都不可能在不失败的情况进行。agent必须尝试不同的动作并逐渐偏好那些看起来最好的。在随机任务中,每一个动作必须被试很多次来获得一个期望回报的可靠估计。探索-利用问题是数学家们几〸年来一直在深入研究的问题,但至今仍未得到解决。到目前为止,在监督学习和无监督学习中没有出现探索-利用问题。

强化学习考虑与目标导向的agent 与不确定的环境交互的整个问题, agent 有明确的目标,能够感知环境,能够选择影响环境的动作,并且从一开始就假定agent必须运行尽管对其面对环境有很大的不确定性。

1.2 强化学习的例子

  • 国际象棋大师走棋:选择是由规划—预期可能的回应或者反回应—以及对特定位置和移动的期望的即时、直觉判断决定的。
  • 自适应控制器实时调整炼油厂操作的参数:控制器根据指定的边际成本优化产量/成本/质量权衡,而不严格遵守工程师最初建议的设定点。
  • 一只小瞪羚在出生几分钟后挣扎着站起来。半小时后,它以每小时 20 英里的速度运行。
  • 移动机器人决定它是否应该进入一个新房间来收集更多的垃圾,还是开始试图找到回到电池充电站的路。它根据电池当前的充电水平以及过去找到充电器的速度和容易程度做出决定。
  • Phil 准备早餐的过程:过程里的每一个动作,不管是走到橱柜,拿碗和勺子等操作过程都可以看做例子

这些例子的共同点:

  • 主动决策的agent和其环境的交互
  • 动作的效果不能被完全预测
  • 随着时间的推移,agent 能够用它的经验来提高性能

1.3 强化学习的要素

除了agent和环境,强化学习系统还有四个要素:

  • 策略(policy): 策略 定义了学习agent在给定时间点的行为方式。一个策略是从感知到的环境状态到采取动作的映射。它就是心理学里的刺激-反应规则或关联的集合。有些情景下策略可能就是一个简单的函数或者查找表,其他场景可能会包含大量的计算比如搜索过程。一般而言,策略可能是随机的,为每一个动作指定概率。
  • 奖励信号(reward signal):奖励信号定义了强化学习问题的目标。环境在每一个时间步给强化学习agent一个奖励(reward)数值。agent的唯一目标就是使其长期收到的总奖励最大化。奖励信号是改变策略的基础,如果策略选择一个动作获得了低奖励,那么策略在将来可能会选择其他动作。一般而言,奖励信号可能是环境状态和动作的随机函数。
  • 值函数(value function):值函数确定了长期看什么是好的。粗略的讲,一个状态的价值是agent从当前状态开始,在未来期望累积的奖励总额。奖励决定了环境的即时的、内在的可取性,而状态的价值考虑了其后续的状态及它们的奖励的长期可取性。例如,一个状态可能总是返回低的即时奖励,但它仍然有高的价值因为它有规律的跟随着能获得高奖励的其他状态。 没有奖励就没有价值,估计价值的唯一目的是为了获得更多的奖励,但是在指定和评估决策时最关心的是价值,动作选择是基于价值判断做出的,因为寻求高价值从长远看可以获得最大奖励。奖励基本由环境直接给出,价值必须根据agent在其整个生命周期内所作的观察序列来估计和重新估计,所以有效估算价值是几乎所有强化学习算法中最重要的组成部分。
  • 环境模型(model of environment):模仿环境的行为,或能够推理环境将如何表现。比如,给定状态和动作,模型可以预测下一个状态和下一个奖励。

1.4 局限和范围

  • 本书关注的不是设计状态信号,而是根据任何可用的状态信号来决定采取什么动作
  • 本书考虑的大多数强化学习方法都是围绕估计值函数来构建的,但并不一定要这样做来解决强化学习问题。如遗传算法、遗传规划、模拟退火等其他进化方法

1.5 拓展例子:井字游戏

考虑儿童熟悉的井字游戏(tic-tac-toe): 两个玩家轮流在3X3的棋盘上下棋,一个玩家持X,另一个玩家持O,直到一个玩家通过水平、垂直或对角连续放置三个标记排成一行来获胜,就像X玩家在下面图中的游戏里获胜一样
井字棋示意

如何用值函数来处理井字游戏呢?

  1. 建立一个数字表格,表示游戏所有的可能状态。每个数字将是我们从该状态获胜概率的最新估计,把这个估计值当做状态的值,整个表就是学习到的值函数。假设我们总是玩X,那么所有的一行全为X的状态的获胜概率为1;所有的一行全为O的状态的获胜概率为0,将所有其他状态的初始值设为0.5,表示我们有0.5的概率获胜。

  2. 我们与对手下很多次棋。为了选择我们的移动,我们检查所有可能的移动状态并查询他们在表中的当前值。大多数时候,我们贪婪的移动,选择有最高估计概率赢的移动。然而,偶尔我们也随机的选择其他移动,也就是探索性(exploratory)移动,让我们经历从来没有见过的状态。一个移动过或被考虑的序列如下图所示

  3. 当我们在玩的时候,我们改变在游戏中遇到的状态的价值,试图作状态赢的概率的更准确的估计。设 S t S_t St 表示贪婪移动之前的状态, S t + 1 S_{t+1} St+1 是在该状态之后的移动。 V ( S t ) V(S_t) V(St) S t S_t St 估计值的更新,则有
    V ( S t ) ← V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) \leftarrow V(S_t) + \alpha \left[V(S_{t+1}) - V(S_t) \right] V(St)V(St)+α[V(St+1)V(St)]
    ​ 式中 α \alpha α 是 正的步长参数,影响学习速率。 这个更新规则是时间差分(temporal-difference)学习方法的一个例子,因为 V ( S t + 1 ) − V ( S t ) V(S_{t+1}) - V(S_t) V(St+1)V(St) 的差值,即两个连续时间的估计而得名
    在这里插入图片描述

这个例子说明了进化方法和学习值函数的方法的区别: 1. 为了评估策略,进化方法保持策略不变,并与对手玩许多游戏或使用对手的模型来模拟许多游戏,而只使用游戏的结果,游戏中发生的事情被忽略了。而之函数方法允许评估各个状态。 2. 进化方法和值函数方法都搜索策略空间,但是学习值函数会利用游戏过程中可用的信息。

这个例子也说明了强化学习的一些关键特性:1. 强调在与环境互动的过程中学习;2. 有一个明确的目标,正确的行为要求规划和远见,需考虑到选择的延迟效应。

当然这个例子可能比较简单,不能因此而去猜测强化学习是不是有很多限制,实际上它的范围很广,作者做了好几段的论述。

1.6 总结

  • 强化学习是理解和自动化目标导向学习和决策的计算方法。它强调agent在与它的环境直接交互中学习,而不需要示例性监督或完全的环境模型
  • 强化学习使用马尔科夫决策过程的形式框架来定义agent与环境的状态、动作、奖励的交互
  • 价值和值函数的概念在本书中是大多数强化学习的关键要素,使用值函数区分了强化学习和进化方法(通过评估全部策略来直接搜索策略空间)

1.7 强化学习的早期历史

强化学习的早期历史有两条主线:第一条主线关注的是在试错中学习,起源于动物心理学;第二条主线关注的是最优化控制问题及其利用值函数和动态规划的解决方案。除此之外还有第三条主线关注时间差分方法,这三条主线在20世纪80年末交汇在一起,产生了在本书中介绍的现代强化学习领域。

参考资料

  1. 《Reinforcement Learning: An Introduction》Sutton, Richard S. and Andrew G. Barto. 第2版。 书籍网站 , 文中图片来自于书籍
  2. https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
  3. https://github.com/YunlianMoon/reinforcement-learning-an-introduction-2nd-edition/tree/master

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/548032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL基础(三十九)MySQL常用命令

1 MySQL常用命令 1.1 mysql 该mysql不是指mysql服务,而是指mysql的客户端工具。 语法 : mysql [options] [database]1.1. 连接选项 #参数 : -u, --username 指定用户名 -p, --password[name] 指定密码 -h, --hostname 指定服务器IP或域名…

计算机组成原理实验报告二-认识汇编语言

实验资料: https://wwpv.lanzoue.com/b05drqjef 密码:d19t 使用txt文档编写下面C源码,文档命名为【学号_hello.c】并使用Mingw工具(是 Minimalist GNU for Windows的缩写)的bin文件夹下gcc.exe带选项编译(&#xff09…

JUC之线程池的标准创建方式

文章目录 JUC之线程池的标准创建方式核心和最大线程数量空闲时长(keepAliveTime)线程工厂(ThreadFactory)任务阻塞队列线程池的拒绝策略线程池的任务调度流程 JUC之线程池的标准创建方式 ​ 因为使用Executors快捷创建线程池在使用时会有严重的潜在问题,因此在实战…

数据结构——队列的实现(细就完事了)

1.队列 1.1队列的概念和结构 今天我们要是实现的队列是完全相反的,队列是数据先进先出。而在栈中我们使用的顺序表(数组)来实现的。而队列却用单链表来实现是更加合适的。 队列:只允许在一端进行插入数据操作,在另一端进行数据操作的特殊线…

【王道·计算机网络】第六章 应用层【未完】

一、基本概念 1.1 应用层概述 应用层对应用程序的通信提供服务应用层协议定义: 应用进程交换的报文类型,请求还是响应?各种报文类型的语法,如报文中的各个字段及其详细描述字段的语义,即包含在字段中的信息的含义进程何时、如何…

这是关于“树先生“的故事

《数据结构专栏》 文章目录 《数据结构专栏》一、认识树结构如何遍历树如何创建一个树?如何判断一颗树是否是完全二叉树? 二、树的简单算法——递归1.相同树2.镜像树3.单值二叉树 总结 一、认识树结构 树的定义:树是指由N(N>0…

高效研发团队都在看!一套方法论带你找到适合自己的效能提升路径

近日,ONES 受邀参加 2023 QECon 全球软件质量&效能大会(深圳站)。在会上,ONES 研发效能改进咨询顾问陈仪,发表了主题为《如何为研发团队打造专属的效能提升路径》的演讲。 陈仪有着丰富的咨询经验,曾带…

Netty核心技术二--BIO编程

1. I/O模型 I/O 模型简单的理解:就是用什么样的通道进行数据的发送和接收,很大程度上决定了程序通信的性能 Java共支持3种网络编程模型/IO模式:BIO、NIO、AIO Java BIO :同步并阻塞(传统阻塞型),服务器实现模式为一个…

C++每日一练:饿龙咆哮-逃离城堡(避坑指南)非负整数求和

文章目录 前言一、题目二、解题代码及思路1、思路2、代码 三、非负整数求和总结 前言 饿龙这一题要说难度嘛,还真是挺简单的,但要满分也是有坑的!本文就记录了笔者解题过程,希望能对读者使用C编程有所启发。至于非负整数求和代码…

RocketMQ集群环境部署

文章目录 1. 准备环境2. 修改主机名3. 免密登录配置4. 配置RocketMQ集群5. 搭建RocketMQ集群6. 启动集群 1. 准备环境 准备好三台虚拟机,下面是我的虚拟机的一些基本信息 名称ip地址worker010.117.33.135worker110.117.39.202worker210.117.9.52 三台虚拟机都已经…

Windows下nginx的配置与启动

一,下载 http://nginx.org/,打开官网,点击download 选择下载稳定版 二,解压 1,解压到硬盘某个目录 2,由于80端口被占用,于是我要修改conf目录下的nginx.conf文件 查看端口是否被占用 net…

路径规划算法:基于蝴蝶算法的路径规划算法- 附代码

路径规划算法:基于蝴蝶优化的路径规划算法- 附代码 文章目录 路径规划算法:基于蝴蝶优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法蝴蝶…

【C++】类和对象(上):带你速度了解什么是类,如何定义类!!

前言: 前面我们学习C一些基础的内容,也可以说C针对C语言的缺陷进行改进。而今天我们要学的是C的内容也就是类和对象。 一、初识类: 我们先来看看C语言解决一个问题的过程: 假设有以下这个场景:你需要手洗一件衣服&am…

算法Day09 | KMP,28. 实现 strStr() ,459.重复的子字符串

Day09 KMP28. 实现 strStr()459.重复的子字符串 KMP KMP是三个人人名缩写,用于在文本字符串text中搜索pattern字符串,返回在text中第一出现的位置。 算法做法就是在暴力匹配的基础上加速匹配。通过对pattern字符串求next数组(该数组也成为前缀表)&#…

element ui 表格内嵌图片预览展示样式问题 (element plus)

❤️砥砺前行,不负余光,永远在路上❤️ 目录 前言一、问题二、解决 前言 一、问题 二、解决 添加上preview-teleported 属性即可。

ChatGPT ✖️ 前端 = 有点er意思

HOT! HOT! HOT! 🔥 🔥 🔥 ChatGPT登上了国内各大平台的热搜榜,应该在去年11月末的时候就有不少同学了解并使用过,那个时候它刚刚问世,在互联网圈子里有了很大的热度,但是对于大众来说&#xff…

OpenGLES读写图像数据(内存与GPU)——使用PBO

一、什么是PBO 在 OpenGL 开发中,特别是在低端平台上处理高分辨率的图像时,图像数据在内存和显存之前拷贝往往会造成性能瓶颈,而利用 PBO 可以在一定程度上解决这个问题。 PBO (Pixel Buffer Object)是 OpenGL ES 3.…

iOS开发提效cocoapods插件cocoapods-util

cocoapods-util介绍 cocoapods-util是一个iOS开发提效的cocoapods插件。 取名util的原因是我想做一个通用的插件,把一些iOS中常用的命令或问题整理起来。 插件中除了package命令是根据cocoapods-packager插件做了修改而来,其余命令都是属于自己总结开…

uwb高精度定位系统源码 UWB高精度定位技术原理与实现

uwb高精度定位系统 UWB高精度定位技术原理与实现 近些年物联网产业高速发展,越来越多的物联网终端连上了网络,实现了人与物,甚至物与物之间的互连互通。随着智能化要求的进一步提高和物联网应用的进一步拓展,除了互联互通&#x…

Doxygen源码分析:doxygen执行过程的拆解

Doxygen源码分析:doxygen执行过程的拆解 2023-05-19 23:09:17 ~ 2023-05-20 16:38:13 ChrisZZ imzhuofoxmailcom Hompage https://github.com/zchrissirhcz 文章目录 Doxygen源码分析:doxygen执行过程的拆解1. doxygen 版本2. doxygen 可执行程序的入口…