学习深度强化学习---第2部分----RL动态规划相关算法

news2025/1/23 9:59:31

文章目录

    • 2.1节 动态规划简介
    • 2.2节 值函数与贝尔曼方程
    • 2.3节 策略评估
    • 2.4节 策略改进
    • 2.5节 最优值函数与最优策略
    • 2.6节 值迭代与策略迭代
    • 2.7节 动态规划求解最优策略

本部分视频所在地址:深度强化学习的理论与实践

2.1节 动态规划简介

态规划有两种思路:分治法和动态规划,目的是求解一个大问题。
分治法
分治法是将一个大问题分解成多个相互独立的子问题。然后再逐个解决每个子问题,最后将多个问题的计算结果c1、c2、…、cn进行总结,最后得到总问题的解。
subp1:表示将大问题分成的子问题
这些子问题的特点是这些子问题之间是相互独立的,也就是这些子问题是可以独立求解的。
动态规划
这个方法是将一个总问题进行逐步求解,先求解subp1,再求解subp2,…,最后求解subpn问题,
子问题的特点是嵌套的,递归的求解,即想要解决子问题subp3,必须先要求解子问题subp2,想要解决子问题subp2,必须先要求解子问题subp1。每个子问题的结构是一样的,即如果一个子问题是加法问题,则所有问题都是加法问题。
在这里插入图片描述
找到的其结构特征,就是去找到嵌套的结构特征
在这里插入图片描述
动态规划解决问题的案例

在这里插入图片描述

2.2节 值函数与贝尔曼方程

在这里插入图片描述
根据马尔科夫链定义一些东西:
即时奖励(通常称为奖励,reward)
累计奖励Gt: 表示状态为St时执行动作At之后累积的奖励。累计奖励中每一个时刻对应的即时奖励不能够同等看待。原因是例如在下象棋时第一步走马和棋局最后几步走马同样是走马的动作,但是走马的动作重要性是不同的。所得到的即时奖励是不同的。在棋局最后的终止状态附近的奖励应该被认为是更重要的。
累积折扣奖励(通常称回报,return): 智能体在t时刻的累积奖励会这么认为,离该时刻越近的即时奖励重要性应该越大,离该时刻越远的即时奖励重要性越小。举例:在终止状态T时刻,RT的重要性要远超于R1的重要性,其根本原因是动作AT-1的重要性要远超于动作A0的重要性。
在这里插入图片描述
延时越长时RT,对Gt的影响越小: 延时越长时RT,即T越大,参数γ经过T指数后参数变得很小,因此对Gt的影响越小。
强化学习的目的或目标: 寻找到一个能够使累积折扣奖励Gt最大的最优策略。如果该策略可以使得每一个时刻的累积折扣奖励都最大,这个策略是最优的。
在这里插入图片描述
有了累积折扣奖励函数之后,进一步定义两个值函数:状态值函数、动作值函数。
在这里插入图片描述
上面的Rt+1应该写成Rt+k
在这里插入图片描述
从上面的式子可以看出来,对于每个状态和每一个动作都会对应一个动作值,对于离散的状态空间和动作空间来讲那么动作值的个数应该是有限的,此时将会使用一个表来表示这个Q,之后会学习一种基于表的强化学习方法。
‘状态值函数和动作值函数之间是可以相互转换的。’
在这里插入图片描述
上面是假设s的下一个状态为s'
详细解释与推导:
在这里插入图片描述
动态规划的核心:贝尔曼方程。下面的两个方程认真一点都能写出来,需要注意的是在
1)状态值函数表达的贝尔曼方程中的r是在s状态下执行动作a之后得到的奖励r,在得到的这个方程的时候是这么简写的。
2)写动作值函数的贝尔曼方程时第2个Q函数中的s和a都是下一时刻的状态和下一时刻的动作。因此动作值函数表达的贝尔曼方程中有4个变量:当前时刻状态s,当前时刻的动作a,下一时刻的状态s',下一时刻的动作a',比较复杂,而状态值函数表达的贝尔曼方程中只有2个变量:当前状态s下一时刻状态s',形式较为简单。因此实际中使用状态值函数更多。
3)两种贝尔曼方程中的r是基于三元函数的。即r=r(s,a,s'),之前我们还定义过R=R(s,a),此处不是二元的。为什么是3元呢?:因为在方程里面求和的时候,求和符号下面的变量已知了,就代表下一时刻s’已经知道了,那r就采用三元的定义形式了。不过也可以写成二元的奖励函数,因此有了下面的基于二元奖励函数的贝尔曼方程。
4)三元价值函数和二元值函数的关系
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
贝尔曼方程与动态规划的关系:贝尔曼是动态规划的发明人,s状态下的状态值函数可以使用下一时刻状态s’的状态值函数表示出来,也是动态规划的原理。

2.3节 策略评估

智能体思考在当前环境下要做出什么动作的过程就叫策略。
在这里插入图片描述
在这里插入图片描述
所有的终止状态的状态值函数都是0
下图中的状态转移概率在上图中已经展示了一部分,比较好写。使用的策略是平均策略,也即时在不管在哪个状态下,采取任意一个动作的概率均为0.5,也因为是每个状态下可采取的动作只有两个,定义策略时采用平均策略较好。
在这里插入图片描述
下图中基于状态值函数的贝尔曼方程中的4个方程就严格按照方程写是比较好写出来的。解出来的结果见下图
在这里插入图片描述
在V4的时候稍微麻烦一点,部分计算如下图
在这里插入图片描述
需要注意的一点:
联立的这个4元方程组一定是有解的,原因是:显然可以看出第1个方程中V2可以使用V1表示,第2个方程中V3可以使用V2表示,第3个方程中V4可以使用V3表示,而第4个方程中可以将所有变量均使用V1去表示,因此这个方程组可以合并成一个关于V1的方程,则必有解。我认为其他的场景下使用动态规划模型建模的强化学习方法使用方程组法去解则其解也类似如此唯一。
如果在秩的角度来解释:每个方程都是根据在不同状态下写出来的,每个状态是独立的,因此这几个方程是独立的,是不相关的,因此方程组的秩是满秩的,因此有唯一解。
当方程组很大的时候采用高斯消元法已经不够用了,此时使用迭代法来求解一个方程组。即先设置一个初值,经过贝尔曼方程的逐次计算得到一个迭代序列,经过多次迭代就会得到一个最终的近似解。迭代法之后用的更多,优点是速度快、方法简单,缺点是得到的解是近似解,不是精确解。
在这里插入图片描述
假如有一个新的策略π’,根据这个策略算出来一系列的状态值,这些状态值都要大于原来的策略π算出来的状态值,那么这个新策略π’就要比原来的策略π要好。具体为什么是这样,暂时不太清楚,存疑后解。
在这里插入图片描述

2.4节 策略改进

根据下面的定义可以得出结论:找最优的策略的就是去找最大的状态值函数。
在这里插入图片描述
π’(s)表示根据π’策略从状态s开始下一步执行的动作
策略改进定理:
在这里插入图片描述
证明:
在这里插入图片描述
上面证明的一个说明:在V的时候,下标是π或π’似乎无关紧要,不用纠结,当然认真抠细节的话,我觉着应该是薛定谔的V
在这里插入图片描述
说明:策略改进定理是策略得到改进的充分条件,满足(2-14)的最简单的策略就是贪婪策略,贪婪策略简单解释为:在状态s时选择使得动作值函数最大的动作作为策略。
贪心策略一定是满足策略改进定理中的(2-14)式的。下图红色的公式是用动作值函数来表示状态值函数的公式。从该公式中可以看出,状态值函数是动作值函数的期望值,而π’(s)如果是选择在状态s时使得动作值函数最大的动作,那么Qπ(s,π’(s))则是最大的动作值函数,必大于等于动作值函数的期望值,也即是必大于等于状态值函数,因此满足(2-14)式,故该策略可有效改进。
在这里插入图片描述
由下图Qπ(s,a)的表达公式,如果已知Vπ(s’)要去计算Qπ(s,a)需要知道状态转移函数p(s’|s,a),如果不知道状态转移函数p(s’|s,a)怎么办?可以使用基于动作值函数的贝尔曼方程去求解
在这里插入图片描述
基于动作值的贝尔曼方程见下图:(具体如何根据下图求解状态转移概率有待研究)
在这里插入图片描述
在这里插入图片描述
下面示例中的被划掉的0其实不应该写的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.5节 最优值函数与最优策略

本节讲最优策略与值函数之间的关系,首先定义两个最优值函数:最优状态值函数、最优动作值函数。
在这里插入图片描述
针对最优值函数公式的解释:假如有两个策略:平均策略和贪婪策略,针对特定状态,在这两个策略中能使得在该策略下使得状态值函数最大的策略就是该状态对应的最优的策略,对于任意的状态来说,挑选对应的最优策略,形成的最优状态值函数就是最优状态值函数。
最优动作值函数的解释和上面的解释类似。
在这里插入图片描述
性质有3(暂时不证明,证明很麻烦):
1)结论1解决了最优策略的存在性问题
2)最优策略下的状态值函数就是最优状态值函数
3)最优策略下的动作值函数就是最优动作值函数
根据3个性质可知假如我们找到了最优策略,那么通过计算在最优策略下的每一个状态值函数,就可以得到最优状态值函数,动作值函数也类似。假如我们计算出了最优状态值和最优动作值,那么最优状态值和最优动作值对应的策略就是最优策略。
在这里插入图片描述
如果π是最优策略则一定会满足上面红色框中的式子。即π是最优策略该式子成立充分条件

基于状态值函数的贝尔曼最优方程基于状态值函数的贝尔曼方程的区别在于最优值函数是基于状态值函数的贝尔曼方程最大值,且使用的策略是最优策略
在这里插入图片描述
下图的式子可能对下面的推导有用
在这里插入图片描述
下面的式子的推导不懂,先放着
在这里插入图片描述
如果π是最优策略则一定会满足上面红色框中的式子。即π是最优策略该式子成立充分条件
在这里插入图片描述
方案1:
现有一个策略π,针对该策略进行评估,然后根据贪婪策略改进到一个贪婪策略π',针对该策略π’进行评估,然后根据贪婪策略改进到一个贪婪策略π’',如此下去策略序列收敛到π*
方案2:由本节所讲的两个最优策略所应满足的条件:基于状态值函数的贝尔曼方程基于动作值函数的贝尔曼方程来联立方程组进行求解,这个方程组和之前的贝尔曼方程组之间的区别在于它不是一个线性方程组,原因在于这两个方程中都含有max函数,不是线性方程组因此不可以使用高斯消元法来进行求解。可以使用迭代法求解该方程组即可得到最优策略。

2.6节 值迭代与策略迭代

策略评估:Policy Evalution(PE)
策略改进:Policy Improvement(PI)
在这里插入图片描述
算法2-2是策略改进算法
在这里插入图片描述
在这里插入图片描述
上图的解释:
1)上面介绍了两种最优值函数的方程,因此可以使用两种迭代方法去求解最优策略,绿色的是一种方案,红色的是一种方案
2)流程:不管使用哪种方先迭代得到最优的值函数(包括状态值函数或动作值函数),箭头指向的是流程。
3)基于状态值函数:先迭代求出最优状态值函数V*,然后通过Q*(s,a)的表达式,然后算出Q*,通过计算argmax来找到最优的策略π*(s)
4)基于动作值函数:通过迭代公式多次迭代得到最优的Q,通过计算argmax来找到最优的策略π*(s)
5)红色的圈是表示不管使用哪种迭代方法都得使用状态转移概率

说明:
1)假设有4个状态,对应的状态也有4个,k表示步数,同步更新与异步更新发生在k=1到k=2的过程。
2)默认4个状态之间是可以相互转换的。下图中举的例子是k=2时,s1可能的转换例如s1—>s2和s1—>s4,那么第1种转换需要使用v2,第2种转换需要使用v4,此时s1的v1更新使用的是k=1时刻即使用上一时刻旧的状态值,这种更新称为同步更新。重新定义:在计算k=2时刻的所有状态值时全部使用的旧的状态值,这种更新方法是同步更新。
若在更新k=2时刻的v2时,使用的是已经更新好的v1,这种更新方法称为异步更新
3)v2——>v1蓝色是同步更新,v1——>v2绿色是异步更新
在这里插入图片描述
4)平时用的最多的是用状态值函数。
在这里插入图片描述

2.7节 动态规划求解最优策略

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1308307.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

20章节多线程

20.1线程简介 世间有很多工作都是可以同时完成的。例如,人体可以同时进行呼吸、血液循环、思考问题等活用户既可以使用计算机听歌,也可以使用它打印文件。同样,计算机完全可以将多种活动同时进这种思想放在 Java 中被称为并发,而将…

文件系统理解

先前的博客我写了关于缓冲区的理解,顺便提及了在内存的文件是怎样管理的,本文就来描述在磁盘上的文件是怎么样。但要先了解了解磁盘。 在笔记本上机械磁盘被固态硬盘代替,因为固态硬盘更快,而且方便携带,机械硬盘若是受…

使用Selenium库模拟浏览器操作

Selenium是一个用于自动化Web浏览器的Python库。它提供了一组强大的工具和API,使开发者能够以编程方式控制浏览器的行为,模拟用户与网页的交互。 Selenium可以用于各种Web自动化任务,包括网页测试、数据采集、UI自动化等。它支持主流的Web浏览…

C#实现支付宝转账功能

环境 .net 6 AlipaySDKNet.OpenAPI 2.4.0 申请证书 登录支付宝开放平台https://open.alipay.com/ 进入控制台 授权回调地址也设置一下,加密方式AES 新建.net 6空白的web项目 证书除了java都需要自己生成一下pkcs1的密钥 privatekey.txt就是根据应用私钥生成…

揭开苹果3兆美元市值的秘密:创新因素

苹果公司的创新战略如何使其在竞争中脱颖而出?并成为当今全球用户最追捧的品牌,拥有各个人群中最忠诚的客户基础。苹果公司的市值超过$3万亿以及百亿美元净利,彰显了这家世界上最具创新力的公司的实力。从标志性的麦金塔到iPod、iPhone和iWat…

SQL小技巧3:分层汇总

前几天,QQ学习群有个小伙伴问我一个使用SQL分层汇总的问题。 今天正好分享下。 需求描述 在数据报表开发的工作中,经常会遇到需要对数据进行分组汇总的情况。 假设有一个销售数据表sales,包含列region(地区)、mont…

与「高通」最像的芯片公司出道,杀入主流智驾芯片市场

作者 |德新 编辑 |王博 单芯片全时行泊一体 上个月,AI芯片研发及基础算力平台公司爱芯元智推出面向车载智能驾驶领域的品牌「爱芯元速」。这意味着这家创办四年多,累计融资近20亿元的芯片公司正式进军车载市场。 实际上,爱芯元速序列的第一…

算法导论复习(二)

算法导论第二次复习以 分治法 为专题 文章目录 分治算法是什么归并排序Strassen矩阵乘法最近点对 求解递推表达式 分治算法是什么 归并排序 代码如下&#xff1a; #include <iostream> #include <vector>using namespace std;// 归并函数&#xff0c;将两个有序数…

k8s debug 浅谈

一 k8s debug 浅谈 说明&#xff1a; 本文只是基于对kubectl debug浅显认识总结的知识点,后续实际使用再补充案例 Kubernetes 官方出品调试工具上手指南(无需安装&#xff0c;开箱即用) debug-application 简化 Pod 故障诊断: kubectl-debug 介绍 1.18 版本之前需要自己…

【docker】Hello World

搜索hello-world镜像 docker search hello-world拉去镜像 docker pull hello-world查看本地镜像 docker images 运行镜像 docker run hello-world查看所有的容器 docker ps -a查询start状态容器 docker ps 输出介绍 CONTAINER ID: 容器 ID。IMAGE: 使用的镜像。COMMAN…

No module named ‘osgeo’解决办法

from osgeo import gdal 报错&#xff1a;No module named ‘osgeo’ pycharm安装osgeo、GDAL都失败 pip install osgeo失败 最后先下载对应版本的GDAL文件 再cmd命令行中用对应环境的python进行GDAL包安装 1.我将我的Anaconda某个环境文件夹D:\software\pinstall\Anaconda3…

window系统使用ESP8266开发板(CP2102)

连接开发板到电脑 虚拟机中选择连接的开发板硬件 查看设备管理器 更新驱动: CP210x USB to UART Bridge VCP Drivers - Silicon Labs 驱动安装成功

每日一练【将 x 减到 0 的最小操作数】

一、题目描述 给你一个整数数组 nums 和一个整数 x 。每一次操作时&#xff0c;你应当移除数组 nums 最左边或最右边的元素&#xff0c;然后从 x 中减去该元素的值。请注意&#xff0c;需要 修改 数组以供接下来的操作使用。 如果可以将 x 恰好 减到 0 &#xff0c;返回 最小…

为什么QLC NAND才是ZNS SSD最大的赢家?-part3

在ZNS SSD设计中&#xff0c;也有很多的挑战&#xff1a; Open Zones 对写入缓冲区的需求&#xff1a;保持大量的 open zones&#xff08;例如 1K&#xff09;会增加对带宽的需求&#xff0c;并要求控制器提供足够的缓冲空间来管理并发写入请求。这需要较大的高带宽写入缓冲区以…

【功能更新】HelpLook AI能力数据分析能力强化提升!

功能更新速览&#x1f447; AI能力: 1.AI搜索支持设置为手动查看 2.新增文心一言3.5机器人模型 3.支持多轮对话 数据分析&#xff1a; 1.搜索词新增对应点击文章的数据统计 2.支持统计内容创建作者及相关数据 3.新增操作日志 4.新增获取留资列表API AI能力 1.AI搜索支持…

【数组Array】力扣-5 最长回文子串

目录 题目描述 题解labuladong 题目描述 给你一个字符串 s&#xff0c;找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同&#xff0c;则该字符串称为回文字符串。 示例 1&#xff1a; 输入&#xff1a;s "babad" 输出&#xff1a;"bab"…

C++系列第八篇 数据类型下篇 - 复合类型(指针及动态内存申请)

系列文章 C 系列 前篇 为什么学习C 及学习计划-CSDN博客 C 系列 第一篇 开发环境搭建&#xff08;WSL 方向&#xff09;-CSDN博客 C 系列 第二篇 你真的了解C吗&#xff1f;本篇带你走进C的世界-CSDN博客 C 系列 第三篇 C程序的基本结构-CSDN博客 C 系列 第四篇 C 数据类型…

改善代码质量,试试这10种方法

那么&#xff0c;什么是高质量的代码&#xff1f;如何才能写出高质量的代码&#xff1f;为什么有的程序员工作 5年&#xff0c;写出来的代码质量还不如 3年的程序员&#xff1f;今天我们就来聊一聊。 1. 什么是高质量代码 代码的“好”与“坏”是一个相对的描述&#xff0c;因…

WEB渗透—PHP反序列化(一)

Web渗透—PHP反序列化 课程学习分享&#xff08;课程非本人制作&#xff0c;仅提供学习分享&#xff09; 靶场下载地址&#xff1a;GitHub - mcc0624/php_ser_Class: php反序列化靶场课程&#xff0c;基于课程制作的靶场 课程地址&#xff1a;PHP反序列化漏洞学习_哔哩…

Vue3-16-【v-model】 表单数据绑定

作用描述 v-model 指令&#xff0c;实现了 表单输入组件的值 与 js 中的变量的值的绑定关系。 当我们在页面上执行输入动作时&#xff0c;js中变量的值也会同步发生变化。表单不仅仅局限于输入框&#xff0c;其他的如 &#xff1a; 单选按钮&#xff0c;复选框&#xff0c;下拉…