强化学习的数学原理：值迭代与策略迭代

强化学习的数学原理：值迭代与策略迭代

news2025/7/14 20:05:25

概述

在这里插入图片描述

从课程地图上可以看出来，这是本门课程中第一次正式的介绍强化学习的算法，并且是一个 model-based 的算法，而在下一节课将会介绍第一个 model-free 的算法（在 chapter 5）。而这两节和之前所学的 BOE 是密切相关的：value iteration 在 BOE 中已经介绍过，但是不够正式，而 policy iteration 则是下一节 Monte Carlo Learning 的一个基础。

本节课大纲如下：

在这里插入图片描述

这三者联系同样非常紧密，实际上值迭代和策略迭代是 truncated policy iteration 的两种极端情况。

Value iteration algorithm

在这里插入图片描述

从上图可以看到，实际上之前通过迭代的方式求解贝尔曼最优公式的过程就是这里要学习的 value iteration 算法。

其算法过程包括两部分，第一部分就是首先会给定 Vk，要求解这个嵌套在这个 BOE 式子当中的一个优化问题也就是求解 Π，当这个 Π 被求解出来以后，然后再求解出来这个 Vk+1 即可。

也就是下图所对应的两个步骤：

在这里插入图片描述

注意上图中最后留下的问题：Vk 是一个 state value 吗？

乍一看好像 Vk 就是一个 state value，然而并不是。右边是 Vk，左边是V(k+1)，如果左边是 Vk 那么该式子确实是一个贝尔曼公式，求得的解就是 state value，但是左边并不是 Vk，因此并非 state value。
那它是什么呢？其实就是一个向量，一个值，Vk 只是某次迭代过程中还没有收敛的一个值。为什么叫值迭代算法？就是因为它可以是任意的值，然后慢慢迭代到 state value 罢了。

接下来我们使用 elementwise form 来实现值迭代算法（矩阵向量形式适合理论研究）：

在这里插入图片描述

首先是第一步，策略更新：

在这里插入图片描述

然后是第二步，值更新：

在这里插入图片描述

合起来的过程如下：

在这里插入图片描述

算法实例：

在这里插入图片描述

在这里插入图片描述

Policy iteration algorithm

在这里插入图片描述

这样一个过程可以被下图表示出来：

在这里插入图片描述

接下来回答上面 PPT 中的问题：

在这里插入图片描述

对于求解 state value 有两种方法，我们这里会介绍常用的迭代的方式。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

接下来是实现 policy iteration 的做法：

在这里插入图片描述

在这里插入图片描述

伪代码如下：

在这里插入图片描述

一个简单的例子用来加深印象：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

这是一个比较简单的例子，因此迭代次数较少。

Truncated policy iteration algorithm

首先比较一下上文说的 value iteration 和 policy iteration：

在这里插入图片描述

从上图可以看出，二者其实是非常类似的：

在这里插入图片描述

但还是会有区别的：

在这里插入图片描述

在这里插入图片描述

上图是一个典型的求解贝尔曼公式id一个迭代算法，但是马上就有新的东西要出现了：

在这里插入图片描述

为什么叫 truncated 呢？从上图容易知道，就是因为从 j 出发到后边无穷的这些步全都没有了，全部都截断了，因此 truncated policy iteration 显然是 value iteration 和 policy iteration 更一般化的形式。

还有一个需要强调的点是，policy iteration 这个算法其只在理论上存在，在实际当中是不可能存在的，因为它需要计算无穷多步，在实际当中是不可能计算无穷多步的。

我们经常做的实际上就是判断比如说 VΠ1(j) 和 VΠ1(j-1) 这两个直接的误差是不是已经足够小了，如果足够小那么就可以停止迭代了，而这显然是有限步的操作。

因此实际上我们平常所做的 policy iteration 其实就是 truncated policy iteration。

其伪代码思路如下：

在这里插入图片描述

然而上图有一个明显的问题就是其没有计算无穷多步，因此计算出来的 Vk 实际上并不是 VΠk，那么这种截断会不会带来一些问题呢？

不会的：

在这里插入图片描述

上面的结果可以通过下面的图示更好的展示：

在这里插入图片描述

Summary

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1891283.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

比较多种msvcr110.dll丢失的解决方法，哪一种更加方便?

比较多种msvcr110.dll丢失的解决方法，哪一种更加方便?

当遇到“msvcr110.dll丢失”这种问题时，这通常意味着你的系统中缺少了Microsoft Visual C 2012 Redistributable的组件。下面我将详细介绍五种解决方法，并对比它们的优点。一.多种msvcr110.dll丢失的解决方法方法 1: 重新安装Microsoft Visual C 2012…

阅读更多...

在CMD中创建虚拟环境并在VSCode中使用和管理

在CMD中创建虚拟环境并在VSCode中使用和管理

1. 使用Conda创建虚拟环境在CMD或Anaconda Prompt中执行以下代码以创建一个新的虚拟环境： conda create -n my_env python 3.8 这样会创建一个名为 my_env 的环境，并在Anaconda环境目录下生成一个相应的文件夹，包含该虚拟环境所需的所有…

阅读更多...

Steam夏促商店不是人民币/商店怎么改回人民币教程

Steam夏促商店不是人民币/商店怎么改回人民币教程

游戏玩家们的狂欢节来了，steam夏促进行中，G胖真够舍得，好多游戏低到无法想象，steam其实也不止是游戏方面比较优秀，相关的拓展也非常全面，比如说创意工坊就是很强的一个功能，简单来说就是给玩家创…

阅读更多...

【关注】科大睿智祝贺企业上榜2024年第六批CS资质名单公示

【关注】科大睿智祝贺企业上榜2024年第六批CS资质名单公示

近日，经审核拟定，现将中国电子信息行业联合会会员单位开展信息系统建设和服务能力贯标评估结果公示如下（排名不分先后）：拟授予基本级（CS2级）企业：22家，拟授予初始级&…

阅读更多...

SSM中小学生信息管理系统-计算机毕业设计源码02677

SSM中小学生信息管理系统-计算机毕业设计源码02677

摘要随着社会的发展和教育的进步，中小学生信息管理系统成为学校管理的重要工具。本论文旨在基于SSM框架，采用Java编程语言和MySQL数据库，设计和开发一套高效、可靠的中小学生信息管理系统。中小学生信息管理系统以学生为中心，通过…

阅读更多...

查找python包的安装路径

查找python包的安装路径

前提：自己已经安装过的包 1、打开任一python解析器，如VSCode 2、以matplotlib为例，敲下面命令 import matplotlibprint(matplotlib.path) 3、运行代码就可以了需要注意： 部分包没有path（比如time）&am…

阅读更多...

JS（JavaScript）数据校验表单校验-案例

JS（JavaScript）数据校验表单校验-案例

天行健，君子以自强不息；地势坤，君子以厚德载物。每个人都有惰性，但不断学习是好好生活的根本，共勉！ 文章均为学习整理笔记，分享记录为主，如有错误请指正，共同学习进步。…

阅读更多...

PyPDF2拆分PDF文件为单个页面

PyPDF2拆分PDF文件为单个页面

本文目录前言一、拆分成为单页1、代码解析2、处理效果图3、完整代码二、其它知识1、enumerate是什么① 语法② 功能③ 示例④ 更改起始索引前言感觉之前写的不是很满意，为了充分满足付费用户的权益，所以打算把PyPDF2的各种类和用法都重新写一下，以便满足所有订阅用户的各…

阅读更多...

Megatron-DeepSpeed与Megatron-LM在reduce grad上的差异

Megatron-DeepSpeed与Megatron-LM在reduce grad上的差异

Megatron-DeepSpeed与Megatron-LM在reduce grad上的差异一.Megatron-DeepSpeed 实现【deepspeed/runtime/engine.py】二.ModelLink 实现【ParamAndGradBuffer】1.ParamAndGradBuffer功能介绍2.实现原理A.分配一大块内存B.获取视图C.all_reduce grad 测试DP1,TP2,PP1,MBS1,zero…

阅读更多...

匠心独运：红酒与手工艺的很好结合

匠心独运：红酒与手工艺的很好结合

在岁月的长河中，红酒与手工艺都以其不同的魅力和技艺，书写着各自的故事。当这两者相遇，仿佛是一场跨越时空的对话，不仅展现了匠心独运的技艺之美，更在无声中诉说着对品质与生活的热爱。今天，就让我们一起探…

阅读更多...

CVE-2024-6387漏洞预警：尽快升级OpenSSH

CVE-2024-6387漏洞预警：尽快升级OpenSSH

OpenSSH维护者发布了安全更新，其中包含一个严重的安全漏洞，该漏洞可能导致在基于glibc的Linux系统中使用root权限执行未经身份验证的远程代码。该漏洞的代号为regreSSHion，CVE标识符为CVE-2024-6387。它驻留在OpenSSH服务器组件（也…

阅读更多...

基于Vue.js和SpringBoot的地方美食分享网站系统设计与实现

基于Vue.js和SpringBoot的地方美食分享网站系统设计与实现

你好，我是计算机专业的学姐，专注于前端开发和系统设计。如果你对地方美食分享网站感兴趣或有相关需求，欢迎随时联系我。开发语言 Java 数据库 MySQL 技术 Vue.js SpringBoot Java 工具 Eclipse, MySQL Workbench, Maven 系统展示…

阅读更多...

swiftui中常用组件picker的使用，以及它的可选样式

swiftui中常用组件picker的使用，以及它的可选样式

一个可选项列表就是一个picker组件搞出来的，它有多个样式可以选择，并且可以传递进去一些可选数据，有点像前端页面里面的seleted组件，但是picker组件的样式可以更多。可以看官方英文文档：PickerStyle | Apple Developer…

阅读更多...

1分钟了解，预写日志WAL的核心思路...

1分钟了解，预写日志WAL的核心思路...

上一篇《刷盘，还是不刷盘，是一个问题》中我们遇到了哪些问题？ 1. 已提交事务未提交事务的ACID特性怎么保证？ 画外音：上一篇中遇到的问题，主要是原子性与持久性。 2. 数据库崩溃，怎么实施故障恢复…

阅读更多...

Python28-5 k-means算法

Python28-5 k-means算法

k-means 算法介绍 k-means 算法是一种经典的聚类算法，其目的是将数据集分成 ( k ) 个不同的簇，每个簇内的数据点尽可能接近。算法的基本思想是通过反复迭代优化簇中心的位置，使得每个簇内的点与簇中心的距离之和最小。k-means 算法的具体步骤…

阅读更多...

如何使用ECharts和Java接口实现可视化的数据挖掘

如何使用ECharts和Java接口实现可视化的数据挖掘

如何使用ECharts和Java接口实现可视化的数据挖掘【引言】随着大数据时代的到来，数据挖掘成为了一项重要的技术，在企业决策、市场分析等领域发挥着重要作用。数据挖掘需要将大量的数据进行分析和展示，而可视化是一种直观、形象的展示方式。…

阅读更多...

【kafka】可视化工具cmak（原kafka-manager）安装问题解决

【kafka】可视化工具cmak（原kafka-manager）安装问题解决

众所周知（反正不管你知不知道），kafka-maneger更名了，现在叫cmak！原因是什么呢？据不可靠小道信息说，原kafka-manager这个名字涉及到kafka商标使用问题，应该是被律师函警告了&#xff…

阅读更多...

DeepFaceLive----AI换脸简单使用

DeepFaceLive----AI换脸简单使用

非常强大的软件,官方github https://github.com/iperov/DeepFaceLive 百度云链接: 链接：https://pan.baidu.com/s/1VHY-wxqJXSh5lCn1c4whZg 提取码：nhev 1下载解压软件下载完成后双击.exe文件进行解压.完成后双击.bat文件打开软件 2 视频使用图片换…

阅读更多...

零基础入门GIS开发，必看实用教程【附智慧校园实战笔记源码】

零基础入门GIS开发，必看实用教程【附智慧校园实战笔记源码】

GIS开发也叫webgis，web就是指网页端，所以GIS开发大部分情况下是指网页端的地图可视化开发。因此GIS开发需要学习前端开发HTML/CSS/JS，以及一些常见的前端框架，例如vue和react等（新中地教育通常是教vue，其…

阅读更多...

【Kafka】记录一次Kafka消费者重复消费问题

【Kafka】记录一次Kafka消费者重复消费问题

文章目录现象业务背景排查过程Push与Pull 现象用户反馈消费者出现消息积压，并且通过日志看，一直重复消费，且没有报错日志。业务背景用户的消费者是一个将文件做Embedding的任务，（由于AI技术的兴起，大…

阅读更多...

推荐文章

最新文章