强化学习编程实践-4-基于蒙特卡洛的方法

强化学习编程实践-4-基于蒙特卡洛的方法

news2025/4/28 13:08:41

第3章给出了学习算法的基本思路：策略评估和策略改善。其中策略评估用到了以下的公式（4.1）：

策略改善则用了最简单的贪婪策略（4.2）：

为什么要用蒙特卡洛算法？先看公式4.1和4.2，如果状态转移概率已知，那么利用上面两式就可以得到最优策略。如果模型是未知的？式（4.1）不能再用，式（4.1）仍然可以用，因为该式与模型无关。

如果想要利用整个框架，必须找到一种方法来替代公式（4.1）的策略评估。

---->利用本章蒙特卡洛方法和第5章的时间差分方法。

4.1 蒙特卡洛算法原理

当模型是未知的，即智能体在状态s时并不知道转移到下一个状态s'的概率。但是，智能体在状态s通过动作a与环境进行交互，环境会根据根据状态转移给出下一个时刻的状态，但环境并不会直接给出状态转移的概率。也就是说，在模型未知时，我们只能通过一系列的动作，得到一系列的状态序列。

其中为终止状态。

至此，我们已经拥有当前的策略，以及根据策略Π得到的一连串数据，缺少状态转移概率，而想要评估策略Π的值函数，该怎么做？

既然不能使用式（4.1），那么回到值函数的定义式(4.3)

式4.3是期望的式子，其中 $\tau$ 表示一次实验数据，即为

G（τ）为累积折扣回报，为产生轨迹 $\tau$ 的概率分布，我们不知道值函数的概率分布，所以不能用积分公式来求值函数。但我们有数据就可以计算在策略Π的作用下，经过一次实验τ后状态St处的折扣累积回报G(τ)。

蒙特卡洛的方法就是用策略Π做很多次实验，从而可以的带状态 $s_t$ 处的很多个折扣累积回报，那么公式（4.3）的积分公式，就可以用代数平均来计算。即式（4.4）：

那有了式4.4和式4.2，就可以进行策略评估和策略改善了吗？

还不行，因此公式4.2，我们只知道每个状态处的行为-值函数q(s,a),而不是状态值 $v_\pi(s)$

行为值函数的定义为式（4.5）：

当模型P已知时，值函数可以由式（4.5）计算出来。但模型未知时，该怎么办？

还是需要行为-值函数的原始定义，式（4.6）：

式（4.6）的计算用前面的蒙特卡洛进行估计。即式（4.7）：

对于无模型的强化学习算法，利用式4.7和式4.2就可以实现策略评估和策略改善。

1.关于值函数和行为值函数

值函数定义：

行为值函数定义：

即在状态 $s_t$ ,并采取了动作a之后折扣累积回报的期望。

举一个简单的例子，利用策略Π产生了如下两组数据：

那么状态值函数的计算公式为 $\nu (s_0)=\frac{1}{2}((r_1+\gamma r_2)+(r_2+\gamma r_T))$

行为值函数可以分为两个： $q(s_0,a_1)=r_1+\gamma r_2\\ q(s_0,a_2)=r_3+\gamma r_T$

2.关于值函数的定义

4.2蒙特卡洛算法的代码实现

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1922135.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

图鸟UI框架在uni-app多端应用开发中的实践与应用

图鸟UI框架在uni-app多端应用开发中的实践与应用

摘要： 随着移动互联网的蓬勃发展，跨平台应用开发已成为行业趋势。本文将探讨图鸟UI框架如何在uni-app开发环境下助力开发者高效构建多端应用，并通过具体案例展示其在实际项目中的应用效果。一、引言在移动应用开发领域，跨平台…

阅读更多...

【错题集-编程题】栈和排序（栈 + 贪心）

【错题集-编程题】栈和排序（栈 + 贪心）

牛客对于题目连接：栈和排序_牛客题霸_牛客网 (nowcoder.com) 一、分析题目每次尽可能的先让当前需要的最大值弹出去。二、代码 // 修改后的代码 class Solution { public:/*** 代码中的类名、方法名、参数名已经指定，请勿修改，直接返回方…

阅读更多...

百度文心4.0 Turbo开放，领跑国内AI大模型赛道！

百度文心4.0 Turbo开放，领跑国内AI大模型赛道！

百度文心4.0 Turbo开放，领跑国内AI大模型赛道！ 前言文心一言大模型就在7月5日，在2024世界人工智能大会 (WAIC) 上，百度副总裁谢广军宣布文心大模型4.0 Turbo正式向企业客户全面开放！这一举动直接引发了业界的关注。那…

阅读更多...

uniapp微信小程序 TypeError: $refs[ref].push is not a function

uniapp微信小程序 TypeError: $refs[ref].push is not a function

我的写法 this.$refs.addPopup.open();报错打印出来是这样的解决参考未整理原因在当前页面使用的v-for循环并且循环体内也有组件使用了ref（而我没有把每个ref做区别命名） 这样就导致了我有很多同名的ref，然后就报错了解决办法&a…

阅读更多...

上海-三轮摩托车—D证科目四错题记录

上海-三轮摩托车—D证科目四错题记录

目录 1.安全驾驶题 2.道路图标题 3.天气类情景题 4.事故处理类题上海-三轮摩托车—D证科目一错题记录： 1.安全驾驶题

阅读更多...

阐述 C 语言中的浮点数精度问题？

阐述 C 语言中的浮点数精度问题？

🍅关注博主🎗️ 带你畅游技术世界，不错过每一次成长机会！ 📙C 语言百万年薪修炼课程【https://dwz.mosong.cc/cyyjc】通俗易懂，深入浅出，匠心打磨，死磕细节，6年迭代&…

阅读更多...

tableau回归分析与时间序列分析 - 17

tableau回归分析与时间序列分析 - 17

回归分析与时间序列分析 1. 回归分析1.1 线性回归绘制1.1.1 导入数据1.1.2 基本绘制1.1.3 趋势线显示-方法一1.1.4 趋势线显示-方法二1.1.5 趋势线显示-方法三1.1.6 添加区域注释 1.2 指数回归绘制1.2.1 创建字段1.2.2 异常区分1.2.3 创建参数1.2.4 异常区分字段修改1.2.5 显示…

阅读更多...

MySQL学习笔记下

MySQL学习笔记下

MySQL学习笔记（需接上篇） 1. 通配符用于替换字符串中的一个或多个字符；通配符常与LIKE关键字一起使用，用于搜索字段中的指定模式； 2. 别名用于为表或表中的列提供临时名称； 别名用于为表或表中的字段…

阅读更多...

【安卓学习】状态开关按钮

【安卓学习】状态开关按钮

Switch 状态开关按钮（Switch）也是由 Button 派生出来的，所以在本质上它也算是一个比较高级的按钮，用户可以来回拖动“拇指”控制该按钮的开启与关闭或者只需轻按，就像选择复选框一样来开启该组件。基本语法 <Sw…

阅读更多...

外贸淡季如何应对？九大技巧告诉你！

外贸淡季如何应对？九大技巧告诉你！

许多外贸人都知道，7-9月是外贸的淡季，主要是因为西方国家很多公司会放假，或者轮流放。欧美人扎堆度假去了，欧洲城市街头的人数会减少很多。导致很多订单暂缓。所以这三个月经常被称为是外贸“淡季”。大体上讲，外贸的…

阅读更多...

警钟！电池储能安全事故频发！物联网技术如何加强储能安全排查？

警钟！电池储能安全事故频发！物联网技术如何加强储能安全排查？

在新能源时代背景下，储能系统作为能源转型的关键支撑技术，其安全问题日益凸显，尤其是近期海外电池项目连续发生的事故，为全球储能行业敲响了警钟。面对这一挑战，物联网技术以其强大的数据采集、智能分析与远程监控能力…

阅读更多...

聊聊mysql

聊聊mysql

记录那些坑本文会持续更新，陆续更新有关mysql技术内幕、实战优化、面试技巧。文章目录前言索引BTree之聚集索引BTree之辅助索引BTree之联合索引BTree之覆盖索引使用到的工具1、py_innodb_page_info工具2、hexdump工具总结前言重中之重的MySql数据库 mysql…

阅读更多...

ARM功耗管理之睡眠锁

ARM功耗管理之睡眠锁

安全之安全(security)博客目录导读思考：什么是睡眠锁？什么是唤醒源？什么是组合唤醒源？ Kernel wakelocks的功能： 1）允许driver创建wakelock以阻止睡眠、注销wakelock以允许睡眠。 2）wake_lo…

阅读更多...

SpringBoot新手快速入门系列教程7：基于Redis的一个简单存取数据的例子

SpringBoot新手快速入门系列教程7：基于Redis的一个简单存取数据的例子

我的教程都是亲自测试可行才发布的，如果有任何问题欢迎留言或者来群里我每天都会解答。新手可能有这样的疑问，有了数据库的存取方式，我们为什么还要使用Redis这种缓存数据库读取方式呢？ 原因主要有以下几点： 1. 性能…

阅读更多...

本地部署，MODNet 背景去除大模型

本地部署，MODNet 背景去除大模型

目录摘要引言 MODNet 架构关键组件技术原理本地部署运行结果结论 GitHub - ZHKKKe/MODNet: A Trimap-Free Portrait Matting Solution in Real Time [AAAI 2022]A Trimap-Free Portrait Matting Solution in Real Time [AAAI 2022] - ZHKKKe/MODNethttps://gith…

阅读更多...

在Linux上导出NFS共享---网络文件系统

在Linux上导出NFS共享---网络文件系统

目录一、NFS介绍二、NFS 所需要的服务三、搭建NFS服务器共享文件到客户端在虚拟机129上配置： 在虚拟机135上配置测试四、autofs自动挂载 1、安装软件启动 2、编写 /etc/auto.master,在里面添加内容如下 3、编写 /etc/auto.nfs，其内容如下 …

阅读更多...

怎么提高音频的播放速度？可以提高音频播放速度的四种方法推荐

怎么提高音频的播放速度？可以提高音频播放速度的四种方法推荐

怎么提高音频的播放速度？提高音频的播放速度是一种有效的策略，可以显著节省时间和提升信息获取的效率。随着信息量不断增加和学习需求的多样化，快速播放音频已成为许多人在日常生活和工作中的常见做法。这种方法不仅可以用于提高学习效率&…

阅读更多...

基于 JSP 的网络招标系统设计与实现

基于 JSP 的网络招标系统设计与实现

点击下载源码基于jsp的网上招标系统设计与实现摘要从本世纪初，互联网开始加速发展，各种创新型应用和互联网新概念不断出现，例如搜索引擎、电子商务、博客、维基百科、RSS、3G、web2.0、长尾理论等。这些应用和概念与知识管理都有着或多或少…

阅读更多...

视频融合共享平台视频共享融合赋能平台数字化升级医疗体系

视频融合共享平台视频共享融合赋能平台数字化升级医疗体系

在当前，医疗健康直接关系到国计民生，然而，由于医疗水平和资源分布不均，以及信息系统老化等问题，整体医疗服务能力和水平的提升受到了限制。视频融合云平台作为数字医疗发展的关键推动力量，在医疗领域的广泛…

阅读更多...

Qt：19.浮动窗口/子窗口(子窗口介绍、代码方式创建子窗口、设置子窗口标题、为子窗口添加控件、设置子窗口停靠位置)

Qt：19.浮动窗口/子窗口(子窗口介绍、代码方式创建子窗口、设置子窗口标题、为子窗口添加控件、设置子窗口停靠位置)

目录 1.子窗口介绍： 2.代码方式创建子窗口： 3.设置子窗口标题： 4.为子窗口添加控件： 5.设置子窗口停靠位置。 1.子窗口介绍： 在 Qt 中，可以创建和管理子窗口（子窗口体）以实现多窗…

阅读更多...

推荐文章

最新文章