强化学习编程实践-4-基于蒙特卡洛的方法

news2024/9/21 0:46:56

        第3章给出了学习算法的基本思路:策略评估和策略改善。其中策略评估用到了以下的公式(4.1)

        策略改善则用了最简单的贪婪策略(4.2)

        为什么要用蒙特卡洛算法?先看公式4.1和4.2,如果状态转移概率已知,那么利用上面两式就可以得到最优策略。如果模型是未知的?式(4.1)不能再用,式(4.1)仍然可以用,因为该式与模型无关。

        如果想要利用整个框架,必须找到一种方法来替代公式(4.1)的策略评估。

---->利用本章蒙特卡洛方法和第5章的时间差分方法

4.1 蒙特卡洛算法原理

         当模型是未知的,即智能体在状态s时并不知道转移到下一个状态s'的概率。但是,智能体在状态s通过动作a与环境进行交互,环境会根据根据状态转移给出下一个时刻的状态,但环境并不会直接给出状态转移的概率。也就是说,在模型未知时,我们只能通过一系列的动作,得到一系列的状态序列。

其中为终止状态。

至此,我们已经拥有当前的策略,以及根据策略Π得到的一连串数据,缺少状态转移概率,而想要评估策略Π的值函数,该怎么做?

        既然不能使用式(4.1),那么回到值函数的定义式(4.3)

式4.3是期望的式子,其中\tau表示一次实验数据,即为

G(τ)为累积折扣回报,为产生轨迹\tau的概率分布,我们不知道值函数的概率分布,所以不能用积分公式来求值函数。但我们有数据就可以计算在策略Π的作用下,经过一次实验τ后状态St处的折扣累积回报G(τ)。

        蒙特卡洛的方法就是用策略Π做很多次实验,从而可以的带状态s_t处的很多个折扣累积回报,那么公式(4.3)的积分公式,就可以用代数平均来计算。即式(4.4)

        那有了式4.4和式4.2,就可以进行策略评估和策略改善了吗?

        还不行,因此公式4.2,我们只知道每个状态处的行为-值函数q(s,a),而不是状态值v_\pi(s)

        行为值函数的定义为式(4.5):

当模型P已知时,值函数可以由式(4.5)计算出来。但模型未知时,该怎么办?

        还是需要行为-值函数的原始定义,式(4.6):

        式(4.6)的计算用前面的蒙特卡洛进行估计。即式(4.7):

        对于无模型的强化学习算法,利用式4.7和式4.2就可以实现策略评估和策略改善。

        1.关于值函数和行为值函数

        值函数定义:

        行为值函数定义:

即在状态s_t,并采取了动作a之后折扣累积回报的期望。

        举一个简单的例子,利用策略Π产生了如下两组数据:

        那么状态值函数的计算公式为\nu (s_0)=\frac{1}{2}((r_1+\gamma r_2)+(r_2+\gamma r_T))

        行为值函数可以分为两个:q(s_0,a_1)=r_1+\gamma r_2\\ q(s_0,a_2)=r_3+\gamma r_T

        2.关于值函数的定义

        

4.2蒙特卡洛算法的代码实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1922135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图鸟UI框架在uni-app多端应用开发中的实践与应用

摘要: 随着移动互联网的蓬勃发展,跨平台应用开发已成为行业趋势。本文将探讨图鸟UI框架如何在uni-app开发环境下助力开发者高效构建多端应用,并通过具体案例展示其在实际项目中的应用效果。 一、引言 在移动应用开发领域,跨平台…

【错题集-编程题】栈和排序(栈 + 贪心)

牛客对于题目连接:栈和排序_牛客题霸_牛客网 (nowcoder.com) 一、分析题目 每次尽可能的先让当前需要的最大值弹出去。 二、代码 // 修改后的代码 class Solution { public:/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方…

百度文心4.0 Turbo开放,领跑国内AI大模型赛道!

百度文心4.0 Turbo开放,领跑国内AI大模型赛道! 前言 文心一言大模型 就在7月5日,在2024世界人工智能大会 (WAIC) 上,百度副总裁谢广军宣布文心大模型4.0 Turbo正式向企业客户全面开放!这一举动直接引发了业界的关注。那…

uniapp微信小程序 TypeError: $refs[ref].push is not a function

我的写法 this.$refs.addPopup.open();报错 打印出来是这样的 解决 参考未整理 原因 在当前页面使用的v-for循环 并且循环体内也有组件使用了ref(而我没有把每个ref做区别命名) 这样就导致了我有很多同名的ref,然后就报错了 解决办法&a…

上海-三轮摩托车—D证科目四 错题记录

目录 1.安全驾驶题 2.道路图标题 3.天气类情景题 4.事故处理类题 上海-三轮摩托车—D证科目一 错题记录: 1.安全驾驶题

阐述 C 语言中的浮点数精度问题?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会! 📙C 语言百万年薪修炼课程 【https://dwz.mosong.cc/cyyjc】通俗易懂,深入浅出,匠心打磨,死磕细节,6年迭代&…

tableau回归分析与时间序列分析 - 17

回归分析与时间序列分析 1. 回归分析1.1 线性回归绘制1.1.1 导入数据1.1.2 基本绘制1.1.3 趋势线显示-方法一1.1.4 趋势线显示-方法二1.1.5 趋势线显示-方法三1.1.6 添加区域注释 1.2 指数回归绘制1.2.1 创建字段1.2.2 异常区分1.2.3 创建参数1.2.4 异常区分字段修改1.2.5 显示…

MySQL学习笔记 下

MySQL学习笔记(需接上篇) 1. 通配符 用于替换字符串中的一个或多个字符;通配符常与LIKE关键字一起使用,用于搜索字段中的指定模式; 2. 别名 用于为表或表中的列提供临时名称; 别名用于为表或表中的字段…

【安卓学习】状态开关按钮

Switch 状态开关按钮&#xff08;Switch&#xff09;也是由 Button 派生出来的&#xff0c;所以在本质上它也算是一个比较高级的按钮&#xff0c;用户可以来回拖动“拇指”控制该按钮的开启与关闭或者只需轻按&#xff0c;就像选择复选框一样来开启该组件。 基本语法 <Sw…

外贸淡季如何应对?九大技巧告诉你!

许多外贸人都知道&#xff0c;7-9月是外贸的淡季&#xff0c;主要是因为西方国家很多公司会放假&#xff0c;或者轮流放。欧美人扎堆度假去了&#xff0c;欧洲城市街头的人数会减少很多。导致很多订单暂缓。所以这三个月经常被称为是外贸“淡季”。 大体上讲&#xff0c;外贸的…

警钟!电池储能安全事故频发!物联网技术如何加强储能安全排查?

在新能源时代背景下&#xff0c;储能系统作为能源转型的关键支撑技术&#xff0c;其安全问题日益凸显&#xff0c;尤其是近期海外电池项目连续发生的事故&#xff0c;为全球储能行业敲响了警钟。面对这一挑战&#xff0c;物联网技术以其强大的数据采集、智能分析与远程监控能力…

聊聊mysql

记录那些坑 本文会持续更新&#xff0c;陆续更新有关mysql技术内幕、实战优化、面试技巧。 文章目录 前言索引BTree之聚集索引BTree之辅助索引BTree之联合索引BTree之覆盖索引 使用到的工具1、py_innodb_page_info工具2、hexdump工具 总结 前言 重中之重的MySql数据库 mysql…

ARM功耗管理之睡眠锁

安全之安全(security)博客目录导读 思考&#xff1a;什么是睡眠锁&#xff1f;什么是唤醒源&#xff1f;什么是组合唤醒源&#xff1f; Kernel wakelocks的功能&#xff1a; 1&#xff09;允许driver创建wakelock以阻止睡眠、注销wakelock以允许睡眠。 2&#xff09;wake_lo…

SpringBoot新手快速入门系列教程7:基于Redis的一个简单存取数据的例子

我的教程都是亲自测试可行才发布的&#xff0c;如果有任何问题欢迎留言或者来群里我每天都会解答。 新手可能有这样的疑问&#xff0c;有了数据库的存取方式&#xff0c;我们为什么还要使用Redis这种缓存数据库读取方式呢&#xff1f; 原因主要有以下几点&#xff1a; 1. 性能…

本地部署,MODNet 背景去除大模型

目录 摘要 引言 MODNet 架构 关键组件 技术原理 本地部署 运行结果 结论 GitHub - ZHKKKe/MODNet: A Trimap-Free Portrait Matting Solution in Real Time [AAAI 2022]A Trimap-Free Portrait Matting Solution in Real Time [AAAI 2022] - ZHKKKe/MODNethttps://gith…

在Linux上导出NFS共享---网络文件系统

目录 一、NFS介绍 二、NFS 所需要的服务 三、搭建NFS服务器共享文件到客户端 在虚拟机129上配置&#xff1a; 在虚拟机135上配置 测试 四、autofs自动挂载 1、安装软件启动 2、编写 /etc/auto.master,在里面添加内容如下 3、编写 /etc/auto.nfs&#xff0c;其内容如下 …

怎么提高音频的播放速度?可以提高音频播放速度的四种方法推荐

怎么提高音频的播放速度&#xff1f;提高音频的播放速度是一种有效的策略&#xff0c;可以显著节省时间和提升信息获取的效率。随着信息量不断增加和学习需求的多样化&#xff0c;快速播放音频已成为许多人在日常生活和工作中的常见做法。这种方法不仅可以用于提高学习效率&…

基于 JSP 的网络招标系统设计与实现

点击下载源码 基于jsp的网上招标系统设计与实现 摘要 从本世纪初&#xff0c;互联网开始加速发展&#xff0c;各种创新型应用和互联网新概念不断出现&#xff0c;例如搜索引擎、电子商务、博客、维基百科、RSS、3G、web2.0、长尾理论等。这些应用和概念与知识管理都有着或多或少…

视频融合共享平台视频共享融合赋能平台数字化升级医疗体系

在当前&#xff0c;医疗健康直接关系到国计民生&#xff0c;然而&#xff0c;由于医疗水平和资源分布不均&#xff0c;以及信息系统老化等问题&#xff0c;整体医疗服务能力和水平的提升受到了限制。视频融合云平台作为数字医疗发展的关键推动力量&#xff0c;在医疗领域的广泛…

Qt:19.浮动窗口/子窗口(子窗口介绍、代码方式创建子窗口、设置子窗口标题、为子窗口添加控件、设置子窗口停靠位置)

目录 1.子窗口介绍&#xff1a; 2.代码方式创建子窗口&#xff1a; 3.设置子窗口标题&#xff1a; 4.为子窗口添加控件&#xff1a; 5.设置子窗口停靠位置。 1.子窗口介绍&#xff1a; 在 Qt 中&#xff0c;可以创建和管理子窗口&#xff08;子窗口体&#xff09;以实现多窗…