强化学习中值的迭代

news2024/11/25 22:54:20

一、价值的迭代

        策略迭代的一个缺点是,其每次迭代都涉及策略评估,这本身可能是一个漫长的迭代计算,需要多次遍历状态集。如果策略评估是迭代进行的,那么只有当趋近于vπ时才会收敛。我们是否必须等待完全收敛,还是可以在达到该点之前停止?网格世界的示例表明中断策略评估是可行的。在该示例中,超过前三个迭代步骤的策略评估对相应的贪婪策略没有影响。

        事实上,策略迭代的策略评估步骤可以在不失去策略迭代收敛保证的情况下中断。一个重要的特殊情况是在仅进行一次遍历后停止策略评估(每个状态的一次备份)。这个算法称为值迭代。它可以写成一个特别简单的操作,该操作结合了策略改进和中断策略评估步骤:

        对于所有的s∈S。对于任意v0,{vk}序列在保证v∗存在的相同条件下可以证明收敛到v∗。

        理解价值迭代另一种方式是通过参考贝尔曼最优方程。价值迭代是通过将贝尔曼最优方程转化为更新规则而获得的。另外,价值迭代备份与策略评估相同,除了需要取所有动作的最大值。另一种看到这种紧密关系的方法是比较这些算法的图。最后,考虑价值迭代如何终止。与策略评估一样,价值迭代需要正式进行无限次迭代才能精确收敛到v∗。在实践中,一旦价值函数在一个遍历中的变化量很小,我们就会停止。图1给出了具有这种终止条件的价值迭代完整算法。

图1

价值迭代有效地在其每次扫描中结合了政策评估的一次扫描和政策改进的一次扫描。通过在每次政策改进扫描之间插入多次政策评估扫描,通常可以更快地收敛。一般来说,截断策略迭代算法的整个类可以被认为是扫描序列,其中一些使用策略评估备份,另一些使用价值迭代备份。所以这仅仅意味着将最大操作添加到一些策略评估的扫描中。所有这些算法都会收敛到折扣有限MDP的最优策略。

二、典型示例

        赌徒问题。一个赌徒有机会在掷硬币的结果上进行下注。如果硬币出现正面,他赢得与他在那次掷硬币中下注的赌注相同的美元数;如果是反面,他输掉了赌注。游戏在赌徒赢得100美元的目标或输光资金后结束。在每次掷硬币时,赌徒必须决定他的资本中下注多少,以整数的美元数。这个问题可以表述为一个非贴现的、独立的、有限的MDP(马尔可夫决策过程)。

        状态是赌徒的资本,s ∈ {1, 2, . . . , 99},动作是赌注,a ∈ {0, 1, . . . , min(s, 100-s)}。奖励在所有转换上都是零,除了在赌徒达到他的目标时的奖励+1。然后状态值函数给出从每个状态获胜的概率。策略是从资本水平到赌注的映射。最优策略最大化达到目标的概率。如果ph(正面朝上的概率)是已知的,那么整个问题就是已知的,例如可以通过值迭代来解决。

        图2显示了通过连续的价值迭代扫描,值函数的变化以及找到的最优策略,对于ph = 0.4的情况。这个策略是最优的,但不是唯一的。事实上,存在一整个最优策略族,它们都对应于最优值函数的argmax动作选择上的平局。对于ph = 0.4的赌徒问题的解决方案。图2显示了通过连续的价值迭代扫描找到的值函数。下图显示了最终策略。

图2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1179336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mac电脑系统清理软件CleanMyMac X2024破解版下载

基本上,不管是win版还是Mac版的电脑,其装机必备就是一款电脑系统清理软件,就比如Mac,目前在市面上,电脑系统清理软件是非常多的。 对于不熟悉系统的用户来说,使用一些小众工具,往往很多用户都不…

如何快速部署Apache服务器并使用内网穿透实现远程连接

Apache服务安装配置与结合内网穿透实现公网访问 文章目录 Apache服务安装配置与结合内网穿透实现公网访问前言1.Apache服务安装配置1.1 进入官网下载安装包1.2 Apache服务配置 2.安装cpolar内网穿透2.1 注册cpolar账号2.2 下载cpolar客户端 3. 获取远程桌面公网地址3.1 登录cpo…

nacos配置中心docker部署、配置及 goLang 集成使用

为什么需要配置中心 平时我们写一个demo的时候,或者说一个单体的应用,都会有一个配置文件,不管是 json文件或者yaml文件,里面包含了redis,mysql,es等信息,如果我们修改了配置文件,往往我们需要重启&#x…

【面试题01】找出数组中的最长前缀

题目1:如图,finally中的输出语句会执行吗?(另外自己去考虑虚拟机退出、catch中抛异常、try中抛异常、守护线程等相关问题) 题目2:Byte"hello"报错吗?Byte7报错吗? 不会报…

服务器的操作系统,你选择哪些?

OpenCloudOS CentOS CentOS Stream Ubuntu Debian Windows Server

【c++】——类和对象(中)——默认成员函数(上)

【学习目标】 1. 类的6个默认成员函数 2. 构造函数 3. 析构函数 4. 拷贝构造函数 目录 一.类的6个默认成员函数 二. 构造函数 2.1 概念 2.2.特性 三.析构函数 3.1.概念 3.2 特性 四.拷贝构造函数 4.1.概念 4.2.特性 一.类的6个默认成员函数 如果一个类中什么成员…

解决 SSLError: HTTPSConnectionPool(host=‘huggingface.co‘, port=443)

看我的回答: https://github.com/huggingface/transformers/issues/17611#issuecomment-1794486960 能问这个问题的都是网络不太好的,你懂的,所以答案全是解决网络的。 得益于这个回答:#17611 (comment) 看了一下代码&#xf…

Apache Doris (五十三): Doris Join类型 - Shuffle Join

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录 1. shuffle Join的原理

学信息系统项目管理师第4版系统36_结语

1. 尘埃落定 10月28日首考,到11月5日结束,尘埃落定,尘归尘、土归土了。 软考机考第一次吃螃蟹,几家欢喜几家愁,高项的选择题和案例题反馈简单,原书原文的考法,不过属于犄角旮旯那种。 中级则普…

GPT-4V:AI在教育领域的应用

OpenAI于9月25日发布了最新的GPT-4V模型,为ChatGPT引入了语音和图像功能,为用户提供更多元化的使用方式。这次更新将为用户带来更便捷、直观的交互体验,用户可以直接拍照上传并针对照片内容提出问题。OpenAI的最终目标是构建安全、有益的人工…

WindowsServer2019-搭建FTP服务器

这里写自定义目录标题 一、基础配置IP地址安装FTP服务检查连通性Windows10连接FTP服务 二、了解和使用FTP具体模块及其配置1、FTP IP地址和域限制2、FTP SSL设置3、FTP当前会话4、FTP防火墙5、FTP目录浏览6、FTP请求筛选7、FTP日志8、FTP身份验证9、FTP授权规则10、FTP消息11、…

数据结构(五):哈希表及面试常考的算法

一、哈希表介绍 1、定义 哈希表,也叫散列表,是根据关键码和值 (key和value) 直接进行访问的数据结构,通过key和value来映射到集合中的一个位置,这样就可以很快找到集合中的对应元素。例如,下列键(key)为人名&#xf…

5、Python中的变量和表达式:变量的定义、赋值和数据类型转换

文章目录 Python中的变量和表达式:变量的定义、赋值和数据类型转换变量的定义变量的赋值数据类型转换注意事项表达式总结Python中的变量和表达式:变量的定义、赋值和数据类型转换 Python是一种高级编程语言,以其简洁明了的语法和强大的功能而闻名。在Python编程中,变量和表…

docker安装达梦数据库镜像并初始化实例设置数据库大小写不敏感

全文参考文章Docker - 通过容器安装部署达梦数据库教程 以及docker安装达梦V8数据库 UTF-8及大小写敏感问题 一、安装部署达梦数据库 下载完成之后使用FileZilla上传到服务器上面 启动命令 创建dm8的容器并设置大小写不敏感运行 docker run -d -p 5236:5236 \ --restartalwa…

链式前向星模板

建稠密图可以用邻接矩阵,但稀疏图再用邻接矩阵就很浪费空间了,有可能会爆空间复杂度。 可以用邻接表来实现邻接表建图,两种方法:1.链表 2.链式前向行 只讲第二种,比较常用简洁 链式前向星模板 #define IOS ios::syn…

详解vue3的ref和reactive

目录 Vue3是目前前端领域最受欢迎的JavaScript框架之一,它的核心是响应式数据系统。因此,Vue3的ref和reactive成为了Vue3的核心特性之一。通过使用这两个特性,我们能够轻松地构建出高效、可维护的Vue3应用程序。在本文中,我们将详…

CoTTA:连续的测试时域自适应方法

文章信息 论文题目为《Continual Test-Time Domain Adaptation》,该文于2022年发表于Conference on Computer Vision and Pattern Recognition (CVPR)会议上。文章提出了一种持续的测试时域自适应方法(CoTTA),旨在应对非稳态和不断…

本周三商店更新:多款套装下线,四款升级武器带异色皮肤返厂

本周三将迎来26.2版本更新与11商店大更新,版本更新可点击26.2版本更新公告进行查看,这里不一一赘述了,下面大概罗列一下商店更新,有皮肤下架,大家还能趁最后时间入手,最重要的是四款升级武器返厂咯。 危险玩…

shell脚本入门之【变量的定义】

🏅我是默,一个在CSDN分享笔记的博主。📚📚 ​​ 🌟在这里,我要推荐给大家我的专栏《shell》。🎯🎯 🚀无论你是编程小白,还是有一定基础的程序员,…

vue.js实现科室无限层选中和回显

一、效果展示&#xff1a; 展示可选层级 查看选中的值 二、实现&#xff1a; <el-form-item label"相关科室:" prop"orgId"><el-cascaderpopper-class"cascader-my":options"orgOptions":show-all-levels"false"…