强化学习中的值函数

news2024/11/17 8:54:45

一、值函数

        几乎所有的强化学习算法都涉及到估计值函数——状态(或状态-动作对)的函数,这些函数估计代理处于给定状态(或在给定状态下执行给定动作)的好坏。这里的“好坏”概念是根据可以预期的未来奖励来定义的,或者更准确地说,是根据预期回报来定义的。当然,代理未来能期望获得的奖励取决于它将采取的行动。因此,值函数是根据特定的策略来定义的。

        回顾一下,策略π是一个从每个状态s∈S和一个动作a∈(s)映射到采取动作a时处于状态s的概率π(a|s)。一般来讲,在策略π下状态s的值,记作vπ(s),是在s开始并遵循π以后的预期回报。对于MDP(马尔可夫决策过程),我们可以正式定义vπ(s)。

        其中,Eπ[·]表示在代理遵循策略π的情况下,某个随机变量的预期值,t是任意时间步。请注意,终端状态的值(如果有的话)始终为零。我们将函数vπ称为策略π的状态值函数。

        同样,我们定义了在状态下执行动作a的值的策略π,表示为qπ(s, a),作为从s开始,执行动作a,之后遵循策略π的预期回报。

我们将qπ称为策略π的动作值函数。

二、经验积累的作用

        值函数vπ和qπ可以从经验中进行估计。例如,如果代理遵循策略π并保持每个状态的实际回报的平均值,那么当遇到该状态次数足够多时,平均值将收敛于状态的值vπ(s)。如果对于每个状态采取的动作保持单独的平均值,那么这些平均值将同样收敛于动作值qπ(s, a)。我们称这种估计方法为蒙特卡罗方法,因为它们涉及对实际回报的许多随机样本进行平均。第5章将介绍这些方法。当然,如果状态非常多,那么对每个状态单独保持平均值可能不切实际。相反,代理必须将vπ和qπ作为参数化函数进行维护,并调整参数以更好地匹配观察到的回报。这也可以产生准确的估计,尽管这在很大程度上取决于参数化函数近似器的性质。强化学习和动态规划中使用的值函数的基本属性是它们满足特定的递归关系。对于任何策略π和任何状态s,以下一致性条件在s的值与其可能的后继状态的值之间成立。

        其中隐含了从集合A(s)中采取的动作a,从集合S(在离散问题的情况下,从S+)中选取的下一个状态s0,以及从集合R中获得的回报r。请注意,在最后一个方程中,我们将两个求和合并成一个,一个是对所有s0值的求和,另一个是对所有r值的求和,合并成对所有可能值的求和。我们将经常使用这种合并求和的方法来简化公式。请注意,最终表达式可以很容易地作为期望值来解读。它实际上是对三个变量a、s0和r的所有可能值的概率的加权平均值之和。对于每个三重奏,我们计算其概率π(a|s)p(s0, r|s, a),将括号内的数量乘以该概率,然后对所有可能性求和以获得期望值。方程是vπ的贝尔曼方程。它表达了一个状态与其后继状态值之间的关系。想象一下从状态s向前看,如图所示。每个空心圆表示一个状态,每个实心圆表示一个状态-动作对。从状态s开始,根节点在顶部,代理可以选择采取一些行动中的任何一个-如图所示的三个行动。对于每个行动,环境可以响应一个或多个下一个状态s0以及一个回报r。贝尔曼方程对所有可能性进行平均,将每个可能性的发生概率作为权重。它指出,起始状态的值必须等于(贴现的)预期下一个状态的值的总和,加上预期沿途获得的回报。值函数vπ是其贝尔曼方程的唯一解。

以上 是 (a) vπ 和 (b) qπ 的图表。

        这些图表通常用于展示强化学习中值函数的概念。其中,vπ 表示在给定策略 π 下,各个状态的值函数;qπ 则表示在给定策略 π 下,各个状态-动作对的值函数。

        在图表中,通常会为每个状态或状态-动作对绘制一个条形,并用该条形的高度来表示其在值函数中的值。对于 vπ,每个状态将有一个对应的条形,而对于 qπ,每个状态-动作对将有一个对应的条形。 这些图表可以帮助我们直观地理解强化学习中的值函数和策略迭代的过程。通过观察图表,我们可以清楚地看到各个状态或状态-动作对的值如何随着策略的迭代而逐渐变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1150797.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动手学深度学习 - 学习环境配置

学习环境配置 1、安装 Miniconda1.1 下载 miniconda31.2 环境变量配置1.3 安装成功测试1.4 配置文件1.5 使用conda创建、使用、删除环境1.6 conda 常用命令 2、使用 miniconda 安装 d2l2.1 下载 d2l 安装包2.2 安装 d2l 1、安装 Miniconda 参考: https://www.jb51.n…

云尘-JIS-CTF-VulnUpload

继续做渗透 一样给了c段 开扫 存在一个站点 去看看 扫一下吧 第一个flag出来了 存在robots.txt 去看看 admin 页面源代码 第二个flag和账号密码 登入 就一个上传点 这不明显死了哈哈哈哈哈哈哈 直接开喽 上传修改后缀一气呵成 发现只有success 但是我们刚刚robots存在uploa…

十五、redis的使用

目录 一、简介1.1 nosql介绍1.2 redis特性1.3 redis优势1.4 redis应用场景 二、安装2.1 Macos下安装2.2 Linux下安装2.4 客户端连接2.5 切换数据库 三、数据库操作3.1 string类型3.2 键的操作3.3 Hash类型3.4 list类型3.5 set类型3.6 zset类型 四、和python交互4.1 安装redis包…

3.2每日一题(定积分求抽水做工问题)

1、画图,把题目的容器画出来:球形容器,半径为R 2、根据容器的形状进行分析: 抽水的实质是不同深度的水抽出去走的位移是不一样的>抽水的过程 : (1)先考虑深度为 x到xdx 的薄层水抽出去做多少…

草料资料库丨2023年全国消防宣传月资料合集,免费下载

2023年11月9日是第32个全国消防日,国务院安委会办公室决定于11月份在全国开展消防宣传月活动,主题是“预防为主,生命至上”。 结合今年消防安全月相关要求,我们特邀 注册安全工程师 邵悦 为大家整理了2023年全国消防宣传月的资料…

2023-在mac下安装Homebrew的国内镜像

mac安装Homebrew的国内镜像 尝试使用其他下载源:GitHub 可能会受到访问限制,尝试使用其他镜像或下载源。您可以使用清华大学、中科大或阿里云的 Homebrew 镜像,以提高下载速度和可靠性。例如,可以使用阿里云的镜像来安装 Homebre…

myCobot 320 APP 控制技术案例

引言 机械臂是现代工业和科研领域中的重要工具,它们在制造业、医疗、农业、教育等多个领域都有广泛的应用。这些机器臂不仅可以进行精密操作,而且能够在人类无法进入的危险环境中工作,大大提高了工作效率和安全性。然而,传统的机械…

UE5 日记(人物连招:蒙太奇动画通知(含视频链接))

教程https://www.youtube.com/watch?vsWpENaVGj2M&listPLiSlOaRBfgkcPAhYpGps16PT_9f28amXi&index10&ppiAQB 相关蓝图 连招逻辑 动画通知类 逻辑分析 1.用户输入 已搭载战斗系统模块,可以收到输入指令 2.连击 第一次攻击: 第一次攻击,…

camtasia studio 2024功能介绍安装教程

Camtasia studio 2024是一款功能强大的屏幕录制和视频编辑软件。它可以帮助用户轻松地记录电脑屏幕上的任何操作,并可以将录制的视频进行编辑和制作成高质量的视频教程、演示文稿、培训课程等。 Camtasia studio 2024具有直观的界面和易于使用的工具,包…

springboot动态数据源【非伪数据源】

说明&#xff1a;本文章的数据源不是在配置文件中配置两个或多个数据源&#xff0c;在业务方面对这些数据源来回切换&#xff0c;本文章中的数据源是可以动态添加&#xff0c;修改&#xff0c;切换的&#xff0c;废话不多说。 先看工程图&#xff1a; 1.pom.xml文件 <?x…

第五章 I/O管理 三、I/O控制方式(程序直接控制、中断驱动方式、DMA方式、通道控制方式)

目录 一、程序直接控制方式 1、以读操作为例 2、CPU的干预 3、数据传送的单位 4、数据的流向 5、优点 6、缺点 二、中断驱动方式 1、定义&#xff1a; 2、CPU干预的频率 3、数据传送的单位 4、数据的流向 5、主要缺点和主要优点 优点: 缺点: 三、DMA方式&#x…

R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证

美国国家健康与营养调查&#xff08; NHANES, National Health and Nutrition Examination Survey&#xff09;是一项基于人群的横断面调查&#xff0c;旨在收集有关美国家庭人口健康和营养的信息。 地址为&#xff1a;https://wwwn.cdc.gov/nchs/nhanes/Default.aspx 既往咱们…

世界前沿技术发展报告2023《世界航空技术发展报告》(六)航空动力技术

&#xff08;六&#xff09;航空动力技术 1.军用航空动力技术1.1 美国空军授出下一代自适应推进项目合同1.2 法国完成下一代战斗机发动机原型机地面测试1.3 美国通用电气公司为美国陆军测试首台T901涡轴发动机1.4 美国液体活塞公司研制高功重比重油发动机 2.民用航空动力技术2.…

这样刻《少年强则国强》也行……

孙溟㠭篆刻《少年强则国强 》 这是篆书&#xff0c;隶书&#xff0c;简化字刻法有点意思。 孙溟㠭篆刻《少年强则国强》

信息系统项目管理师教程 第四版【第7章-项目立项管理-思维导图】

信息系统项目管理师教程 第四版【第7章-项目立项管理-思维导图】 课本里章节里所有蓝色字体的思维导图

一文告诉你样机是什么,分享几个常用的样机模板

一个项目的诞生通常需要经历头脑构思、绘制设计和最终着陆。在这个过程中&#xff0c;样机制作往往是在着陆实践之前进行的。俗话说&#xff1a;“样机使用得好&#xff0c;草稿过早”。样机设计是产品或网站最终设计的生动、静态和视觉表现。它为用户提供了一种模拟现实的方式…

大语言模型有什么魅力?和生成式AI是一回事吗?亚马逊云科技可以告诉你

大语言模型和生成式AI有什么关系呢&#xff1f;大语言模型为什么这么火&#xff1f;一提到大语言模型&#xff0c;想必大家第一个想到的就是ChatGPT这样的自然语言处理工具&#xff0c;那么大语言模型是什么&#xff1f;大语言模型和生成式AI是什么关系&#xff1f;就让我以亚马…

HackerOne 已向白帽支付了超 3 亿美元漏洞赏金

知名网络安全公司HackerOne近日宣布&#xff0c;自2012年成立以来&#xff0c;其漏洞赏金计划已向白帽和漏洞研究人员发放了超 3 亿美元的奖励。 HackerOne提供了一个漏洞赏金平台&#xff0c;将企业与白帽的安全专业知识、资产发现、持续评估和流程增强相结合&#xff0c;以发…

OSEK-任务调度机制

如下图所示&#xff0c;在调度表中有很多 Expiry Points&#xff0c;下面是一个20ms的调度表。有每2.5ms触发一次2.5ms的TASK&#xff0c;以及等等其他按照时间的TASK触发&#xff1b;并且根据配置也可以看出&#xff0c;所有的任务都是基于全抢占模式触发的&#xff0c;也就是…

如何完全卸载HbuilderX(全网最详细)

前序 今天本来想发行打包安卓端,结果发现突然就不行了(前天还行)报错 排查 然后我找了各种原因,排查了很久才发现是HbuilderX编辑器的问题,机智如我所以我们需要重新去下载一个HbuilderX,但是问题来了,很多人不知道怎么卸载,我自己网上也百度了很久没有正确简单的方法,直…