Multigrid reinforcement learning with reward shaping

news2025/1/16 16:56:05

摘要

基于势能的奖励塑形已被证明是提高强化学习agent收敛速度的有效方法。 这是一种以原则性方式将背景知识纳入时间差分学习的灵活技术。然而,问题仍然是如何计算用于塑形给予学习agent的奖励的势能。在本文中,我们提出了一种通过状态空间离散化来解决强化学习中这个问题的方法。特别是,我们表明可以在实际强化学习过程中并行在线学习势能函数。 如果为由给定网格确定的状态学习 Q Q Q 函数,则可以并行学习具有较低分辨率(lower resolution)状态的 V V V 函数,并用于近似地面学习的势能。 提出了新算法并进行了实验评估。

1. Introduction

------强化学习 (RL) 是一种流行的方法,用于设计从与环境的交互中学习的自主agent。与监督学习相比,RL 方法不依赖于指导性反馈,即,agent不知道在给定情况下的最佳行动是什么。相反,agent人受即时数字奖励的指导,该奖励定义了解决任务的最佳行为。这导致了两类问题:1) 时间信用分配问题,即确定动作的哪一部分值得奖励的问题;2) 收敛速度较慢:传统的 RL 算法采用延迟方法以折扣方式传播最终目标奖励或为非目标状态分配成本。然而,奖励在状态空间上的反向传播非常耗时。

------为了加快学习过程并解决时间信用分配问题,该领域已经考虑了塑形奖励的概念[1,2]。 奖励塑形的想法是给agent额外的(数字)反馈,以提高其收敛速度。

------尽管奖励塑形在许多实验中都很强大,但很快发现,如果使用不当,它也可能会产生误导 [2]。为了解决此类问题,提出了基于势能的奖励塑形 F ( s , s ′ ) F(s,s') F(s,s) [1],作为在源和目标状态 s ′ s' s 上定义的一些势能函数 Φ Φ Φ 的差异:
在这里插入图片描述
------其中 γ 是贴现因子。Ng等人[1]证明,以这种方式定义的奖励塑形对于学习一种与没有奖励塑形的学习策略等效的策略是必要的,也是足够的。

------奖励塑形的一个问题是,通常无法获得关于状态势能的详细知识,或者很难以塑形奖励的形式直接表示。

------在本文中,我们提出了一种在线学习塑形奖励的方法,并用它来增强基本的强化学习。 该算法在没有任何先验知识的情况下开始,同时学习策略和塑形奖励。在每一步,塑形奖励的当前近似值用于指导目标 RL 的学习过程。该算法在两个状态空间上运行第一个是学习地面(ground) RL 的价值函数。第二个是通过聚合(aggregating)来自地面的状态而获得的。该状态空间具有更高的概括性,用于近似塑形奖励的势能。我们研究了使用网格离散化来形成离散状态空间的情况。具有不同分辨率的两种类型的离散化自然允许形成两个状态空间:基态及其聚合(ground states and their aggregation)。

------将我们的方法与自动塑形 [3] 联系起来时,本文的贡献有两个方面:1)我们的算法通过高级强化学习在线学习奖励塑形; 2) 当可以应用状态聚合来形成抽象状态空间时,我们介绍了这种方法在 RL 中的应用。 特别是,我们研究了将连续状态空间离散化以形成可以轻松获得状态聚合的离散网格的情况。 论文的最后部分收集了相关研究的综述。

------我们的方法的主要优点是收敛速度更好此外,开销计算成本低,解决方案具有普遍适用性,知识易于获取和整合。具体来说,获得地面 RL 的离散状态所必需的知识足以应用我们的扩展。

2. Markov Decision Processes and Reinforcement Learning

------马尔可夫决策过程(MDP)是一个元组 < S , A , T , R > <S,A,T,R> <SATR>,其中 S S S是状态空间, A A A是动作空间, T ( s , a , s ′ ) T(s,a,s') T(s,a,s)是动作a在状态s中执行时将导致状态s’的概率, R ( s , a , s ′ ) R(s,a,s') R(s,a,s)是在状态s的动作a导致向状态s’过渡时收到的即时奖励。解决 MDP 的问题是找到一个最大化累积奖励的策略(即从状态到动作的映射)。当环境动态(转换概率和奖励函数可用)时,该任务成为一个规划问题,可以使用策略和价值迭代等迭代方法来解决[4]。

------MDP 代表 RL agent的建模框架,其目标是在环境动态不可用时学习最佳策略。因此,不能使用值迭代。然而,迭代方法本身的概念是大多数 RL 算法的支柱。这些算法应用所谓的时间差分更新来传播有关状态值 V ( s ) V(s) V(s) 或状态-动作对 Q ( s , a ) Q(s,a) Q(s,a) 的信息。这些更新基于对特定状态或状态动作值的两个时间上不同估计的差异。无模型 SARSA 就是这样一种方法[4]。它通过公式更新状态-动作值
在这里插入图片描述
------它修改了在状态 s s s 中采取动作 a a a 的值,当执行此动作后环境返回奖励 r r r,移动到新状态 s ′ s' s,并在状态 s ′ s' s 中选择动作 a ′ a' a

------式(2)给出的更新规则中的即时奖励r表示来自环境的反馈。奖励塑形的想法是提供额外的奖励,这将提高agent的绩效。这个概念可以用 SARSA 算法的以下公式表示:
在这里插入图片描述
------其中 F ( s , a , s ′ ) F(s,a,s') F(s,a,s)是塑形奖励的一般形式,在我们的分析中是函数 F : S × S → R F:S×S→\mathbb{R} F:S×SR。本文的主要重点是如何在特定情况下在线近似此值,当它被定义为连续状态 s s s s ′ s' s 的势能差时。(见等式1。这就归结为如何学习势能 Ф ( s ) Ф(s) Ф(s)的问题。值得注意的是,理想的势能等于价值函数,即 Ф ( s ) = V ( s ) Ф(s)=V(s) Ф(s)=V(s),这有助于证明为什么粗略近似价值函数是一种有前途的奖励塑形方法

3. State Aggregation

在这里插入图片描述
------状态聚合( State Aggregation)代表了解决顺序决策中出现的状态空间爆炸的一种选择,特别是当环境的数学模型需要具有马尔可夫属性时 [5]。它基于将原始 MDP 的状态聚合到集群中,并将这些集群视为新 MDP 的状态。这样的 MDP 可以更容易地解决,因为它的状态空间可以显着减少。真实 MDP 的状态根据给定的相似性概念进行分组,并且在理想情况下,一个集群内的状态在策略方面应该是不可区分的(例如,处于相同抽象状态的所有状态都具有相同的最佳动作)。当聚合中的状态在这个意义上是可区分的时,这种聚合是近似的。事实上,属于一个集群的状态在多大程度上不同,决定了近似表示的质量。需要考虑求解 MDP 的高质量近似和易处理性之间的权衡。在本文中,我们提出了一种RL架构,其中原始RL问题可以以期望的精度表示(即,算法可以达到最优解,而高级近似(即使质量很低)可以提高地面学习的收敛性。

------在本文中,我们研究了当连续状态空间被离散化以形成离散状态空间时的特殊情况,其值函数可以以表格形式表示。通过应用更大间隔的离散化,可以很容易地获得用于高级学习的状态聚合(见图 1)。低级离散状态用于学习原始问题的实际解决方案,并且通过粗略近似学习抽象状态提供了有用的指导

4. Learning Potential for Reward Shaping

------我们提出了一种具有两种不同状态空间离散化的 RL 架构。第一个是在地面 RL 级别学习 Q Q Q 函数的近似值。第二个具有较低分辨率的是表示一个抽象的 V V V 函数,该函数用作计算地面的塑形奖励(见等式 1)的势能。此处提出的算法基于该领域现有的两种技术:1) 与 MDP [6] 一起使用的多重网格离散化,以及 2) 最近提出的自动塑形 [3]。

------MDP 设置中的多重网格离散化 [6] 用于以粗到细的方式求解 MDP。虽然这种技术非常适合动态规划方法,(可以解决一个粗略的问题并将其用作更精细网格上解决方案的起点),但在应用于 RL 算法时并没有简单的方法来合并具有不同分辨率的层。第一次这样的尝试是在 [7] 中进行的,这个问题在那里很明显。在他们的解决方案中,需要了解状态空间的拓扑结构以定义多个级别是如何相关的,但这一事实使得这种方法对于 RL 任务不可行。 它使用多重网格作为获取知识的一种方式,但缺少在地面 RL 级别使用这些知识的机制。 我们提出基于势能的奖励塑形作为这些问题的解决方案。需要修改地面 RL 算法,并且可以通过额外的塑形奖励以透明的方式提供知识。

------在自动塑形方法 [3] 中,制定并求解了一个抽象的 MDP。在学习的初始阶段,建立抽象 MDP 模型,在定义的 episode 之后,精确求解抽象 MDP,并将其值函数用作基态的势能。在本文中,我们提出了一种算法,该算法在连续状态空间离散化以表格形式表示时应用多重网格策略。我们没有将抽象任务定义为解决抽象 MDP 的动态规划,而是使用 RL 在线解决高级任务。因为这种抽象的 RL 不需要学习模型,所以可以从学习开始就提供塑形奖励。此外,多重网格离散化会在基础层和抽象层之间产生自然转换。我们的方法不需要比在地面定义离散化所需的更多的环境知识。我们不需要将抽象转换为基态或近似环境动力学(抽象级别的转换概率)的方法。

------算法 1 总结了我们的方法。 它遵循 4 中的 SARSA 结构。在我们的案例中,底层学习与基线学习相同。修改是在算法 1 的第 16 行中为基本 SARSA 提供塑形奖励 F ( s , s ′ ) F(s,s') F(s,s) 的点,其中计算了基态的时间差异。 F ( s , s ′ ) F(s,s') F(s,s) 的计算方式定义了我们的扩展。

------塑形奖励 F ( s , s ′ ) F(s,s') F(s,s) 在第 13 行计算为agent访问的当前和先前状态的价值函数的差异。因此 Ф ( s ) = V ( z ) Ф(s)=V(z) Ф(s)=V(z),其中 V ( z ) V(z) V(z) 是抽象级别的值函数,状态 s s s 由给定状态 z z z 聚合。使用时间差分更新(第 9 行)学习值 V ( z ) V(z) V(z)。所有与该任务相关的参数在算法中都有下标 v v v。从状态 s s s到相应状态 z z z 的映射以直接的方式完成,无需任何特殊知识。基本上,抽象状态 z z z聚合基态 s s s和包容可以很容易地确定。然而,通过可选的、关于问题的额外知识,这样的映射可以删除抽象表示中的一些状态变量,并适当地关注高级学习。

------高级 RL 被视为半 MDP [8],因为由于更高的泛化,agent可以在一个高级位置中执行多个时间步骤。因此,当计算第 9 行中的时间差时使用时间 t t t

------通用函数 r e w a r d v ( r ) reward_v(r) rewardv(r) 表明高级学习可以获得内部修改的奖励。在定义此功能时可能要考虑的事实是,塑形奖励不应掩盖环境的奖励提供者,因为它可能会导致次优解决方案,例如,该势能基于不可接纳的启发式。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/24014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业设计java+ssm的高校科研仪器共享平台-计算机毕业设计

项目介绍 高校科研仪器共享平台&#xff0c;是一个学校内部提供信息管理的平台&#xff0c;是完全的&#xff0c;高速的&#xff0c;开放的&#xff0c;其核心思想是提供一个以自然语言为主的用户界面&#xff0c;让用户能够更好的刚加方便快捷的管理科研仪器信息的一个渠道和…

解决雪花算法生成的ID传输前端后精度丢失

本章目录&#xff1a; 问题描述解决方案 修改数据库字段配置MVC全局消息转换器修改Result类一、问题描述 在用雪花算法生成的ID传输到前端时&#xff0c;会出现后三位精度丢失 可以看到&#xff0c;我们得到的response为1594605819398193154 而前端展示的为159460581939819…

3 Minute Thesis (3MT)

1 定义 资料来源&#xff1a;https://zhuanlan.zhihu.com/p/63325983?utm_id0 3MT原则&#xff1a;要把博士课题介绍给一个受过高等教育但没有专业背景的人并阐述它的重要性。 定义&#xff1a;三分钟论文(3MT)是一个学术比赛&#xff0c;帮助当前的研究生培养有效的演讲和沟…

[附源码]计算机毕业设计JAVA基于web的电子产品网络购物平台

[附源码]计算机毕业设计JAVA基于web的电子产品网络购物平台 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a;…

MyBatis搭建

目录 1.我的开发环境 2.创建maven工程 (1)打包方式 : jar (2)引入依赖 3.创建MyBatis的核心配置文件 4.创建mapper接口 5.创建MyBatis的映射文件 1.映射文件的命名规则: 2.MyBatis中可以面向接口操作数据 , 要保证两个一致 : 映射文件官方示例: 6.执行配置文件中的SQL…

HC-05蓝牙模块--------手机与STM32通信(代码编写)(上位机配置)保姆级教程

⏩ 大家好哇&#xff01;我是小光&#xff0c;嵌入式爱好者&#xff0c;一个想要成为系统架构师的大三学生。 ⏩因为之前无论是电赛还是做项目&#xff0c;都用到了蓝牙模块&#xff0c;如&#xff1a;手机和stm32的通信&#xff0c;电赛中的双车通信&#xff0c;还是遥感小车的…

19 01-通过状态掩码读取DTC数目

诊断协议那些事儿 诊断协议那些事儿专栏系列文章&#xff0c;本文介绍存储数据传输服务下的19服务ReadDTClnformation的第一个子功能&#xff08;01h&#xff09;&#xff0c;通过状态掩码读取DTC数目。 关联文章&#xff1a; 19服务List $19服务:DTCStatusMask和statusofDT…

肠道菌群化合物库——科研领域的研究靶点

近年来&#xff0c;肠道菌群已经成为科研领域的研究热点&#xff0c;涉及领域之广泛&#xff0c;最近几年的研究主要集中在肠道菌群与多种疾病发生和发展的联系。近年来&#xff0c;肠道菌群时常登上各大国际学术周刊&#xff0c;实火&#xff01; “闻声而来”的肠道菌群肠道…

【异构知识蒸馏:IVIF】

Heterogeneous Knowledge Distillation for Simultaneous Infrared-Visible Image Fusion and Super-Resolution &#xff08;同时进行红外-可见光图像融合和超分辨率的异构知识蒸馏&#xff09; 近年来&#xff0c;红外-可见光图像融合引起了越来越多的关注&#xff0c;并且…

数据采集网关如何打破数据孤岛,实现工业物联网

企业数字化发展到一定水平&#xff0c;就可能出现不平衡&#xff0c;催生出“数据孤岛”的现象。 企业内部存在多个设备多个系统&#xff0c;都有各自的数据&#xff0c;分门别类进行存储&#xff0c;这些部分之间累又建立有效的数据交换渠道&#xff0c;协议标准业不一致&…

实战讲解网关接口统一认证SpringCloudGateway(图+文)

1 缘起 继gateway限流篇&#xff1a;https://blog.csdn.net/Xin_101/article/details/127890605 之后&#xff0c;继续补充网关统一鉴权的相关应用&#xff0c; 网关作为所有流量入口&#xff0c;承接所有请求&#xff0c;因此&#xff0c;可以在网关层统一做鉴权&#xff0c;…

MIT6.830-2022-lab1实验思路详细讲解

文章目录前言一、6.830/Lab1 Start二、Exercise2.1、Exercise1&#xff1a;Fields and Tuples2.2、Exercise2&#xff1a;Catalog2.3、Exercise3&#xff1a;BufferPool2.4、Exercise4&#xff1a;HeapFile access method2.5、Exercise5&#xff1a;HeapFile2.6、Exercise6&…

DJ12-2-2 算术运算指令

目录 1. 加法指令 &#xff08;1&#xff09;ADD 指令 &#xff08;2&#xff09;ADC 指令 &#xff08;3&#xff09;INC 指令 2. 减法指令 &#xff08;1&#xff09;SUB 指令 &#xff08;2&#xff09;SBB 指令 &#xff08;3&#xff09;DEC 指令 &#xff08;4&…

Alluxio 2.9新版发布 | 重塑架构,支持大规模多租户环境

/ Alluxio宣布正式发布数据编排平台2.9版本 / Alluxio 2.9 版本的主要新增功能包括&#xff1a; 新增跨环境集群同步功能、增强Alluxio在Kubernetes上的可管理性、提高S3 API 安全性和用户体验 2022年11月17日&#xff0c;全球首创的开源数据编排软件开发商Alluxio宣布正式发…

1.2 分布

测度理论 (Durrett) 第五版 个人笔记 答案 Durrett高等概率论教材 (Probability) 攻读概率及统计/机器学习应用方向博士学位. Measure TheoryProbability SpacesDistributionsRandom VariablesIntegrationProperties of the IntegralExpected ValueProduct Measures, Fubini’…

[计算机毕业设计]机器视觉指纹识别图像识别

前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过…

2022Q3运动户外行业数据分析(高增长概念解读)

本篇我们将继续来分析22年Q3季度中&#xff0c;运动户外行业的高增长概念。 在运动户外行业中&#xff0c;我们发现了3个高增长品类&#xff0c;分别是&#xff1a;泳镜、运动休闲鞋、运动包。 一、游泳用品高增长概念——泳镜 在功能上区分&#xff0c;泳镜可以分为竞速泳镜、…

十秒钟搞懂linux的软硬链接细节图解和目录结构文件的基本命令

秒懂linux链接图解一&#xff0c;软硬链接的分析1&#xff0c;软链接的图解&#xff1a;2&#xff0c;硬链接的图解3&#xff0c;软硬链接的区别4,目录创建软链接的语法格式二&#xff0c;linxu的根目录结构示意图和各部分的功能&#xff0c;可以根据单词部分记忆&#xff08;部…

SDN环境搭建(超详细)

文章目录前言一. 安装VMware workstation二、Ubuntn安装三、Mininet安装四、RYU安装五、WireShark安装六、在Mininet中启动可视化界面常见问题总结写在后面前言 最近在做SDN这方面的实验&#xff0c;在这里记录一下自己的学习过程和踩过的坑。 具体环境&#xff1a; VMware-wo…

RepGhost

轻量级的CNN模块重参数化技术构建硬件高效的 Ghost 模块,通过结构重新参数化技术开发一种硬件高效的 RepGhost 模块&#xff0c;以实现特征的隐式重用。RepGhostNet 把 Concat 操作去掉&#xff0c;同时修改现有结构以满足重参数化的规则。最终得到的 RepGhostNet 是一个高效的…