元强化学习 论文理解 MAESN

news2024/11/20 8:44:16

论文理解 MAESN

  • 主要思想
  • 具体实现
    • 元学习框架
    • 带有隐层状态的策略
    • 元学习更新
  • 小结

主要思想

这篇文章主要关注于如何加强对于新任务的探索性。

动机:
以往探索策略在很大程度上是任务无关的,因为它们旨在提供良好的探索,而不利用任务本身的特定结构。然而,与现实世界交互的智能代理可能需要学习许多任务,而不仅仅是一个任务,在这种情况下,可以使用先前的任务来通知如何执行新任务中的探索。

首先,同样的策略必须表示高度探索性的行为,并非常快速地适应最佳行为,这对于动作分布的典型时不变表示来说变得非常困难。

其次,许多当前的元RL方法旨在学习整个“学习算法”,如RNN。它们通过RNN的单次前向传递快速适应,但与从头学习相比,这大大限制了它们的渐近性能,因为与标准RL方法不同,RNN通常不对应于收敛的迭代优化过程。

方法:
我们的目标是通过设计一种元RL算法来解决这两个挑战,该算法通过遵循策略梯度来适应新任务,同时还将学习到的结构化随机性注入潜在空间,以实现有效的探索。我们的算法,我们称之为带结构噪声的模型不可知探索(MAESN),使用先验经验来初始化策略,并学习潜在的探索空间,从中可以对时间上连贯的结构化行为进行采样,从而产生随机的、由先验知识告知的、比随机噪声更有效的探索策略。重要的是,明确训练政策和潜在空间,以快速适应具有政策梯度的新任务。由于自适应是通过遵循策略梯度来执行的,我们的方法至少实现了与从头开始学习相同的渐近性能(并且通常表现得更好),而结构化随机性允许随机化但有任务意识的探索。

具体实现

元学习框架

MAESN将结构随机性与MAML相结合。MAESN是一种基于梯度的元学习算法,它不仅通过扰动动作,而且通过学习的潜在空间引入随机性。策略和潜在空间都经过元学习训练,以快速适应新任务。当在元测试时间解决新任务时,从每个试验的潜在空间中生成不同的样本,提供结构化和时间相关的随机性。然后通过策略梯度更新使潜在变量的分布适应任务。

带有隐层状态的策略

这里引入了隐层状态以加强探索。具体而言就是对于每一个任务 τ i \tau_{i} τi生成一组均值与方差( μ i , σ i \mu_{i}, \sigma_{i} μi,σi)。通过对于每一个任务的均值与方差进行采样可以得到一个隐层状态变量 z i z_{i} zi。这里 z i z_{i} zi是对于每个任务生成一次的。通过将 z i z_{i} zi加入到状态输入的方式,等价于对于每个任务加入了一个噪声以增强探索,而一个任务的隐状态噪声来自于同一组分布,这样增强了任务间的认知与探索。

隐状态示意图如下:
在这里插入图片描述
而这里要求( μ i , σ i \mu_{i}, \sigma_{i} μi,σi)是可导的,因此这里使用了VE中的方法。 z = μ + ϵ ∗ σ z = \mu + \epsilon * \sigma z=μ+ϵσ,其中 ϵ \epsilon ϵ是随机的,这样可以对于( μ i , σ i \mu_{i}, \sigma_{i} μi,σi)求梯度。

同时这里同样在TRPO损失的基础上加入了一个希望分布 N ( μ , σ ) N(\mu, \sigma) N(μ,σ)与标准高斯分布尽可能相似的KL散度损失。

其中为了计算关于µ,σ的梯度,我们需要通过采样操作z反向传播,使用似然比或重新参数化技巧。似然比更新为
在这里插入图片描述

元学习更新

因此元学习更新时对于 θ \theta θ 和( μ i , σ i \mu_{i}, \sigma_{i} μi,σi)( i ∈ T i \in \Tau iT)进行更新,更新公式如下:
在这里插入图片描述
更新的流程图如下:
在这里插入图片描述
因此元学习的伪代码为:
在这里插入图片描述

小结

总结一下这篇文章,个人认为它主要使用了MAML的框架,其贡献在于加入了一个针对于任务的隐状态作为噪声,以鼓励考虑任务类别的探索。

隐状态的实现主要通过对于每个任务初始化一个可学习的高斯分布均值方差 ( μ , σ ) (\mu, \sigma) (μ,σ),通过从 N ( μ , σ ) N(\mu, \sigma) N(μ,σ)中采样获得隐状态z。将z 与转台一起输入网络模型中或的动作。

进行更新时,损失函数加入了一个 N ( μ , σ ) N(\mu, \sigma) N(μ,σ)与标准高斯分布KL散度的损失以加强近似性。更新参数时除了更新网络参数外也需要更新 ( μ , σ ) (\mu, \sigma) (μ,σ)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/10854.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL 经验集总结(更新ing)

文章目录1. 函数使用方法1.1 时间差函数-timestampdiff()1.2 datediff()函数1.3 date_format()函数-日期格式化1.4 substring()函数-截取字符串1.4.1 两个参数1.4.2 三个参数1. 函数使用方法 1.1 时间差函数-timestampdiff() 语法: timestampdiff(unit…

一种能把前端恶意代码关在“笼子”里的技术方案

日新月异的新一代信息化技术使企业信息技术都发生了翻天覆地的变化,推动企业App迈向了“智慧化”“数字化”。 在企业应用数字化转型的推动过程中,数据集中共享、IT(信息技术)/0T(操作技术)融合、物联网终…

RDD调用机制、数据流在RDD中的流通

问题 一直很疑惑spark中数据的流向是如何的,网上的文章基本上都是在讲述RDD的基本概念,看来看去都是些RDD直接相互依赖、Spark构造DAG、RDD计算只能由行动算子触发等一些基础概念,没有解开我的疑惑,因此自己点击源码查看&#xf…

《InnoDB引擎》 Master Thread、IO Thread、Purge Thread

后台线程 后台线程的主要作用是负责刷新内存池中的数据,保证缓冲池中的内存缓存的是最近的数据。此外将已修改的数据文件刷新到磁盘文件,同时保证在数据库发生异常的情况下InnoDB能恢复到正常运行的状态。 InnoDB存储引擎是多线程的模型,因此…

用键盘传输小数据,破除解决多层远程访问或防火墙限制不能粘贴复制的问题

经常在项目上遇到这样的问题,由于vpn或者防火墙限制远程连接到服务器时不能进行粘贴复制文本。本机改好的代码还需要在远程机上在敲一遍,并且不能传输文件,每次传输东西都要找管理员给传输文件很麻烦,所以想到了这样一个又蠢又灵活…

ME60单板加载故障维护经验

ME60单板加载故障维护经验 加载是设备管理中重要的模块。它完成系统软件和逻辑软件从主控板的 CFcard下载到接口板或者交换网板的存储区域。接口板或者交换网板的存储区域有以下三种: 1 单板 CFcard存储区域 2 单板 bootrom存储区域 3 单板逻辑芯片内部存储区…

数字先锋 | 教育资源乘云而来!46万城乡学子共享名师课堂

城乡学生同上“一堂课”,是一种怎样的体验?在淄博市张店区重庆路小学的教室里,正在进行着这样一节特殊的数学课。 数学老师演示着手里的教具,将抽象的教材讲解得生动精彩,班级内的同学听得聚精会神。黑板上方的一块屏幕…

聚水潭对接金蝶云星空数据方案

01 系统说明: 聚水潭:是由上海聚水潭网络科技有限公司基于SaaS模式开发的商家ERP软件系统,公司创始团队聚集了一群来自阿里、麦包包等知名企业的技术、仓管、市场营销精英,具有近二十年传统及电商企业的ERP实践经验。秉承互联网开…

软件开发 23个设计模式收集

从基础的角度看,设计模式是研究类本身或者类与类之间的协作模式,是进行抽象归纳的一个很好的速成思路。后面阅读设计模式后,为了加深理解,对相关图片进行了描绘和微调。 从技术的角度已经有很多好的总结,本文会换一种角…

基于docker部署redis多主多从集群

在docker中部署redis多主多从集群,准备部署三对一主一从服务,共6个 首先获取镜像 这里使用的是6.0.8版本 docker pull redis:6.0.8 启动六个容器 docker run -d --name redis-node1 --net host --privilegedtrue -v /usr/local/redis/node1:/data red…

Vue实现点击按钮或者图标可编辑输入框

博主介绍 📢点击下列内容可跳转对应的界面,查看更多精彩内容! 🍎主页:水香木鱼 🍍专栏:后台管理系统 文章目录 简介:这是一篇有关【Vue - 实现点击按钮(笔图标&#xff…

VS五子棋大战

本项目里面只是浅述了一下基本实现步骤,很多细节的地方都在注释中标注了,如需完整代码请去博主码云哦。zqy (zhang-qinyang1) - Gitee.com 目录 一、用到的关键技术点 二、主要模块 1.使用mybatis操作连接数据库 1.1修改spring配置文件 1.2创建实体…

json.converter

爬虫组件分析目录概述需求:设计思路实现思路分析1.ActivityProcessor2.AssociationJsonConverter3.BaseBpmnJsonConverter4.BoundaryEventJsonConverter5.BpmnJsonConverter拓展实现参考资料和推荐阅读Survive by day and develop by night. talk for import biz , …

【出人意料】一种基于Vue2监听器(watch)和定时器(setInterval)的轨迹播放方法实现方案

1、需求 数据库中有设备的经纬度记录,前端需要实现从数据库中取到数据后在地图上显示轨迹,显示轨迹的方式就是一个一个点地有序显示。点与点之间用线段连接,最终构成一条轨迹线。 2、场景过程 前端定义一个播放暂停按钮;点击播…

【Flutter】【package】auto_size_text 文字自动适配大小

文章目录前言一、auto_size_text 是什么?二、使用1.简单的使用2.参数说明3.group4.rich text总结前言 auto_size_text :https://pub.flutter-io.cn/packages/auto_size_text 一、auto_size_text 是什么? 第三方的插件,能够自动适…

DDD的落地,需要基础设施的大力支持

1. 概览 对于复杂业务,DDD 绝对是一把神器,由于它过于复杂,很多人望而却步。因为太过严谨,形成了很多设计模式、规范化流程,这些爆炸的信息已经成为 DDD 落地的重大阻力。 但,如果我们将这些规范化的流程…

1.4_28 Axure RP 9 for mac 高保真原型图 - 案例27【中继器 - 后台管理系统5】功能-弹窗修改数据

相关链接 目录Axure中文学习网AxureShopAxureShop-QA 案例目标1. 了解使用中继器,弹窗修改数据的实现方式 一、成品效果 Axure Cloud 案例27【中继器 - 后台管理系统5】功能-弹窗修改数据 版本更新一、修改功能   1.1 点击修改按钮,标记该条数据&am…

国产软件Bigemap与国产在线地图源<星图地球数据云>推动国内新GIS应用

自星图地球数据云(GEOVIS Earth Datacloud)图源成为国产基础软件Bigemap的在线地图数据服务平台之一以来,其日均地图瓦片请求调用量目前已经超过2亿。 “星图地球数据云"是中科星图(股票代码[688568])旗下子公司——星图地球倾力打造的在线时空数据云服务平台…

基于约束的装配设计【CadQuery】

本教程介绍在CadQuery中如何使用装配约束功能来构建逼真的模型,我们将组装一个由 20x20 V 型槽型材制成的门组件。 1、定义参数 我们希望从定义模型参数开始,以便以后可以轻松更改尺寸: import cadquery as cq# Parameters H 400 W 200…

2.8 高收藏率小红书笔记怎么写?试一试这7类方法吧【玩赚小红书】

1、教程攻略类 ​ ​ ​ 打开任何一类的美妆产品,最常见的就是各类妆容教程和变美攻略。就拿教程最多的眼妆来说吧,很多女孩子都觉得眼妆很难画好。 如果是碰到网上流行的网红眼影,比如什么猫眼妆、截断式眼影、桃花眼影等等。 【 高收藏秘…