《强化学习周刊》第69期:ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

news2024/7/4 5:13:56

No.69

智源社区

强化学习组

 习

342326fc7337d60cc6619baeb621c13d.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

a9a0ada23005a21b38410bb4b6fa5e49.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

8252e8ce248a0c26f97c26588800cfcb.jpeg

35f8e659b04e1a62674534b0de20eb22.jpeg

113cccba278e7f43da46cb11209e3664.jpeg

c8ff97365a7e213013499c74aa6f26fb.jpeg

9db0c871866c2f4873d7ff7bdbdf04b3.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第69期《强化学习周刊》以飨诸位。

本周论文推荐板块为读者梳理了ICLR 2023的另外10篇强化学习相关研究论文,其中涉及到扩散策略作为离线强化学习的表达策略类、无熵的最大熵RL、通过 ResAct 加强在顺序推荐中的长期参与、强化学习的谱分解表示等;科研资讯为读者分享来自麻省理工的实现自动调整内在奖励的强化学习,麻省理工学院研究团队提出了一种有原则的约束策略优化程序,可以自动调整内在奖励的重要性:它在不需要探索时抑制内在奖励,并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

be5d2a960459746e41a0db10fc869244.jpeg

4b347bba1ad15092246deb25345c47dd.jpeg

c804eae5f2677df6c944a537a4d06858.jpeg

547d69ba21a7bb02a3cffb9633d9e4d4.jpeg

19f64d04f67fcf52b60e13f9822b2f27.jpeg

论文推荐

第十一届学习表征国际会议(ICLR2023)于2023年5月1日星期一至5日星期五在卢旺达的首都基加利举行。

标题:Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning(德克萨斯大学奥斯汀分校: Zhendong Wang|扩散策略作为离线强化学习的表达策略类)了解详情

简介:离线强化学习 (RL) 旨在使用先前收集的静态数据集学习最佳策略,是 RL 的重要范例。由于分布外动作的函数逼近误差,标准 RL 方法通常在此任务上表现不佳。虽然已经提出了多种正则化方法来缓解这个问题,但它们通常受到表达能力有限的策略类的限制,有时会导致基本上不是最优的解决方案。本文提出了 扩散-QL,它利用条件扩散模型作为行为克隆和策略正则化的高度表达策略类。本文学习了一个动作值函数,并在条件扩散模型的训练损失中添加了一个最大化动作值的项,这会导致寻求接近行为策略的最优动作的损失。本文展示了基于扩散模型策略的表现力以及扩散模型下行为克隆和策略改进的耦合都有助于 扩散-QL 的出色性能。文中在一个带有多模态行为策略的简单 2D bandit 示例中说明了此文方法和先前的工作。

论文链接:https://arxiv.org/pdf/2208.06193.pdf

标题:Extreme Q-Learning: MaxEnt RL without Entropy(极限Q-Learning:无熵的最大熵RL)了解详情

简介:现代深度强化学习(RL)算法需要对最大 Q 值进行估计,这在具有无限可能行为的连续域中是很难计算的。本文引入了一个新的更新规则的在线和离线,直接模型的最大值使用极值理论(EVT)的启发经济学。通过这样做,可避免使用分布外操作来计算 Q 值,这通常是一个实质性的误差来源。本文的主要见解是引入一个目标,直接估计最大熵(MaxEnt) RL 设置下的最优软值函数(LogSumExp) ,而不需要从策略中抽样。使用 EVT,得到 极限Q-Learning框架,并因此在线和第一次离线 最大熵 Q-Learning 算法,这些算法不明确要求访问策略或其熵。最后,本文的方法获得了很好的结果。

论文链接:https://openreview.net/pdf?id=SJ0Lde3tRL

标题:ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor(南洋理工大学&快手科技: Wanqi Xue|ResAct:通过 ResAct 加强在顺序推荐中的长期参与)了解详情

简介:强化学习(RL)被广泛认为是优化长期参与顺序推荐的有前途的框架。然而,由于昂贵的在线交互,RL 算法在优化长期参与时很难执行状态-动作值估计、探索和特征提取。本文提出了 ResAct,它寻求一种接近但优于在线服务的策略。能够在学习到的策略附近收集足够的数据,从而可以正确估计状态-动作值,而无需进行在线探索。由于策略空间巨大,很难直接优化该策略。相反,ResAct 通过首先重建在线行为然后改进它来解决它。本文的主要贡献有四方面。首先,本文设计了一个生成模型,该模型通过对多个动作估计器进行采样来重建在线服务策略的行为。其次,本文设计了一种有效的学习范式来训练可以输出残差以改进动作的残差参与者。第三,本文使用两个信息理论正则化器促进特征的提取,以确认特征的表达性和简洁性。第四,广泛的实验证明本文的方法在各种长期参与优化任务中显著优于最先进的基线。

论文链接:https://arxiv.org/pdf/2206.02620.pdf

标题:The Role of Coverage in Online Reinforcement Learning(Tengyang Xie|覆盖在在线强化学习中的作用)了解详情

简介:覆盖条件——断言数据记录分布充分覆盖状态空间——在确定离线强化学习的样本复杂性方面发挥着重要作用。虽然这些条件乍一看似乎与在线强化学习无关,但本文通过展示建立了新的联系,即仅存在具有良好覆盖率的数据分布就可以实现样本高效的在线 RL。具体来说,文中展示了可覆盖性——即满足称为集中性的普遍覆盖条件的数据分布的存在——可以被视为底层 MDP 的结构属性,并且可以被标准算法用于样本有效探索,即使智能体不知道所述分布。本文通过证明几个较弱的覆盖概念来补充这一结果,尽管对于离线 RL 来说已经足够了,但对于在线 RL 来说是不够的。文中还表明,在线 RL 的现有复杂性度量未能最佳地捕捉可覆盖性,并提出了一种新的复杂性度量,即顺序外推系数,以提供统一的度量方法。

论文链接:https://arxiv.org/pdf/2210.04157.pdf

标题:Benchmarking Offline Reinforcement Learning on Real-Robot Hardware(在真实机器人硬件上进行离线强化学习的基准测试)了解详情

简介:从之前记录的数据中学习策略是现实世界机器人任务的一个有希望的方向,因为在线学习往往是不可行的。尤其是灵巧的操纵,在一般情况下仍然是一个开放的问题。然而,离线强化学习与大型多样化数据集的结合,有可能导致在这个具有挑战性的领域取得突破,就像近年来在监督学习中取得的快速进展一样。为了协调研究界解决这个问题的努力,本文提出了一个基准,包括:i)从一个灵巧的操纵平台上获得的关于两个任务的离线学习的大量数据,这些数据是通过在模拟中训练的有能力的RL智能体获得的;ii)在一个真实世界的机器人系统和模拟中执行学习的策略的选项,以便进行有效的调试。本文在数据集上评估了著名的开源离线强化学习算法,并为真实系统上的离线强化学习提供了可重复的实验设置。

论文链接:https://openreview.net/pdf?id=3k5CUGDLNdd

标题:Outcome-directed Reinforcement Learning by Uncertainty & Temporal Distance-Aware Curriculum Goal Generation(通过不确定性和时间距离意识到的课程目标生成进行结果导向的强化学习)了解详情

简介:目前的强化学习(RL)在解决一个具有挑战性的探索问题时经常受到影响,因为在这个问题上很少能看到期望的结果或高回报。即使课程RL,一个通过提出一系列代用任务来解决复杂任务的框架,显示出合理的结果,但由于缺乏一种机制,在没有任何先验领域知识的情况下获得对期望结果状态的校准指导,大多数以前的工作在提出课程方面仍然存在困难。为了缓解这一问题,本文提出了一种不确定性和时间距离感知的课程目标生成方法,该方法通过解决一个双点匹配问题来实现结果导向 RL。它不仅可以为课程提供精准的指导,使其达到预期的结果状态,而且与以前的课程RL方法相比,它还带来了更好的采样效率和几何诊断的课程目标建议能力。本文证明此算法在各种具有挑战性的导航任务和机器人操作任务中以定量和定性的方式明显优于这些先前的方法。

论文链接:https://openreview.net/pdf?id=v69itrHLEu

标题:Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization(强化学习是否适用于自然语言处理?:自然语言策略优化的基准、基线和构建块)了解详情

简介:本文解决了将预先训练的大型语言模型(LMs)与人类偏好相匹配的问题。如果将文本生成视为一个顺序决策问题,强化学习(RL)似乎是一个自然的概念框架。然而,将RL用于基于LM的生成面临着经验挑战,包括由于组合动作空间而导致的训练不稳定性,以及缺少为LM对齐定制的开源库和基准。因此,研究界提出了一个问题:RL是否是NLP的一个实用范式?为了帮助回答这个问题,作者首先引入了一个开源模块库RL4LMs(语言模型强化学习),用于使用RL优化语言生成器。接下来,作者提出了GRUE(通用强化语言理解评估)基准,这是一组6个语言生成任务,它们不受目标字符串的监督,而是由捕获人类偏好的自动度量的奖励函数来监督。最后,作者介绍了一种RL算法NLPO(自然语言策略优化),该算法学习如何有效地减少语言生成中的组合动作空间。

论文链接:https://openreview.net/pdf?id=8aHzds2uUyB

标题:Spectral Decomposition Representation for Reinforcement Learning(谷歌研究院: Tongzheng Ren|强化学习的谱分解表示)了解详情

简介:表示学习通常通过管理维数灾难在强化学习中发挥关键作用。一类具有代表性的算法利用随机过渡动力学的谱分解来构建在理想化环境中具有强大理论特性的表示。然而,当前的谱方法的适用性有限,因为它们是为仅状态聚合而构建的,并且是从依赖于策略的转换内核中派生出来的,而没有考虑探索问题。为了解决这些问题,本文提出了一种替代的光谱方法,即光谱分解表示 (SPEDER),它从动态中提取状态-动作抽象,而不会引起对数据收集策略的虚假依赖,同时还平衡了学习过程中的探索与利用权衡。理论分析确定了所提出算法在在线和离线设置下的采样效率。此外,一项实验研究表明,在多个基准测试中,性能优于当前最先进的算法。

论文链接:https://arxiv.org/pdf/2208.09515.pdf

标题:Certifiably Robust Policy Learning against Adversarial Communication in Multi-agent Systems(马里兰大学: Yanchao Sun|多智能体系统中对抗性通信的可证明鲁棒策略学习)了解详情

简介:在多智能体强化学习(MARL)问题中,通信对于智能体共享信息和做出正确决策至关重要。然而,基于通信的策略的安全性成为一个尚未充分研究的严重问题。具体来说,如果通信消息被恶意攻击者操纵,依赖不可信通信的智能体可能会采取不安全的行为,从而导致灾难性后果。因此,确保智能体不会被错误的通信误导,同时仍能从良性通信中受益至关重要。本文考虑了一个具有N个智能体的环境,其中攻击者可以任意更改从任何 C<(N-1)/2 个智能体到受害者智能体的通信。对于这种强威胁模型,作者通过构建聚合多个随机消融的消息集的消息集成策略来提出可验证的防御。理论分析表明,无论攻击算法如何,这种消息集成策略都可以利用良性通信,同时对对抗性通信具有可证明的鲁棒性。在多个环境中进行的实验证实,本文的防御显着提高了经过训练的策略针对各种类型攻击的稳健性。

论文链接:https://arxiv.org/pdf/2206.10158.pdf

标题:Pink Noise Is All You Need: Colored Noise Exploration in Deep Reinforcement Learning(粉红噪声就是你所需要的:深度强化学习中的有色噪声探索)了解详情

简介:在具有连续动作空间的非策略深度强化学习中,探索通常是通过在动作选择过程中注入动作噪声来实现的。基于随机策略的流行算法(例如 SAC 或 MPO)通过从不相关的高斯分布中采样动作来注入白噪声。然而,在许多任务中,白噪声不能提供足够的探索,而是使用时间相关的噪声。一个常见的选择是 Ornstein-Uhlenbeck (OU) 噪声,它与布朗运动(红噪声)密切相关。红噪声和白噪声都属于广义的有色噪声家族。在这项工作中,作者对 MPO 和 SAC 进行了全面的实验评估,以探索其他颜色噪声作为动作噪声的有效性。作者发现介于白噪声和红噪声之间的粉红噪声在广泛的环境中明显优于白噪声、OU 噪声和其他替代方案。因此,本文建议将其作为连续控制中动作噪声的默认选择。

论文链接:https://openreview.net/pdf?id=hQ9V5QN27eS

d0ce14ffb8c146c9988ed6a088fc598a.jpeg

6636e77eee93968b9dfebdd23c516c9e.jpeg

825d8ee2db3fb1be18f60f041efb7d09.jpeg

815630dbbac7df6734e14e3d9ffcbbeb.jpeg

6d1f2f35015e262f317498626b5d70f4.jpeg

科研资讯

标题:麻省理工实现自动调整内在奖励的强化学习了解详情

简介:最先进的强化学习 (RL) 算法通常使用随机抽样进行探索,但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。为了应对探索的挑战,先前的工作通过探索奖励来激励智能体访问新状态。与仅使用任务奖励训练的智能体相比,此类方法可以在艰苦的探索任务上产生出色的结果,但可能会受到内在奖励偏差的影响并且表现不佳。当智能体寻求内在奖励并执行不必要的探索时,即使有足够的任务奖励可用,这种性能下降也会发生。这种跨任务性能的不一致阻碍了 RL 算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序,可以自动调整内在奖励的重要性:它在不需要探索时抑制内在奖励,并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

论文链接:https://arxiv.org/pdf/2211.07627.pdf

更多阅读

  • 《强化学习周刊》第68期:ICLR2023强化学习论文、谷歌乒乓球机器人、订阅赠书《Easy RL强化学习教程》

  • 《强化学习周刊》第67期:ICLR2022强化学习相关论文推荐、订阅赠书《EasyRL强化学习案例与实践》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/47549.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Python PySNMP模块获取设备指标

一、PySNMP模块介绍&#xff1a; PySNMP 是一个跨平台的纯Python SNMP 引擎实现。它具有功能齐全的 SNMP 引擎&#xff0c;能够充当代理/管理器/代理角色&#xff0c;通过 IPv4/IPv6 和其他网络传输传输 SNMP v1/v2c/v3 协议版本。目前&#xff0c;使用较多的是SNMP v3和v2c版…

Robust Document Image Dewarping Method Using Text-Lines and Line Segments论文学习笔记

1 摘要 传统的基于文本行的文档去扭曲方法在处理复杂布局和/或非常少的文本行时会出现问题。当图像中没有对齐的文本行时&#xff0c;这通常意味着照片、图形和/或表格占据了输入的大部分。因此&#xff0c;对于健壮的文档去扭曲变形&#xff0c;我们建议除了对齐的文本行之外…

Python解题 - CSDN周赛第11期 - 圆桌请客(脑筋急转弯)

本来想着没有all pass就不写题解了&#xff0c;但在赛后对最后一题纠结了好久&#xff0c;然后发现是个类似脑筋急转弯的题&#xff0c;自己与正确答案只差一层纸&#xff0c;实在有点不吐不快。另外本期考了经典的背包问题的模板题&#xff0c;也值得记录下来&#xff0c;加深…

全志科技A40i国产开发板——性能参数综合测试

本次测试板卡是创龙科技旗下,一款基于全志科技A40i开发板,其接口资源丰富,可引出双路网口、双路CAN、双路USB、双路RS485等通信接口,板载Bluetooth、WIFI、4G(选配)模块,同时引出MIPI LCD、LVDS LCD、TFT LCD、HDMI OUT、CVBS OUT、CAMERA、LINE IN、H/P OUT等音视频多媒…

宿主机与开发板网络共享

宿主机网络共享 一、关键步骤 11. 网络共享简介 目标&#xff1a;宿主机可以用ssh连接开发板&#xff0c;开发板可以上网。 步骤&#xff1a;宿主机与目标机用网线直连&#xff0c;宿主机采用IP共享的方式连接开发板&#xff1b; 配置项IP开发板IP192.168.0.232宿主机以太网I…

Java 序列化原理

我的网站 | 我的博客 | 序列化解析工具 概念 Java为我们提供了一种默认的对象序列化机制&#xff0c;通过这种机制可以将一个实例对象写入到IO流中&#xff0c;当然这种IO流可以是文件流、网络流或者其他什么流。 代码的写法 ObjectOutputStream 对象输出流&#xff0c;用…

2022新一代设备维修管理系统助力企业降本增效

设备的维修是指企业或者设备密集型单位为了保持、恢复并提升设备使用寿命而定期对设备进行状态的维护&#xff0c;备件的更换&#xff0c;发生故障后的维修和恢复&#xff0c;从而让设备保证良好的运营状态&#xff0c;提升设备的可利用性并保证产能和设备安全。 大型企业在设…

C++11标准模板(STL)- 算法(std::merge)

定义于头文件 <algorithm> 算法库提供大量用途的函数&#xff08;例如查找、排序、计数、操作&#xff09;&#xff0c;它们在元素范围上操作。注意范围定义为 [first, last) &#xff0c;其中 last 指代要查询或修改的最后元素的后一个元素。 归并两个已排序的范围 st…

关于Mysql使用left join写查询语句执行很慢的问题解决

目录 &#xff08;一&#xff09;前言 &#xff08;二&#xff09;正文 1. 表结构/索引展示 &#xff08;1&#xff09;表结构 &#xff08;2&#xff09;各表索引情况 2. 存在性能问题的SQL语句 3. 解决思路 &#xff08;1&#xff09;执行计划思路调优 &#xff08;…

数字图像处理(入门篇)二 颜色空间

在对图像进行处理时&#xff0c;前提图像必须是以数据的形式来描述的&#xff0c;而颜色空间就是用数据来表征图像颜色的一种方法。颜色信息由三个独立的分量来综合表示&#xff0c;这三个独立的分量构成了一个三维的坐标空间&#xff0c;每种颜色信息都在该空间中被唯一地表示…

Java-泛型实验

1.定义一个学生类Student&#xff0c;具有年龄age和姓名name两个属性&#xff0c;并通过实现Comparable接口提供比较规则&#xff08;返回两个学生的年龄差&#xff09;&#xff0c; 定义测试类Test&#xff0c;在测试类中定义测试方法Comparable getMax(Comparable c1, Compar…

基于springboot农机电招平台设计与实现的源码+文档

摘要 随着农机电招行业的不断发展&#xff0c;农机电招在现实生活中的使用和普及&#xff0c;农机电招行业成为近年内出现的一个新行业&#xff0c;并且能够成为大群众广为认可和接受的行为和选择。设计农机电招平台的目的就是借助计算机让复杂的销售操作变简单&#xff0c;变高…

Kubernetes资源调度之节点亲和

Kubernetes资源调度之节点亲和 Pod节点选择器 nodeSelector指定的标签选择器过滤符合条件的节点作为可用目标节点&#xff0c;最终选择则基于打分机制完成。因此&#xff0c;后者也称为节点选择器。用户事先为特定部分的Node资源对象设定好标签&#xff0c;而后即可配置Pod通过…

YOLO X 改进详解

YOLO X 主要改进&#xff1a; Anchor-Free: FCOSDecoupled detection headAdvanced label assigning strategy Network structure improvement Decoupled detection head 对比于YOLO V5, YOLO X 在detection head上有了改进。YOLO V5中&#xff0c;检测头是通过卷积同时预…

ROS2--概述

ROS2概述1 ROS2对比ROS12 ROS2 通信3 核心概念4 ros2 安装5 话题、服务、动作6 参数参考1 ROS2对比ROS1 多机器人系统&#xff1a;未来机器人一定不会是独立的个体&#xff0c;机器人和机器人之间也需要通信和协作&#xff0c;ROS2为多机器人系统的应用提供了标准方法和通信机…

时间序列:时间序列模型---自回归过程(AutoRegressive Process)

本文是Quantitative Methods and Analysis: Pairs Trading此书的读书笔记。 这次我们构造一个由无限的白噪声实现&#xff08;white noise realization) 组成的时间序列&#xff0c;即。这个由无限数目的项组成的值却是一个有限的值&#xff0c;比如时刻的值为&#xff0c; 而…

基于PHP+MySQL校园餐饮配送系统的设计与实现

随着我国国民经济的稳步发展,我国的大学生也越来越多,但是大部分学生都是没有时间和环境去自己做饭的,有很多也不会做,而很多食堂的菜品有难以下咽,所以很多人就采取了订餐的方式来进行购买美食,但是现在很多网站都是只能进行点餐,而没有智能推荐功能,本系统在原来的外卖基础上…

【Linux】文件系统

目录&#x1f308;前言&#x1f337;1、磁盘的组成&#x1f361;1.1、磁盘的物理结构&#x1f362;1.2、磁盘的存储结构&#x1f363;1.3、磁盘的逻辑结构&#x1f338;2、文件系统&#x1f364;2.1、文件系统的结构&#x1f365;2.2、inode如何与数据块建立联系&#x1f366;2…

2021年全国研究生数学建模竞赛华为杯C题帕金森病的脑深部电刺激治疗建模研究求解全过程文档及程序

2021年全国研究生数学建模竞赛华为杯 C题 帕金森病的脑深部电刺激治疗建模研究 原题再现&#xff1a; 一、背景介绍   帕金森病是一种常见的神经退行性疾病&#xff0c;临床表现的特征是静止性震颤&#xff0c;肌强直&#xff0c;运动迟缓&#xff0c;姿势步态障碍等运动症…