《强化学习周刊》第69期：ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

No.69

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第69期《强化学习周刊》以飨诸位。

本周论文推荐板块为读者梳理了ICLR 2023的另外10篇强化学习相关研究论文，其中涉及到扩散策略作为离线强化学习的表达策略类、无熵的最大熵RL、通过 ResAct 加强在顺序推荐中的长期参与、强化学习的谱分解表示等；科研资讯为读者分享来自麻省理工的实现自动调整内在奖励的强化学习，麻省理工学院研究团队提出了一种有原则的约束策略优化程序，可以自动调整内在奖励的重要性：它在不需要探索时抑制内在奖励，并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

第十一届学习表征国际会议(ICLR2023)于2023年5月1日星期一至5日星期五在卢旺达的首都基加利举行。

标题：Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning（德克萨斯大学奥斯汀分校: Zhendong Wang|扩散策略作为离线强化学习的表达策略类）了解详情

简介：离线强化学习 (RL) 旨在使用先前收集的静态数据集学习最佳策略，是 RL 的重要范例。由于分布外动作的函数逼近误差，标准 RL 方法通常在此任务上表现不佳。虽然已经提出了多种正则化方法来缓解这个问题，但它们通常受到表达能力有限的策略类的限制，有时会导致基本上不是最优的解决方案。本文提出了扩散-QL，它利用条件扩散模型作为行为克隆和策略正则化的高度表达策略类。本文学习了一个动作值函数，并在条件扩散模型的训练损失中添加了一个最大化动作值的项，这会导致寻求接近行为策略的最优动作的损失。本文展示了基于扩散模型策略的表现力以及扩散模型下行为克隆和策略改进的耦合都有助于扩散-QL 的出色性能。文中在一个带有多模态行为策略的简单 2D bandit 示例中说明了此文方法和先前的工作。

论文链接：https://arxiv.org/pdf/2208.06193.pdf

标题：Extreme Q-Learning: MaxEnt RL without Entropy（极限Q-Learning：无熵的最大熵RL）了解详情

简介：现代深度强化学习(RL)算法需要对最大 Q 值进行估计，这在具有无限可能行为的连续域中是很难计算的。本文引入了一个新的更新规则的在线和离线，直接模型的最大值使用极值理论(EVT)的启发经济学。通过这样做，可避免使用分布外操作来计算 Q 值，这通常是一个实质性的误差来源。本文的主要见解是引入一个目标，直接估计最大熵(MaxEnt) RL 设置下的最优软值函数(LogSumExp) ，而不需要从策略中抽样。使用 EVT，得到极限Q-Learning框架，并因此在线和第一次离线最大熵 Q-Learning 算法，这些算法不明确要求访问策略或其熵。最后，本文的方法获得了很好的结果。

论文链接：https://openreview.net/pdf?id=SJ0Lde3tRL

标题：ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor（南洋理工大学&快手科技: Wanqi Xue|ResAct：通过 ResAct 加强在顺序推荐中的长期参与）了解详情

简介：强化学习（RL）被广泛认为是优化长期参与顺序推荐的有前途的框架。然而，由于昂贵的在线交互，RL 算法在优化长期参与时很难执行状态-动作值估计、探索和特征提取。本文提出了 ResAct，它寻求一种接近但优于在线服务的策略。能够在学习到的策略附近收集足够的数据，从而可以正确估计状态-动作值，而无需进行在线探索。由于策略空间巨大，很难直接优化该策略。相反，ResAct 通过首先重建在线行为然后改进它来解决它。本文的主要贡献有四方面。首先，本文设计了一个生成模型，该模型通过对多个动作估计器进行采样来重建在线服务策略的行为。其次，本文设计了一种有效的学习范式来训练可以输出残差以改进动作的残差参与者。第三，本文使用两个信息理论正则化器促进特征的提取，以确认特征的表达性和简洁性。第四，广泛的实验证明本文的方法在各种长期参与优化任务中显著优于最先进的基线。

论文链接：https://arxiv.org/pdf/2206.02620.pdf

标题：The Role of Coverage in Online Reinforcement Learning（Tengyang Xie|覆盖在在线强化学习中的作用）了解详情

简介：覆盖条件——断言数据记录分布充分覆盖状态空间——在确定离线强化学习的样本复杂性方面发挥着重要作用。虽然这些条件乍一看似乎与在线强化学习无关，但本文通过展示建立了新的联系，即仅存在具有良好覆盖率的数据分布就可以实现样本高效的在线 RL。具体来说，文中展示了可覆盖性——即满足称为集中性的普遍覆盖条件的数据分布的存在——可以被视为底层 MDP 的结构属性，并且可以被标准算法用于样本有效探索，即使智能体不知道所述分布。本文通过证明几个较弱的覆盖概念来补充这一结果，尽管对于离线 RL 来说已经足够了，但对于在线 RL 来说是不够的。文中还表明，在线 RL 的现有复杂性度量未能最佳地捕捉可覆盖性，并提出了一种新的复杂性度量，即顺序外推系数，以提供统一的度量方法。

论文链接：https://arxiv.org/pdf/2210.04157.pdf

标题：Benchmarking Offline Reinforcement Learning on Real-Robot Hardware（在真实机器人硬件上进行离线强化学习的基准测试）了解详情

简介：从之前记录的数据中学习策略是现实世界机器人任务的一个有希望的方向，因为在线学习往往是不可行的。尤其是灵巧的操纵，在一般情况下仍然是一个开放的问题。然而，离线强化学习与大型多样化数据集的结合，有可能导致在这个具有挑战性的领域取得突破，就像近年来在监督学习中取得的快速进展一样。为了协调研究界解决这个问题的努力，本文提出了一个基准，包括：i）从一个灵巧的操纵平台上获得的关于两个任务的离线学习的大量数据，这些数据是通过在模拟中训练的有能力的RL智能体获得的；ii）在一个真实世界的机器人系统和模拟中执行学习的策略的选项，以便进行有效的调试。本文在数据集上评估了著名的开源离线强化学习算法，并为真实系统上的离线强化学习提供了可重复的实验设置。

论文链接：https://openreview.net/pdf?id=3k5CUGDLNdd

标题：Outcome-directed Reinforcement Learning by Uncertainty & Temporal Distance-Aware Curriculum Goal Generation（通过不确定性和时间距离意识到的课程目标生成进行结果导向的强化学习）了解详情

简介：目前的强化学习（RL）在解决一个具有挑战性的探索问题时经常受到影响，因为在这个问题上很少能看到期望的结果或高回报。即使课程RL，一个通过提出一系列代用任务来解决复杂任务的框架，显示出合理的结果，但由于缺乏一种机制，在没有任何先验领域知识的情况下获得对期望结果状态的校准指导，大多数以前的工作在提出课程方面仍然存在困难。为了缓解这一问题，本文提出了一种不确定性和时间距离感知的课程目标生成方法，该方法通过解决一个双点匹配问题来实现结果导向 RL。它不仅可以为课程提供精准的指导，使其达到预期的结果状态，而且与以前的课程RL方法相比，它还带来了更好的采样效率和几何诊断的课程目标建议能力。本文证明此算法在各种具有挑战性的导航任务和机器人操作任务中以定量和定性的方式明显优于这些先前的方法。

论文链接：https://openreview.net/pdf?id=v69itrHLEu

标题：Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization（强化学习是否适用于自然语言处理？：自然语言策略优化的基准、基线和构建块）了解详情

简介：本文解决了将预先训练的大型语言模型（LMs）与人类偏好相匹配的问题。如果将文本生成视为一个顺序决策问题，强化学习（RL）似乎是一个自然的概念框架。然而，将RL用于基于LM的生成面临着经验挑战，包括由于组合动作空间而导致的训练不稳定性，以及缺少为LM对齐定制的开源库和基准。因此，研究界提出了一个问题：RL是否是NLP的一个实用范式？为了帮助回答这个问题，作者首先引入了一个开源模块库RL4LMs（语言模型强化学习），用于使用RL优化语言生成器。接下来，作者提出了GRUE（通用强化语言理解评估）基准，这是一组6个语言生成任务，它们不受目标字符串的监督，而是由捕获人类偏好的自动度量的奖励函数来监督。最后，作者介绍了一种RL算法NLPO（自然语言策略优化），该算法学习如何有效地减少语言生成中的组合动作空间。

论文链接：https://openreview.net/pdf?id=8aHzds2uUyB

标题：Spectral Decomposition Representation for Reinforcement Learning（谷歌研究院: Tongzheng Ren|强化学习的谱分解表示）了解详情

简介：表示学习通常通过管理维数灾难在强化学习中发挥关键作用。一类具有代表性的算法利用随机过渡动力学的谱分解来构建在理想化环境中具有强大理论特性的表示。然而，当前的谱方法的适用性有限，因为它们是为仅状态聚合而构建的，并且是从依赖于策略的转换内核中派生出来的，而没有考虑探索问题。为了解决这些问题，本文提出了一种替代的光谱方法，即光谱分解表示 (SPEDER)，它从动态中提取状态-动作抽象，而不会引起对数据收集策略的虚假依赖，同时还平衡了学习过程中的探索与利用权衡。理论分析确定了所提出算法在在线和离线设置下的采样效率。此外，一项实验研究表明，在多个基准测试中，性能优于当前最先进的算法。

论文链接：https://arxiv.org/pdf/2208.09515.pdf

标题：Certifiably Robust Policy Learning against Adversarial Communication in Multi-agent Systems（马里兰大学: Yanchao Sun|多智能体系统中对抗性通信的可证明鲁棒策略学习）了解详情

简介：在多智能体强化学习（MARL）问题中，通信对于智能体共享信息和做出正确决策至关重要。然而，基于通信的策略的安全性成为一个尚未充分研究的严重问题。具体来说，如果通信消息被恶意攻击者操纵，依赖不可信通信的智能体可能会采取不安全的行为，从而导致灾难性后果。因此，确保智能体不会被错误的通信误导，同时仍能从良性通信中受益至关重要。本文考虑了一个具有N个智能体的环境，其中攻击者可以任意更改从任何 C<(N-1)/2 个智能体到受害者智能体的通信。对于这种强威胁模型，作者通过构建聚合多个随机消融的消息集的消息集成策略来提出可验证的防御。理论分析表明，无论攻击算法如何，这种消息集成策略都可以利用良性通信，同时对对抗性通信具有可证明的鲁棒性。在多个环境中进行的实验证实，本文的防御显着提高了经过训练的策略针对各种类型攻击的稳健性。

论文链接：https://arxiv.org/pdf/2206.10158.pdf

标题：Pink Noise Is All You Need: Colored Noise Exploration in Deep Reinforcement Learning（粉红噪声就是你所需要的：深度强化学习中的有色噪声探索）了解详情

简介：在具有连续动作空间的非策略深度强化学习中，探索通常是通过在动作选择过程中注入动作噪声来实现的。基于随机策略的流行算法（例如 SAC 或 MPO）通过从不相关的高斯分布中采样动作来注入白噪声。然而，在许多任务中，白噪声不能提供足够的探索，而是使用时间相关的噪声。一个常见的选择是 Ornstein-Uhlenbeck (OU) 噪声，它与布朗运动（红噪声）密切相关。红噪声和白噪声都属于广义的有色噪声家族。在这项工作中，作者对 MPO 和 SAC 进行了全面的实验评估，以探索其他颜色噪声作为动作噪声的有效性。作者发现介于白噪声和红噪声之间的粉红噪声在广泛的环境中明显优于白噪声、OU 噪声和其他替代方案。因此，本文建议将其作为连续控制中动作噪声的默认选择。

论文链接：https://openreview.net/pdf?id=hQ9V5QN27eS

科研资讯

标题：麻省理工实现自动调整内在奖励的强化学习了解详情

简介：最先进的强化学习 (RL) 算法通常使用随机抽样进行探索，但这种方法在像蒙特祖玛的复仇这样的艰巨探索任务中失败了。为了应对探索的挑战，先前的工作通过探索奖励来激励智能体访问新状态。与仅使用任务奖励训练的智能体相比，此类方法可以在艰苦的探索任务上产生出色的结果，但可能会受到内在奖励偏差的影响并且表现不佳。当智能体寻求内在奖励并执行不必要的探索时，即使有足够的任务奖励可用，这种性能下降也会发生。这种跨任务性能的不一致阻碍了 RL 算法广泛使用内在奖励。麻省理工学院研究团队提出了一种有原则的约束策略优化程序，可以自动调整内在奖励的重要性：它在不需要探索时抑制内在奖励，并在需要探索时增加它。这导致无需手动调整即可平衡内在奖励与任务奖励的卓越探索。

论文链接：https://arxiv.org/pdf/2211.07627.pdf

更多阅读