走向开放世界强化学习、IJCAI2022论文精选、机器人 RL 工具、强化学习招聘、《强化学习周刊》第73期...

No.73

智源社区

强化学习组

强

化

学

习

周刊订阅

《强化学习周刊》已经开启“订阅功能”，扫描下面二维码，进入主页，选择“关注TA”，我们会向您自动推送最新版的《强化学习周刊》。

本期贡献者：（李明，刘青、小胖）

论文推荐

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块，论文推荐板块为读者梳理了IJCAI2022会议的11篇强化学习相关研究论文；科研资讯为读者分享来自浙大团队使用模仿放松强化学习分阶段优化高速四足运动；本次招聘版块为大家介绍来自武汉理工大学严新平院士团队招聘博后(强化学习等方向)；本次学术报告分享来自俞扬教授的线上讲座：走向开放世界强化学习；本次教程推荐板块为大家分享Tools for Robotic Reinforcement Learning，这个一天的教程指出了这些实际陷阱，并向观众介绍了机器人 RL 的工具，这些工具将帮助机器人专家在模拟和现实世界中成功解决机器人学习任务。

关于IJCAI

国际人工智能联合会议（International Joint Conference on Artificial Intelligence, 简称为IJCAI）是人工智能领域中最主要的学术会议之一，原为单数年召开，自2016年起改为每年召开。本次论文推荐了IJCAI2022会议的11篇论文，涉及领域有安全强化学习、基于策略集成提高泛化和样本效率、信号安全博弈的进化方法、词典式多目标强化学习、自适应交通信号控制、基于搜索的强化学习测试等。

标题：Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk（清华大学:Chengyang Ying | 基于约束条件风险值实现安全强化学习）

简介：尽管深度强化学习（DRL）已经取得了实质性的成功，但由于过渡和观察的内在不确定性，它可能会遇到灾难性的失败。大多数现有的安全强化学习方法只能处理过渡扰动或观察扰动，因为这两种扰动影响主体的不同部分；此外，流行的最坏情况回报可能导致政策过于悲观。为此，本文首先从理论上证明了在过渡扰动和观测扰动下的性能退化取决于一个新的值函数范围（VFR）度量，该度量对应于最佳状态和最坏状态之间的值函数差距。在分析的基础上，采用条件风险值（CVaR）作为风险评估，并提出了新的CVaR近端策略优化（CPPO）强化学习算法，通过将CVaR保持在给定阈值之下，将风险敏感的约束优化问题形式化。实验结果表明，CPPO在MuJoCo中的一系列连续控制任务上实现了更高的累积回报，并且对观测和过渡扰动都更鲁棒。

论文：https://arxiv.org/pdf/2206.04436v2.pdf

解读：https://hub.baai.ac.cn/view/22492

标题：Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble（上海交通大学:Zhengyu Yang | 面向适用性强化学习：基于策略集成提高泛化和样本效率）

简介：强化学习（RL）算法在金融交易和物流系统等现实世界应用中取得成功具有挑战性，因为存在噪声观测以及训练和评估之间的环境转换。因此，它需要高采样效率和通用性来解决实际任务。然而，直接应用典型的RL算法可能会导致此类场景中的性能不佳。考虑到集成方法在监督学习（SL）中的准确性和通用性方面的巨大性能，本文设计了鲁棒且适用的方法，称为集成近端策略优化（EPPO），该方法以端到端的方式学习集成策略。值得注意的是，EPPO将每项政策和政策组合有机地结合起来，并同时优化两者。此外，EPPO在政策空间上采用了多样性增强正则化，这有助于推广到未知状态并促进探索。我们从理论上证明了EPPO提高了探索效率，并且通过对各种任务的综合实验评估，研究证明了与普通策略优化算法和其他集成方法相比，EPPO实现了更高的效率，并且对真实世界的应用具有鲁棒性。

论文：https://arxiv.org/pdf/2205.09284.pdf

解读：https://hub.baai.ac.cn/view/22493

标题：CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning（Alibaba-NTU Singapore Joint Research Institute:Chenyu Sun | CCLF：一种用于样本有效强化学习的对比好奇驱动学习框架）

简介：在强化学习（RL）中，直接从高维观察中学习是一个挑战，最近数据增强被证明可以通过对原始像素的不变量进行编码来弥补这一问题。并且简单地注入更多增强的输入反而可能导致Q-学习的不稳定性。本文提出一个模型不可知的对比好奇心驱动学习框架（CCLF）来系统地解决此问题，该框架可以充分利用样本重要性并以自监督方式提高学习效率。CCLF能够对经验回放进行优先级排序，选择信息量最大的增强输入，更重要的是对Q函数以及编码器进行规则化，以更加集中于学习不足的数据。此外，它鼓励智能体以好奇心为基础进行探索。以专注于信息量更大的样本，并更有效地学习表示不变量，同时显著减少了增强输入。通过将CCLF应用于几种基本RL算法，并在DeepMind Control Suite、Atari和MiniGrid基准测试上进行评估，与其他最先进的方法相比，该方法显示出卓越的样本效率和学习性能。

论文：https://arxiv.org/pdf/2205.00943v2.pdf

解读：https://hub.baai.ac.cn/view/22494

标题：Evolutionary Approach to Security Games with Signaling(Warsaw University of Technology:Adam Żychowski | 信号安全博弈的进化方法)

简介：绿色安全游戏已经成为一种流行的方式来模拟涉及保护野生动物等自然资源的场景。传感器（如配备摄像头的无人机）也开始通过提供实时信息在这些场景中发挥作用。战略性地整合人力和传感器防御资源是最近安全游戏与信号（SGS）工作的主题。然而，现有方法在时间或内存方面无很好的扩展性。故本文提出了新SGS方法，其在该领域首次采用了进化计算范式：EASGS。其通过染色体中合适的解决方案编码和一组专门设计的运算符，有效地搜索巨大的SGS解决方案空间。算子包括三种类型的突变，每种突变都关注SGS解决方案的特定方面、优化交叉和局部覆盖改进方案（EASGS的模因方面）。还引入了一组新的基准游戏，基于反映真实世界SGS设置的密集或局部密集图形。在342个测试游戏实例中，EASGS在时间可扩展性、几乎恒定的内存利用率和返回防御者策略的质量（预期奖励）方面优于最先进的方法，包括强化学习方法。

论文：https://arxiv.org/pdf/2204.14173.pdf

解读：https://hub.baai.ac.cn/view/22495

标题：Lexicographic Multi-Objective Reinforcement Learning（牛津大学: Joar Skalse|词典式多目标强化学习）

简介：在这项工作中，作者介绍了用于解决词典多目标问题的强化学习技术。这些是涉及多个奖励信号的问题，目标是学习最大化第一个奖励信号的策略，并且受此约束也最大化第二个奖励信号，依此类推。本文提出了一系列可用于解决此类问题的动作值和策略梯度算法，并证明它们收敛到字典序最优的策略。作者根据经验评估这些算法的可扩展性和性能，证明它们的实际适用性。作为更具体的应用，作者展示了如何使用本文的算法对智能体的行为施加安全约束，并将它们在这种情况下的性能与其他受约束的强化学习算法的性能进行比较。

论文：https://arxiv.org/pdf/2212.13769.pdf

解读：https://hub.baai.ac.cn/view/23170

标题：Understanding the Limits of Poisoning Attacks in Episodic Reinforcement Learning（加州大学圣地亚哥分校: Anshuka Rangi|了解情景强化学习中毒攻击的局限性）

简介：为了解强化学习 (RL) 算法的安全威胁，本文研究了中毒攻击以操纵任何顺序最优学习算法以实现情景 RL 中的目标策略，并检查了两种自然类型的中毒攻击的潜在损害，即操纵奖励和行动。作者发现攻击的效果关键取决于奖励是有界的还是无界的。在有界奖励设置中，本文表明仅奖励操纵或仅动作操纵不能保证攻击成功。然而，通过结合奖励和行动操纵，对手可以操纵任何顺序最优学习算法以遵循任何具有 \tilde{\Theta} \left ( \sqrt{T} \right ) 总攻击成本的目标策略，这是顺序最优的，而无需了解底层 MDP。相比之下，在无限奖励设置中，表明奖励操纵攻击足以让对手成功操纵任何顺序最优学习算法以遵循任何目标策略，使用 \tilde{ O } \left ( \sqrt{T} \right ) 污染量。本文的结果揭示了关于中毒攻击可以或不能实现什么的有用见解，并将推动更多关于鲁棒 RL 算法设计的工作。

论文：https://arxiv.org/pdf/2208.13663.pdf

解读：https://hub.baai.ac.cn/view/23171

标题：Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes（罗马大学: Alessandro Ronca|非马尔可夫决策过程中 PAC 强化学习的马尔可夫抽象）

简介：本文的工作旨在开发不依赖马尔可夫假设的强化学习算法。考虑非马尔可夫决策过程的类别，其中历史可以抽象为一组有限的状态，同时保留动态。作者称其为马尔可夫抽象，因为它在一组编码非马尔可夫动力学的状态上引入马尔可夫决策过程。这种现象是最近引入的常规决策过程（以及只能达到有限数量的信念状态的 POMDP）的基础。在所有此类决策过程中，使用马尔可夫抽象的代理可以依靠马尔可夫属性来实现最佳行为。本文表明可以在强化学习期间学习马尔可夫抽象。本文的方法结合了自动机学习和经典强化学习。对于这两项任务，可以采用标准算法。作者表明，当采用的算法具有 PAC 保证时，本文的方法具有 PAC 保证，并且提供了实验评估。

论文：https://arxiv.org/pdf/2205.01053.pdf

解读：https://hub.baai.ac.cn/view/23172

标题：TinyLight: Adaptive Traffic Signal Control on Devices with Extremely Limited Resources（浙江大学: Dong Xing |TinyLight：资源极其有限的设备上的自适应交通信号控制）

简介：深度强化学习 (DRL) 的最新进展在很大程度上促进了自适应交通信号控制 (ATSC) 的性能。然而，在实现方面，大多数工作在存储和计算方面都很麻烦。这阻碍了它们在资源有限的情况下的部署。本文提出了首个基于DRL 的 ATSC 模型——TinyLight，专为资源极其有限的设备而设计。TinyLight 首先构建一个超图，将一组丰富的候选特征与一组轻量级网络块相关联。然后，为了减少模型的资源消耗，本研究使用新的熵最小化目标函数自动消融超图中的边缘。这使 TinyLight 能够在只有 2KB RAM 和 32KB ROM 的独立微控制器上工作。本文在具有真实交通需求的多个道路网络上评估 TinyLight。实验表明，即使在资源极其有限的情况下，TinyLight 仍能取得有竞争力的性能。

论文：https://arxiv.org/pdf/2205.00427.pdf

解读：https://hub.baai.ac.cn/view/23185

标题：Search-Based Testing of Reinforcement Learning（格拉茨技术大学: Martin Tappler|基于搜索的强化学习测试）

简介：深度强化学习 (RL) 的评估具有内在的挑战性。特别是学习策略的不透明性以及智能体和环境的随机性使得测试深度 RL 智能体行为变得困难。本文提出了一个基于搜索的测试框架，该框架具有广泛的新颖分析功能，可用于评估深度 RL 智能体的安全性和性能。对于安全测试，此框架使用搜索算法来搜索解决 RL 任务的参考轨迹。搜索的回溯状态（称为边界状态）构成了安全关键情况。本研究创建了安全测试套件，用于评估 RL 智能体在这些边界状态附近逃脱安全关键情况的能力。对于稳健的性能测试，本文通过模糊测试创建了一组不同的跟踪。这些模糊跟踪用于将智能体带入各种潜在的未知状态，从中将智能体的平均性能与模糊跟踪的平均性能进行比较。本研究将基于搜索的测试方法应用于任天堂的《超级马里奥兄弟》的 RL。

论文：https://arxiv.org/pdf/2205.04887.pdf

解读：https://hub.baai.ac.cn/view/23186

标题：Feature and Instance Joint Selection: A Reinforcement Learning Perspective（中佛罗里达大学: Wei Fan|特征和实例联合选择：强化学习视角）

简介：特征选择和实例选择是数据处理的两种重要技术。然而，这些选择大多是单独研究的，而现有的联合选择工作是粗略地进行特征/实例选择；因此忽略了特征空间和实例空间之间潜在的细粒度交互。为了应对这一挑战，本文提出了一种强化学习解决方案来完成联合选择任务，同时捕捉每个特征的选择与每个实例之间的交互。特别是，顺序扫描机制被设计为智能体的动作策略，并使用协作变化的环境来增强智能体协作。此外，交互式范式引入了先验选择知识，以帮助代理进行更有效的探索。最后，在真实世界数据集上的大量实验已经证明了改进的性能。

论文：https://arxiv.org/pdf/2205.07867.pdf

解读：https://hub.baai.ac.cn/view/23187

标题：The Real Deal: A Review of Challenges and Opportunities in Moving Reinforcement Learning-Based Traffic Signal Control Systems Towards Reality（卡内基梅隆大学: Rex Chen|回顾基于强化学习的交通信号控制系统走向现实的挑战和机遇）

简介：交通信号控制 (TSC) 是一个高风险领域，随着全球交通量的增长，其重要性也在不断增长。越来越多的工作将强化学习 (RL) 应用于 TSC；RL 可以利用大量的交通数据来提高信令效率。然而，从未部署过基于 RL 的信号控制器。在这项工作中，首次回顾了在将 RL 部署到 TSC 之前必须解决的挑战。本研究专注于四个挑战，包括 (1) 检测的不确定性，(2) 通信的可靠性，(3) 合规性和可解释性，以及 (4) 异构道路使用者。研究表明，关于基于 RL 的 TSC 的文献在应对每个挑战方面取得了一些进展。然而，更多的工作应该采用系统思维方法，考虑其他管道组件对 RL 的影响。

论文：https://arxiv.org/pdf/2206.11996.pdf

解读：https://hub.baai.ac.cn/view/23188

科研资讯

标题：浙大团队使用模仿放松强化学习分阶段优化高速四足运动

简介：腿式机器人的快速稳定运动涉及苛刻且矛盾的要求，特别是快速控制频率和精确的动力学模型。受益于神经网络的通用逼近能力和离线优化，强化学习已被用于解决有腿机器人运动中的各种具有挑战性的问题。然而，四足机器人的最优控制需要优化多个目标，如保持平衡、提高效率、实现周期性步态和服从命令等。这些目标不能总是同时实现，尤其是在高速情况下。浙江大学研究团队介绍了一种模仿放松强化学习 (IRRL) 方法来分阶段优化目标。为了弥合模拟与现实之间的差距，研究人员进一步将随机稳定性的概念引入系统鲁棒性分析中。状态空间熵递减率是一个定量指标，可以敏锐地捕捉到倍周期分岔的发生和可能出现的混沌。通过在训练和随机稳定性分析中使用 IRRL，我们能够证明 MIT-MiniCheetah 类机器人的稳定运行速度为5.0 m/s。

论文：https://www.nature.com/articles/s42256-022-00576-3

解读：https://hub.baai.ac.cn/view/23190

相关招聘

标题：武汉理工大学严新平院士团队招聘博后(强化学习等方向)

简介：严新平院士为中国工程院院士，武汉理工大学教授、智能交通系统研究中心和交通与物流工程学院博士生导师；现任智能航运与海事安全国际科技合作基地和内河智能航运交通运输业协同创新平台主任。主要研究方向：水路交通运输系统的安全性、智能化和绿色技术研究。现因科研需要，2023年拟招收博士后研究人员2-3名。

招聘条件：1.具有扎实的交通运输工程、船舶与海洋工程、机械工程、控制工程、信息或计算机、安全工程等学科基础。2.为人正直、踏实，富有责任感、创新能力和团队合作精神，有很强的求知欲望和扎实的研究功底。3.具有较强的操作动手能力和独立开展科研的能力。4.高度的责任心和良好的团队合作精神。符合条件的应聘者，请将个人简历发送至296287507@qq.com。

招聘：http://rshc.whut.edu.cn/rshc/detail.jsp?id=647

hub：https://hub.baai.ac.cn/view/23189

学术讲座

标题：俞扬教授 | 走向开放世界强化学习

简介：强化学习研究在游戏等封闭环境中已经取得了显著的进步，然而实际决策类任务处于开放世界中，强化学习在开放世界发挥作用仍然面临巨大的挑战。报告人将对强化学习相关技术进行介绍，并汇报在开放世界强化方向报告人的研究进展，包括环境学习和可泛化策略训练两条途径，前者讲真实世界带入电子世界中，使得强化学习仍可使用试错式学习，后者使策略在部署后仍适应环境的变化。

俞扬南京大学人工智能学院教授，国家万人计划青年拔尖人才，主要从事机器学习、强化学习的研究工作。获2020 CCF-IEEE青年科学家奖。入选2018 IEEE AI's 10 to Watch，获首届亚太数据挖掘“青年成就奖”，并受邀在国际人工智能联合大会 IJCAI'18 作“青年亮点报告”(Early Career Spotlight)。研究工作获4项国际论文奖励和3项国际算法竞赛冠军。

报告时间：2023年1月11日上午10:00-11:00

腾讯会议ID：421-248-748

https://mp.weixin.qq.com/s/HBn2z27EcengfnqjiCgzNw

hub：https://hub.baai.ac.cn/view/23217

教程推荐

标题：Tools for Robotic Reinforcement Learning

简介：由于在许多机器人应用中取得了令人印象深刻的结果，强化学习 (RL) 方法受到了广泛关注。虽然 RL 承诺在理论上对接近最优的行为进行基于学习的控制，但由于各种实施挑战，成功的学习可能会使从业者望而却步。即使选择了最适合的学习方法，由于超参数选择不当或算法实施不可靠，学习性能仍然会令人失望。此外，不正确的规范可能会使学习任务不必要地变得困难。这个一天的教程指出了这些实际陷阱，并向观众介绍了机器人 RL 的工具，这些工具将帮助机器人专家在模拟和现实世界中成功解决机器人学习任务。

讲座：https://araffin.github.io/tools-for-robotic-rl-icra2022/

hub：https://hub.baai.ac.cn/view/23173

关于周刊

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，本期为第73期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动，联系方式微信yuzhong125。

更多阅读