【论文阅读】Robustness in Reinforcement Learning

news2025/1/10 12:11:54

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability,是 2022 年 CMU 发表的综述文章。

本文主要关注文章的第二部分即鲁棒性

1. 概述

鲁棒性主要解决的问题是提高策略在面对不确定性或者对抗性攻击场景时的最差性能。我们在训练策略的时候通常是在模拟环境,但执行时会在真实环境中,真实环境往往存在参数不同从而导致策略执行出现问题,此时鲁棒性就是避免造成灾难故障的重要性能。

2. 鲁棒性问题定义

除了常规RL的MDP过程,还定义了不确定变量U,U可以是状态变量S、动作变量A、奖励函数R或者转换函数P,鲁棒性RL算法旨在找到一种策略,使不确定变量U的最差性能最大化
max ⁡ π min ⁡ U ∈ F u J M ( π , U ) \max_{\pi}\min_{U\in F_u} J_M(\pi,U) maxπminUFuJM(π,U)
J M ( π , U ) J_M(\pi,U) JM(π,U)代表期望累积回报

2.1 对于不确定的观测状态

大多数鲁棒RL方法旨在鲁棒处理观测状态和实际状态之间的不匹配。在实际环境中,由于传感器错误或传感器容量有限,会出现,一般来说,实际状态和状态观察之间的不匹配会降低策略的性能,甚至可能在安全关键情况下导致灾难性故障。实际观测状态为 s t s_t st,但得到的观测状态为 s ^ \hat s s^,鲁棒性RL在观测状态下得到动作a,在实际状态下通过转换函数得到下一个状态。

在测试阶段,攻击者可以通过引诱目标agent进入设定的目标对抗状态 s a d v s^{adv} sadv来破坏性能,或者引诱agent进行错误的动作选择即 π ( s ^ ) ≠ π ( s ) \pi(\hat s)\ne \pi(s) π(s^)=π(s)
在这里插入图片描述

2.2 对于不确定的动作状态

针对行动不确定性的鲁棒RL侧重于RL代理生成的行动与执行的行动之间的差异,也就是由于来自现实世界中的致动器噪声、有限的功率范围或致动器故障,导致智能体实际动作与策略产生动作产生差异即 a ^ = v ( π ( s ) ) \hat a = v(\pi(s)) a^=v(π(s))。鲁棒RL要在存在这种差异的情况下,使策略的最差性能保持在较高水平。

2.3 对于不确定转移函数和奖励函数

由于训练和测试环境存在差异从而导致转换函数和奖励函数具有差异,在这种情况下 U = ( P , r ) 或者 U = r U=(P,r)或者U=r U=(P,r)或者U=r

  • 环境差异
    对于环境差异,分布鲁棒性分布对转换过程和奖励的分布信息进行编码,来平衡性能和鲁棒性,分布式鲁棒MDP公式可以通过平衡性能和最坏情况下的性能来产生不那么保守的策略

3. 鲁棒性RL方法

3.1 与对手进行鲁棒训练

对抗性训练是传统监督学习中最有效的防御方法之一。在本小节中,我们将讨论一种类型的对抗性训练策略,即用局部对抗性攻击获得的损失的下界(累积奖励的上界)来训练RL代理。

  • State Observation
    对于观测状态的不确定性,直接向RL代理的状态向量或者梯度更新中添加扰动,对抗性训练可以是对手与agent代理并行训练,也可以是预先训练好的对手

  • Action
    目前提出了两个针对动作不确定性的鲁棒性标准:PR-MDP和NR-MDP分别考虑了偶尔的对抗性动作和持续的对抗性动作

  • Transitions and rewards
    RARL是目前处理环境不确定性最流行的框架之一,RARL将环境的差异设定为意外玩家施加的额外干扰,提出了交替优化对手和agent的策略,直到收敛。此外还有ARPL方法,利用自然发生的对抗性场景学习来获得策略的鲁棒性

3.2 鲁棒性松弛训练

与上一节设置累计奖励上界相反,本节设置累计奖励的下界,可以通过relaxation的方法获得

3.3 正则化

在鲁棒RL中可以利用正则化来增强策略的鲁棒性,正则化可以鼓励策略学习更加平滑,防止在状态观测的扰动下策略也发生剧烈变化

3.4 约束优化

使用模糊集来解决最小化问题,例如WR2L,在训练agent时,假设环境对手在Wasserstein范围内添加扰动,直到收敛。

3.5 模型估计

  • Transitions
    将EPOpt与对抗性训练结合,EPOpt使用模型集合对源域进行建模。并未源域找到稳健的策略,在给定从目标域收集的数据中细化模型集合

  • Rewards
    通过考虑有限奖励集,使用融合矩阵对不确定的奖励进行建模来近似真实的奖励信号。AIRL就是一种基于对抗性学习的反向学习算法,近似得出奖励函数

鲁棒测试方法

  • 被动选择防御行为
    CARRL通过将最差的观测结果传递给训练过的DNN模型,来选择最差观测扰动下的行为

  • 主动检测潜在攻击
    这种类型的方法手贱检测对抗性攻击或者预测有利状态/奖励函数,然后根据已经训练好的模型提供关于行动的建议

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/461162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux:文件查看:《cat》《more》《less》《head》《tail》《wc》《grep》使用方法

同样是查看为什么要有这么多查看方法??? 因为他们的用法和扩功能肯定不一样,选择与你需要匹配的一条命令可以节省时间的同时更快速 cat 文件 可以直接查看文件内的内容 直接可以查看文件内的内容 要直接看更多的文件以空格隔开的…

AI大模型+低代码,在项目管理中的应用实践

随着ChatGPT大火之后,新的AI技术和模型被证明已经具备的很高的使用价值。 诸如Copilot、Midjourney、notion等产品通过AI的加持,已经让用户能够充分地在应用层面感受到了便利性。 原本几天的工作通过AI模型,可能只需要1分钟就能完成。可以大…

面试腾讯T7,被按在地上摩擦,鬼知道我经历了什么?

时间总是过得飞快,金三银四已经过去了,人们已经开始备战互联网大厂2023年的秋招计划了。刚好最近我有个小徒弟去腾讯面试的时候挂掉了,感觉被技术吊打。根据他的描述我复盘了一下,希望能给备战秋招的朋友一些帮助。 腾讯面试的内…

Leetcode——485. 最大连续 1 的个数

💯💯欢迎来到的热爱编程的小K的Leetcode的刷题专栏 文章目录 1、题目2、滑动窗口3、一次遍历(官方题解) 1、题目 题目:给定一个二进制数组 nums , 计算其中最大连续 1 的个数。 示例 1: 输入:nums [1,1,0…

生成对抗网络pix2pixGAN

1.介绍 论文:Image-to-Image Translation with Conditional Adversarial Networks 论文地址:https://arxiv.org/abs/1611.07004 图像处理的很多问题都是将一张输入的图片转变为一张对应的 输出图片,比如灰度图、彩色图之间的转换、图像自动…

【JavaEE】SpringMVC_day02

今日内容 完成SSM的整合开发能够理解并实现统一结果封装与统一异常处理能够完成前后台功能整合开发掌握拦截器的编写 1,SSM整合 前面我们已经把Mybatis、Spring和SpringMVC三个框架进行了学习,今天主要的内容就是把这三个框架整合在一起完成我们的业务功…

网络基础-IP和端口号以及认识传输层协议

概念回顾 MAC地址仅需要在同一个局域网下唯一,就可以保证不会出现通讯问题。 通信的目的是两台机器上的应用软件要通信。即客户端进程和服务端进程要获取这个数据,借助主机来完成通信。故将数据在主机间转发仅仅是手段,机器收到后&#xff…

为什么别的测试工程师年薪30W,而你做不到?

最近收到一位同学的私信: “看到了这个岗位想去应聘,但任职要求熟悉Shell、Python、Java其中的一种语言。软件测试工程师不是对编程代码要求不高吗?我如果学习应该选择Java还是Python?” 对于刚入行的测试新人来说,在求…

深入理解Linux内核(第三版)- 进程切换

为了控制进程的执行,内核必须有能力挂起正在CPU上运行的进程,并恢复以前挂起的某个进程的执行。这种行为被称为进程切换(process switch)、任务切换(task switch)或上下文切换(context switch&a…

手把手教你Java实现栈和队列

目录 一、栈(Stack) 1、概念 2、栈的使用 3、栈的模拟实现 4、栈的应用场景 2. 队列(Queue) 1、概念 2、队列的使用 3、队列模拟实现 4、循环队列 三、双端队列 (Deque) 五、栈和队列的互相实现 用队列实现栈: 用栈实现队列: 一、栈(St…

【剑指offer】(2)

系列文章目录 剑指offer系列是一本非常著名的面试题目集,旨在帮助求职者提升编程能力和应对面试的能力。 文章目录 系列文章目录[TOC](文章目录) 前言一、 用两个栈实现队列🔥 思路🌈代码 二、青蛙跳台阶问题🔥 思路&#x1f308…

git从入门到卸载

git是什么? 从git的官网Git可以找到: Git is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency. Git is easy to learn and has a tiny footpr…

SANGFOR防火墙如何查看现网运行参数

环境: 防火墙 8.0.48 AF-1000BB1510 问题描述: 公司防火墙设备使用2年多了 AF-2000-FH2130B-SC;性能参数:网络层吞吐量:20G,应用层吞吐量:9G,防病毒吞吐量:1.5G,IPS吞…

python基础实战4-python基础语法

1、注释(Comments) 注释用来向用户提示或解释某些代码的作用和功能,它可以出现在代码中的任何位置。 Python解释器在执行代码时会忽略注释,不做任何处理,就好像它不存在一样。 1.1 代码注释介绍 注释就是对代码的解…

计算机组成原理 指令系统(1)

本文是HIT计算机组成原理上课笔记,由于唐书有些内容讲的比较抽象,添加了一些王道的图片加以补充。 回忆计算机的工作过程 代码被编译器翻译成与之对等的机器指令,除了指令之外还会有一些数据同时被放到主存里 机器指令 指令格式 一条指令是…

第十四章 代理模式

文章目录 前言一、静态代理完整代码接口 ITeacherDao (代理类和被代理类都需要实现这个接口)被代理类 TeacherDao代理类 TeacherDaoProxy测试类 Client 二、JDK动态代理完整代码接口 ITeacher实现类TeacherDao代理工厂 ProxyFacyoryclient 测试 三、Cgli…

Java阶段二Day09

Java阶段二Day09 文章目录 Java阶段二Day09DQLSELECT基础查询全部查询WHERE子句连接多个条件ORDER BY子句分页查询在SELECT子句中使用函数在WHERE中使用表达式别名聚合函数 教师总结DQL语言-数据查询语言语法基础查询语法例 WHERE子句例连接多个条件例AND的优先级高于OR IN(列表…

vue使用原生bootstrap-fileinput无效(未解决)

这篇只记录一下踩到的坑,由于时间关系,此问题未解决 起因:要求替换项目框架,原先jq要替换成vue。之前bootstrap中自带的文件上传插件自带很多功能,上传进度条、上传内容预览等非常方便(如图)&a…

Netty核心源码分析(四)心跳检测源码分析

文章目录 系列文章目录一、心跳检测案例二、源码分析1、Netty心跳的三个Handler2、IdleStateHandler源码(1)四个关键属性(2)handlerAdded方法(3)四个内部类 3、读事件的run方法——ReaderIdleTimeoutTask4、…

easyrecovery16最新数据恢复软件密钥使用方法教程

easyrecovery是一款专业的数据恢复软件,其最新版本为easyrecovery2023将于2022年底发布。总之,easyrecovery是一款功能齐全、性能稳定的专业数据恢复软件,无论删除文件、格式化分区或磁盘故障,它都可以提供最高的恢复成功率。值得个人用户选用。此版本在功能和性能上有较大提升…