Unsupervised RL:METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

news2025/1/11 22:54:42

ICLR 2024 Oral
paper

Intro

无监督RL旨在发现潜在的行为帮助提高下游任务效率以往方法集中于探索以及基于互信息的技能发现(skill)。然而去前者在高危复杂空间实现困难,后者也容易因为缺乏激励导致探索能力不足。本文提出METRA核心观点认为与其在复杂状态空间处理,不如构造一个更紧凑的隐空间z,类似于PCA将复杂状态空间简化: ϕ : S → Z \phi:\mathcal{S}\rightarrow\mathcal{Z} ϕ:SZ,而z可以通过时间距离(temporal distances)度量metric d链接到状态空间。
在这里插入图片描述
采用时间距离度量(状态间转换的最小交互步数)的原因是其对状态表征是不变的,因此该度量适用于pixel-based的任务。因此,通过最大化Z空间中的覆盖,可以获得近似覆盖整个状态空间的各种行为,便可实现扩展到高维、复杂的环境。

Method

METRA的目标是基于Z空间实现状态空间的最大化覆盖。类似于Skill-based的无监督方法,提出如下优化目标
I W ( S ; Z ) = W ( p ( s , z ) , p ( s ) p ( z ) ) , I_{\mathcal W}(S;Z)=\mathcal{W}(p(s,z),p(s)p(z)), IW(S;Z)=W(p(s,z),p(s)p(z)),
上式计算了状态与skills之间的Wasserstein dependency measure (WDM)。为了让上述目标简介且易于计算,采用Kantorovich-Rubenstein duality提供一种可计算的方式最大化WDM。
I W ( S ; Z ) = sup ⁡ ∥ f ∥ L ≤ 1 E p ( s , z ) [ f ( s , z ) ] − E p ( s ) p ( z ) [ f ( s , z ) ] v \begin{aligned}I_{\mathcal{W}}(S;Z)=\sup_{\|f\|_{L}\leq1}\mathbb{E}_{p(s,z)}[f(s,z)]-\mathbb{E}_{p(s)p(z)}[f(s,z)]\end{aligned}v IW(S;Z)=fL1supEp(s,z)[f(s,z)]Ep(s)p(z)[f(s,z)]v
直观来说更希望采样联合分布的(s,z)而非边际分布的(s,z)。上述目标是可计算的,可以设置f为1阶李普希兹连续的函数,通过梯度下降优化,而z-condition的策略 π ( a ∣ s , z ) \pi(a|s,z) π(as,z)可以通过RL算法优化,其奖励函数表示为: r ( s , z ) = f ( s , z ) − N − 1 ∑ i = 1 N f ( s , z i ) r(s,z)=f(s,z)-N^{-1}\sum_{i=1}^Nf(s,z_i) r(s,z)=f(s,z)N1i=1Nf(s,zi)。而对每一个状态都需要从z的先验分布中采集N个 z i z_i zi,这样计算量增加。

因此本文简化计算量提出参数化 f ( s , a ) = ϕ ( s ) ⊤ ψ ( z ) f(s,a)=\phi(s)^{\top}\psi(z) f(s,a)=ϕ(s)ψ(z)。上述优化目标转化为:
I W ( S ; Z ) ≈ sup ⁡ ∥ ϕ ∥ L ≤ 1 , ∥ ψ ∥ L ≤ 1 E p ( s , z ) [ ϕ ( s ) ⊤ ψ ( z ) ] − E p ( s ) [ ϕ ( s ) ] ⊤ E p ( z ) [ ψ ( z ) ] . I_{\mathcal{W}}(S;Z)\approx\operatorname*{sup}_{\|\phi\|_{L}\leq1,\|\psi\|_{L}\leq1}\mathbb{E}_{p(s,z)}[\phi(s)^{\top}\psi(z)]-\mathbb{E}_{p(s)}[\phi(s)]^{\top}\mathbb{E}_{p(z)}[\psi(z)]. IW(S;Z)ϕL1,ψL1supEp(s,z)[ϕ(s)ψ(z)]Ep(s)[ϕ(s)]Ep(z)[ψ(z)].
原文给出证明,在隐空间维度D趋于正无穷时 f ( s , a ) f(s,a) f(s,a) ϕ ( s ) ⊤ ψ ( z ) \phi(s)^{\top}\psi(z) ϕ(s)ψ(z)等价。然后考虑状态为最后T时刻的设定
I W ( S T ; Z ) ≈ sup ⁡ ∥ ϕ ∥ L ≤ 1 , ∥ ψ ∥ L ≤ 1 E p ( τ , z ) [ ϕ ( s T ) ⊤ ψ ( z ) ] − E p ( τ ) [ ϕ ( s T ) ] ⊤ E p ( z ) [ ψ ( z ) ] = sup ⁡ ϕ , ψ ∑ t = 0 T − 1 ( E p ( τ , z ) [ ( ϕ ( s t + 1 ) − ϕ ( s t ) ) ⊤ ψ ( z ) ] − E p ( τ ) [ ϕ ( s t + 1 ) − ϕ ( s t ) ] ⊤ E p ( z ) [ ψ ( z ) ] ) , \begin{aligned}I_{\mathcal{W}}(S_T;Z)&\approx\sup_{\|\phi\|_L\leq1,\|\psi\|_L\leq1}\mathbb{E}_{p(\tau,z)}[\phi(s_T)^\top\psi(z)]-\mathbb{E}_{p(\tau)}[\phi(s_{T})]^{\top}\mathbb{E}_{p(z)}[\psi(z)]\\&=\sup_{\phi,\psi}\sum_{t=0}^{T-1}\big(\mathbb{E}_{p(\tau,z)}\big[(\phi(s_{t+1})-\phi(s_t))^\top\psi(z)\big]-\left.\mathbb{E}_{p(\tau)}[\phi(s_{t+1})-\phi(s_{t})]^{\top}\mathbb{E}_{p(z)}[\psi(z)]\right),\end{aligned} IW(ST;Z)ϕL1,ψL1supEp(τ,z)[ϕ(sT)ψ(z)]Ep(τ)[ϕ(sT)]Ep(z)[ψ(z)]=ϕ,ψsupt=0T1(Ep(τ,z)[(ϕ(st+1)ϕ(st))ψ(z)]Ep(τ)[ϕ(st+1)ϕ(st)]Ep(z)[ψ(z)]),
其中 p ( s 0 ) p(s_0) p(s0) p ( z ) p(z) p(z)独立分布,设 ψ ( z ) = z \psi(z)=z ψ(z)=z, 约简优化目标为
I W ( S T ; Z ) ≈ sup ⁡ ∥ ϕ ∥ L ≤ 1 E p ( τ , z ) [ ∑ t = 0 T − 1 ( ϕ ( s t + 1 ) − ϕ ( s t ) ) ⊤ ( z − z ˉ ) ] I_{\mathcal{W}}(S_T;Z)\approx\sup\limits_{\|\phi\|_L\leq1}\mathbb{E}_{p(\tau,z)}\left[\sum\limits_{t=0}^{T-1}(\phi(s_{t+1})-\phi(s_t))^\top(z-\bar{z})\right] IW(ST;Z)ϕL1supEp(τ,z)[t=0T1(ϕ(st+1)ϕ(st))(zzˉ)]
且其中 z ˉ = E p ( z ) [ z ] {\bar{z}}={\mathbb{E}}_{p(z)}[z] zˉ=Ep(z)[z],若是z均值为0那该问题可看作奖励函数 r ( s , z , s ′ ) = ( ϕ ( s ′ ) − ϕ ( s ) ) ⊤ z \begin{aligned}r(s,z,s^{\prime})=(\phi(s^{\prime})-\phi(s))^{\top}z\end{aligned} r(s,z,s)=(ϕ(s)ϕ(s))z的RL问题,联合优化 ϕ \phi ϕ π ( a ∣ s , z ) \pi(a|s,z) π(as,z)

METRA

到目前为止,上述问题没有指定距离函数 d d d, 本文提出两个状态时间距离 d t e m p ( s 1 , s 2 ) d_{\mathrm{temp}}(s_{1},s_{2}) dtemp(s1,s2), 即从 s 1 s_1 s1 s 2 s_2 s2最小环境交互步数。那么优化问题为
sup ⁡ π , ϕ E p ( τ , z ) [ ∑ t = 0 T − 1 ( ϕ ( s t + 1 ) − ϕ ( s t ) ) ⊤ z ] s . t . ∥ ϕ ( s ) − ϕ ( s ′ ) ∥ 2 ≤ 1 , ∀ ( s , s ′ ) ∈ S adj , \begin{aligned}\sup_{\pi,\phi}\mathbb{E}_{p(\tau,z)}\left[\sum_{t=0}^{T-1}(\phi(s_{t+1})-\phi(s_{t}))^{\top}z\right]\\\mathrm{s.t.}\|\phi(s)-\phi(s')\|_2\leq1,\forall(s,s')\in\mathcal{S}_{\text{adj}},\end{aligned} π,ϕsupEp(τ,z)[t=0T1(ϕ(st+1)ϕ(st))z]s.t.ϕ(s)ϕ(s)21,(s,s)Sadj,
其中 S adj \mathcal{S}_{\text{adj}} Sadj为相邻状态对的集合,因此d=1。直观来说,上述目标迫使策略 π ( a ∣ s , z ) \pi(a|s,z) π(as,z)尽可能向着由z指定的方向进行探索,但是由于 ∥ ϕ ( s 1 ) − ϕ ( s 2 ) ∥ 2 \|\phi(s_{1})-\phi(s_{2})\|_{2} ϕ(s1)ϕ(s2)2存在一个upper bound。这样潜在空间应该将其(有限的)维度分配给原始状态空间中流形最大限度“展开”的状态。从某种意义上说,状态集中的最短路径应该尽可能长
在这里插入图片描述

在这里插入图片描述

Zero-shot goal-reaching with METRA

得益于 ϕ ( s ) \phi(s) ϕ(s)考虑时间距离上的状态抽象,可以方便的实现Zero-shot goal-reaching 。只需将方向设置 z = ( ϕ ( g ) − ϕ ( s ) ) / ∥ ϕ ( g ) − ϕ ( s ) ∥ 2 z=(\phi(g)-\phi(s))/\|\phi(g)-\phi(s)\|_{2} z=(ϕ(g)ϕ(s))/∥ϕ(g)ϕ(s)2(连续技能)或者 z = arg ⁡ max ⁡ dim ⁡ ( ϕ ( g ) − ϕ ( s ) ) z=\arg\max_{\dim}\left(\phi(g)-\phi(s)\right) z=argmaxdim(ϕ(g)ϕ(s))(离散技能)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1511697.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OGNL表达式

文章目录 一、简介二、快速入门三、详细使用3.1 基本数据类型3.2 对象类型3.3 List集合3.4 Set集合3.5 Map集合3.6 数组3.7 静态调用3.8 算术运算3.9 逻辑运算3.10 同时执行多个表达式3.11 位运算 Ognl使用总结 - 源链接在此 >> 一、简介 OGNL(Object-Graph…

小兔鲜鲜项目(前端vue3)

成果图 大家喜欢给一个赞被, 项目地址:gitee 注意:项目克隆下去之后先运行 npm i之后安装项目插件包之后在npm run dev 运行就可以了

“成像光谱遥感技术中的AI革命:ChatGPT应用指

遥感技术主要通过卫星和飞机从远处观察和测量我们的环境,是理解和监测地球物理、化学和生物系统的基石。ChatGPT是由OpenAI开发的最先进的语言模型,在理解和生成人类语言方面表现出了非凡的能力。本文重点介绍ChatGPT在遥感中的应用,人工智能…

python读取execl里的图片

正常的读取图片 from openpyxl import load_workbook from PIL import Imagefrom openpyxl import load_workbook wb load_workbook(rC:\Users\Administrator\Downloads\output1111.xlsx) ws wb[wb.sheetnames[0]] for image in ws._images:data image.anchor._fromif image…

深入学习默认成员函数——c++指南

前言:类和对象是面向对象语言的重要概念。 c身为一门既面向过程,又面向对象的语言。 想要学习c, 首先同样要先了解类和对象。 本节就类和对象的几种构造函数相关内容进行深入的解析。 目录 类和对象的基本概念 封装 类域和类体 访问限定符…

家长应如何培养孩子对人工智能(AI)的兴趣?无际Ai分享

随着科技的飞速发展,人工智能已经成为了当今社会的重要组成部分。然而,在中小学阶段,很少有学校系统地对学生进行人工智能方面的教育。作为普通家庭的家长,我们可以通过一些方法来激发孩子对人工智能的兴趣,让他们在这…

网络工程师——2024自学

一、怎样从零开始学习网络工程师 当今社会,人人离不开网络。整个IT互联网行业,最好入门的,网络工程师算是一个了。 什么是网络工程师呢,简单来说,就是互联网从设计、建设到运行和维护,都需要网络工程师来…

第7讲:数组和函数实践:扫雷游戏

第7讲:数组和函数实践:扫雷游戏 1. 扫雷游戏分析和设计1.1 扫雷游戏的功能说明1.2 游戏的分析和设计1.2.1 数据结构的分析1.2.2 文件结构设计 2. 扫雷游戏的代码实现3. 扫雷游戏的扩展 1. 扫雷游戏分析和设计 1.1 扫雷游戏的功能说明 • 使用控制台实现…

Edu 12 --- Simple Subset -- 题解 (一个比较巧妙的思维算法题)

Simple Subset: 题解: 思路解析: 题目要求任意两个数的和为质数,那我们最坏情况就是任意选择一个数,此时子集为最大。 如果子集中有两个奇数或者偶数,他们两个之和一定会被2整除,那么我们只能…

keilC51明明已经定义的变量却报错未定义与期待asm

文章目录 keil_C51采用的是C89标准:C89变量定义标准:程序块: expected __asm:已经定义某个变量却报错未定义该变量:从汇编语言中看: keil_C51采用的是C89标准: C89变量定义标准: 1…

Web框架开发-HTTP协议

一、HTTP协议简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于万维网(WWW:World Wide Web )服务器与本地浏览器之间传输超文本的传送协议。 HTTP是一个属于应用层的面向对象的协议,由于其简…

C while 循环

只要给定的条件为真,C 语言中的 while 循环语句会重复执行一个目标语句。 语法 C 语言中 while 循环的语法: while(condition) {statement(s); }在这里,statement(s) 可以是一个单独的语句,也可以是几个语句组成的代码块。 co…

【C++进阶】C++多态概念详解

C多态概念详解 一,多态概念二,多态的定义2.1 多态构成的条件2.2 什么是虚函数2.3 虚函数的重写2.3.1 虚函数重写的特例2.3.2 override和final 2.4 重载和重写(覆盖)和重定义(隐藏)的区别 三,抽象…

数据库规范化设计案例解析

1.介绍 数据库规范化设计是数据库设计的一种重要方法,旨在减少数据库中的冗余数据,提高数据的一致性,确保数据依赖合理,从而提高数据库的结构清晰度和维护效率。规范化设计通过应用一系列的规范化规则(或称“范式”&a…

高边开关驱动容性负载

Hello UU们,有做汽车电子的吗? 如果做汽车电子可能会用到很多高边开关,高边开关带的负载是让容性负载,或者是感性负载时候会比较恶劣,容性负载可能一下子不容易带起来.因为电池和负载电容上的巨大压差,高边开关上流过的电流非常之大,为此我们可以使用缓慢的打开高边开关,高边…

Firefly: 一站式大模型训练工具

Firefly: 一站式大模型训练工具 转载自GitHub项目:https://github.com/yangjianxin1/Firefly 项目简介 Firefly 是一个开源的大模型训练项目,支持对主流的大模型进行预训练、指令微调和DPO,包括但不限于Gemma、Qwen1.5、MiniCPM、Llama、I…

关于并发编程的一些总结

并发编程 1.synchronized是什么? synchronized是Java中的一个关键字,主要是为了解决多个线程访问共享资源的同步性,可以保证被它修饰的代码块或方法在任何时间至多只有一个线程执行。 2.synchronized的进化史? 在早期Java版本中&#xf…

Python合并两张图片 | 先叠透明度再合并 (附Demo)

目录 前言正文 前言 用在深度学习可增加噪音,增加数据集等 推荐阅读:Pytorch 图像增强 实现翻转裁剪色调等 附代码(全) 正文 使用Pillow库来处理图像(以下两张图来自网络) 图一: 图二&…

飞塔防火墙开局百篇——002.FortiGate上网配置——透明模式配置(Transparent)

透明模式配置 开启透明模式创建策略 在不改变现有网络拓扑前提下,将防火墙NGFW以透明模式部署到网络中,放在路由器和交换机之间,防火墙为透明模式,对内网网段192.168.1.0/24的上网进行4~7层的安全防护。 登陆FortiGate防火墙界面&…

Selenium自动化测试面试题全家桶

1、什么是自动化测试、自动化测试的优势是什么? 通过工具或脚本代替手工测试执行过程的测试都叫自动化测试。 自动化测试的优势: 1、减少回归测试成本 2、减少兼容性测试成本 3、提高测试反馈速度 4、提高测试覆盖率 5、让测试工程师做更有意义的…