Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning

news2024/11/20 15:38:11

ICML 2023 Poster
paper

Intro

文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。

Method

原始的RL目标是最大化累计奖励: π ∗ = arg ⁡ max ⁡ π J R ( π ) : = E [ ∑ t = 0 ∞ γ t r t ] \pi^*=\arg\max_\pi J_R(\pi):=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tr_t\right] π=argmaxπJR(π):=E[t=0γtrt]。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标
max ⁡ π J R + I ( π , α ) = max ⁡ π E [ ∑ t = 0 H γ t ( r t − α H t X ( π ∣ π ˉ ) ) ] \max_{\pi}J_{R+I}(\pi,\alpha)=\max_{\pi}\mathbb{E}\left[\sum_{t=0}^{H}\gamma^{t}(r_{t}-\alpha H_{t}^{X}(\pi|\bar{\pi}))\right] πmaxJR+I(π,α)=πmaxE[t=0Hγt(rtαHtX(ππˉ))]
其中 H t X ( π ∣ π ˉ ) = − E a ∼ π ( ⋅ ∣ τ t ) [ log ⁡ π ˉ ( a ∣ o t T ) ] H_t^X(\pi|\bar{\pi})=-\mathbb{E}_{a\sim\pi(\cdot|\tau_t)}[\log\bar{\pi}(a|o_t^T)] HtX(ππˉ)=Eaπ(τt)[logπˉ(aotT)]。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。形式化该问题便得到算法核心的优化目标
max ⁡ π J R + I ( π , α ) s.t. J R ( π ) ≥ J R ( π R ) \max_\pi J_{R+I}(\pi,\alpha)\quad\text{s.t.}\quad J_R(\pi)\geq J_R(\pi_R) πmaxJR+I(π,α)s.t.JR(π)JR(πR)
其中 π R \pi_R πR是只采用任务原始奖励所优化的辅助策略。进一步转化为拉格朗日对偶问题
min ⁡ λ ≥ 0 max ⁡ π [ J R + I ( π , α ) + λ ( J R ( π ) − J R ( π R ) ) ] = min ⁡ λ ≥ 0 max ⁡ π [ ( 1 + λ ) J R + I ( π , α 1 + λ ) − λ J R ( π R ) ] \min_{\lambda\geq0}\max_{\pi}\left[J_{R+I}(\pi,\alpha)+\lambda\left(J_{R}(\pi)-J_{R}(\pi_{R})\right)\right]=\\\min_{\lambda\geq0}\max_{\pi}\left[(1+\lambda)J_{R+I}(\pi,\frac{\alpha}{1+\lambda})-\lambda J_{R}(\pi_{R})\right] λ0minπmax[JR+I(π,α)+λ(JR(π)JR(πR))]=λ0minπmax[(1+λ)JR+I(π,1+λα)λJR(πR)]
解决该问题分两步,第一步优化策略 π \pi π以及 π R \pi_R πR。然后通过梯度下降优化乘子 λ \lambda λ
λ n e w = λ o l d − μ [ J R ( π ) − J R ( π R ) ] \lambda_{new}=\lambda_{old}-\mu[J_R(\pi)-J_R(\pi_R)] λnew=λoldμ[JR(π)JR(πR)]
其中 J R ( π ) − J R ( π R ) = E ( s , a , t ) ∼ ρ [ γ t ( A π R ( s , a ) − A π ( s , a ) ) ] J_R(\pi)-J_R(\pi_R)=\mathbb{E}_{(s,a,t)\thicksim\rho}[\gamma^t(A_{\pi_R}(s,a)-A_\pi(s,a))] JR(π)JR(πR)=E(s,a,t)ρ[γt(AπR(s,a)Aπ(s,a))]

这个更新规则很直观:如果融合专家优化得到的策略 π \pi π比辅助策略 π R \pi_R πR实现了更多的任务奖励,则 λ \lambda λ减少,增加了 α 1 + λ \frac{\alpha}{1+\lambda} 1+λα,使得策略优化更依赖于下一次迭代中的专家。否则,如果 辅助策略 π R \pi_R πR比策略 π \pi π获得更高的奖励,则 λ 的增加会降低教师的重要性。

伪代码

在这里插入图片描述

results

在这里插入图片描述

问题

伪代码第12行采用了梯度上升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1675112.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LangChain系列 15】语言模型——LLMs(一)

原文地址:【LangChain系列 15】语言模型——LLMs(一) 本文速读: 异步API 自定义LLM Fake LLM HumanInput LLM 本文将介绍LLMs在LangChain中的一些用法,帮助我们更好地了解LLM模块。 01 异步API LangChain通过异步库实现了对异步的支持&a…

创意无限!AI一键生成漫画视频,每天轻松收入300+,粘贴复制简单操作!

AI项目算是2023到2024一直都非常火爆的项目,这次的AI漫画项目也是相当暴利的项目了,我知道一个老铁通过AI漫画半年已经获利100W了,真的是相当暴利了。 不再多说,直接上手拆解项目。 项目获取: https://zzmbk.com/htt…

Springboot+MybatisPlus如何实现分页和模糊查询

实现分页查询的时候我们需要创建一个config配置类 1、创建MybatisPlusConfig类 Configuration //表明这是一个配置类 ConditionalOnClass(Value{PaginationInterceptor.class} //ConditionalOnClass:当指定的类存在时,才会创建对应的Bean // 这里当PaginationInt…

解决springboot+vue静态资源刷新后无法访问的问题

一、背景 原项目是有前后端分离设计,测试环境是centos系统,采用nginx代理和转发,项目正常运行。 项目近期上线到正式环境,结果更换了系统环境,需要放到一台windows系统中,前后端打成一个jar包,…

最高可得 300 元现金!分享实操经验,即可轻松获得奖励

OpenBayes贝式计算平台第二期「创作者激励计划」上线啦,快来和 HyperAI超神经一起参加吧! 无论你是深度学习、数据科学或大模型的资深玩家,还是刚入门技术小白; 无论你是拥有丰富创作经验的老手,还是刚踏入社交媒体世…

(2024,MambaOut,Mamba 适合长序列,区分指标,不适合分类,适合检测和分割)视觉真的需要 Mamba 吗?

MambaOut: Do We Really Need Mamba for Vision? 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 3. 概念讨论 3.1 Mamba 适合哪些任务? 3.2 视觉识别任…

【小笔记】streamlit使用笔记

【小笔记】streamlit使用笔记 1.streamlit是什么,为什么要用它? 一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。 类似的可视化库…

惠普发布全新AI战略,重塑办公空间 引领企业智能化新浪潮

近日、全球知名科技公司惠普在北京隆重举办了以“用智能,开启无限可能”为主题的2024惠普商用AI战略暨AI PC新品发布会,此次盛会标志着惠普在人工智能领域迈出了重要一步,惠普紧跟时代步伐,推出了更高效、更安全、更灵活的AI PC产…

redis报错500

之前自己举一反三把value也给序列化了: 然后报错了: 原因是这里传入的是Integer类型,序列化的话就变为string类型了

web入门练手案例(一)

下面是一下web入门案例和实现的代码,带有部分注释,倘若代码中有任何问题或疑问,欢迎留言交流~ 新闻页面 案例描述: 互联网的发展使信息的传递变得方便、快捷,浏览新闻称为用户获取信息的重要渠道。下面将实现一个简…

云服务器和主机的区别

在今天的数字化时代,对于个人和企业来说,选择适当的服务器托管解决方案至关重要。然而,很多人对于云服务器和传统主机之间的区别不太清楚。本文将为您提供一个详细的指南,帮助您理解云服务器与主机之间的区别,以便您能…

Chatgpt教你使用Python开发iPhone风格计算器

上次使用Chatgpt写爬虫,虽然写出来的代码很多需要修改后才能运行,但Chatgpt提供的思路和框架都是没问题。 这次让Chatgpt写一写GUI程序,也就是你常看到的桌面图形程序。 由于第一次测试,就来个简单点的,用Python写用…

Linux防火墙iptalbes

1 iptalbes 1.1 概念 防火墙(Firewall)是一种隔离技术,用于安全管理与筛选的软件和硬件设备,使计算机内网和外网分开,可以防止外部网络用户以非法手段通过外部网络进入内部网络,保护内网免受外部非法用户的侵入。 1.2 SELinux …

【瑞萨RA6M3】2. UART 实验

https://blog.csdn.net/qq_35181236/article/details/132789258 使用 uart9 配置 打印 void hal_entry(void) {/* TODO: add your own code here */fsp_err_t err;uint8_t c;/* 配置串口 */err g_uart9.p_api->open(g_uart9.p_ctrl, g_uart9.p_cfg);while (1){g_uart9.…

有 10000 个 if else 该如何优化?被问懵了!

这个问题可以看作是一道场景题,它考察一个程序员在面对复杂逻辑判断时的优化能力,也是在考察一个程序员临场发挥技术能力。 方案1:策略模式 使用策略模式确实可以提升代码的优雅性,但也会存在以下问题: 如果是大量的…

代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集

代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集 文章目录 代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集01背包问题理论基础一、01背包问题二、…

Transformer 模型

文章目录 前言一、模型结构 前言 Transformer 模型是由谷歌在 2017 年提出并首先应用于机器翻译的神经网络模型结构。机器翻译的目标是从源语言(Source Language)转换到目标语言(Target Language)。Transformer 结构完全通过注意力…

JS中的宏任务和微任务

JavaScript 引擎是建立在一个事件循环系统之上的,它实时监控事件队列,如果有事件就执行,如果没有事件就等待。事件系统是一个典型的生产消费模式,生产者发出事件,接收者监听事件,在UI 开发中是常见的一个设…

电源模块效率的正确测试方法

电源效率是评价电源性能的重要指标,它直接关系到设备的稳定性和能源的利用效率。因此,对电源进行效率测试显得尤为重要。电源在工作过程中,会有部分能量损耗,因此,电源效率的高低,不仅影响着设备的性能&…

CentOS 磁盘扩容与创建分区

文章目录 未分配空间创建新分区重启服务器添加物理卷扩展逻辑卷 操作前确认已给服务器增加硬盘或虚拟机已修改硬盘大小(必须重启服务才会生效)。 未分配空间 示例说明:原服务器只有40G,修改虚拟机硬盘大小再增加20G后硬盘变为60G。…