Offline: Overcoming Model Bias for Robust Offline Deep Reinforcement Learning

news2025/1/7 6:16:35

EAAI 2023
paper

Intro

model-free的离线强化学习由于价值函数估计问题存在训练的稳定性以及鲁棒性较低。本文提出基于模型的方法,同构构建稳定的动力学模型帮助策略的稳定训练。

method

本文基于模型的方法,所构造的转移模型输入状态动作,输出的状态差异 Δ s = s t + 1 − s t \Delta s=s_{t+1}-s_{t} Δs=st+1st而非直接预测下一状态值。
L ( ϕ ) = ∑ t ∥ f ϕ ( s t , a t ) − ( s t + 1 − s t ) − μ Δ s σ Δ s ∥ 2 L(\phi)=\sum_{t}\|f_{\phi}(s_{t},a_{t})-\frac{(s_{t+1}-s_{t})-\mu^{\Delta\mathbf{s}}}{\sigma^{\Delta\mathbf{s}}}\|_{2} L(ϕ)=tfϕ(st,at)σΔs(st+1st)μΔs2

文章假设转移误差符合分布 ( s ′ − s ′ ^ ) ∼ N ( 0 , − log ⁡ p e , β ( s , a ) ) (s'-\hat{s'})\sim\mathcal{N}(0,-\log p_{e,\beta}(s,a)) (ss^)N(0,logpe,β(s,a))。最小化模型误差的等价于如下
argmin ⁡ θ E [ ( s ′ − s ′ ^ ) 2 ] = argmin ⁡ θ E [ − log ⁡ p e , β ( s ^ , a ^ ) ] = argmax ⁡ θ E [ p e , β ( s ^ , a ^ ) ] = argmax ⁡ θ E [ μ β e ( s ^ ) β ( a ^ ∣ s ^ ) ] \begin{aligned}&\quad\underset{\theta}{\operatorname*{argmin}}\mathbb{E}[(s^{\prime}-\hat{s^{\prime}})^{2}]\\&=\quad\underset{\theta}{\operatorname*{argmin}}\mathbb{E}[-\log p_{e,\beta}(\hat{s},\hat{a})]\\&=\quad\underset{\theta}{\operatorname*{argmax}}\mathbb{E}[p_{e,\beta}(\hat{s},\hat{a})]\\&=\quad\underset{\theta}{\operatorname*{argmax}}\quad\mathbb{E}[\mu_{\beta}^{e}(\hat{s})\beta(\hat{a}|\hat{s})]\end{aligned} θargminE[(ss^)2]=θargminE[logpe,β(s^,a^)]=θargmaxE[pe,β(s^,a^)]=θargmaxE[μβe(s^)β(a^s^)]

进一步,文章利用一个VAE近似 μ β e ( s ^ ) β ( a ^ ∣ s ^ ) \mu_{\beta}^{e}(\hat{s})\beta(\hat{a}|\hat{s}) μβe(s^)β(a^s^),通过最小化ELBO实现参数优化
L ( ω ) = E q ω ( z ∣ s , a ) [ − log ⁡ p ω ( s , a ∣ z ) ] + D K L ( q ω ( z ∣ s , a ) ∣ ∣ p ( z ) ) p ( z ) ∼ N ( 0 , 1 ) L(\omega)=\mathbb{E}_{q_{\omega}(z|s,a)}[-\log p_{\omega}(s,a|z)]+D_{KL}(q_{\omega}(z|s,a)||p(z))\\p(z)\sim\mathcal{N}(0,1) L(ω)=Eqω(zs,a)[logpω(s,az)]+DKL(qω(zs,a)∣∣p(z))p(z)N(0,1)
然后通过最小化累计负对数似然,利用该模型限制策略以产生让模型偏差最小化的样本
E [ P ] = ∑ t E q ω ( z ∣ s , a ) , ( s , a ) ∼ π , f [ − log ⁡ p ω ( s , a ∣ z ) ] \mathbb{E}[P]=\sum_t\mathbb{E}_{q_\omega(z|s,a),(s,a)\sim\pi,f}[-\log p_\omega(s,a|z)] E[P]=tEqω(zs,a),(s,a)π,f[logpω(s,az)]

同时,基于离线数据构建集成模型预测奖励函数,使得确定性策略下的模型预测结果为保守的估计
E [ R ] = η min ⁡ k { ∑ t γ t r ( s t , π θ ( s t ) , f k ( s t , π θ ( s t ) ) ) } + ( 1 − η ) 1 K ∑ k [ ∑ t γ t r ( s t , π θ ( s t ) , f k ( s t , π θ ( s t ) ) ) ] \mathbb{E}[R]=\eta\min_k\left\{\sum_t\gamma^tr(s_t,\pi_\theta(s_t),f_k(s_t,\pi_\theta(s_t)))\right\}\\+(1-\eta)\frac1K\sum_k\left[\sum_t\gamma^tr(s_t,\pi_\theta(s_t),f_k(s_t,\pi_\theta(s_t)))\right] E[R]=ηkmin{tγtr(st,πθ(st),fk(st,πθ(st)))}+(1η)K1k[tγtr(st,πθ(st),fk(st,πθ(st)))]
奖励模型与状态转移模型联合作为正则化项优化策略: L ( θ ) = − λ E [ R ] + ( 1 − λ ) E [ P ] L(\theta)=-\lambda\mathbb{E}[R]+(1-\lambda)\mathbb{E}[P] L(θ)=λE[R]+(1λ)E[P]

伪代码

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1665383.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

500元以内的蓝牙耳机品牌怎么选?五大优质品牌汇总

无论是通勤途中、学习间隙还是运动时,一款性能出众、价格亲民的蓝牙耳机都能为我们带来极致的听觉享受,然而面对市场上琳琅满目的品牌和型号,如何选择一款500元以内的优质蓝牙耳机,相信大家都会有这个难题,今天为了帮助…

去哪里找高清视频素材?推荐几个短视频素材免费网站

在数字时代,视频内容的质量直接影响观众的吸引力和留存率。尤其是高清、4K视频素材和可商用素材,它们在提升视觉质量和叙事深度方面起到了至关重要的作用。以下是一些国内外的顶级视频素材网站,它们提供的资源将为您的创作提供极大的支持和灵…

Java里的String使用

1.Java WinForm项目 public static void main(String[] args) {String testString"22";String testString2"1096";String testString3"22";Student studentnew Student();student.Age"22";Test(student.Age);Test2(student.Age); }pu…

【吴恩达机器学习-week2】多个变量的特征缩放和学习率问题

特征缩放和学习率(多变量) 目标 利用上一个实验中开发的多变量例程在具有多个特征的数据集上运行梯度下降探索学习率对梯度下降的影响通过 Z 分数归一化进行特征缩放,提高梯度下降的性能 import numpy as np np.set_printoptions(precisio…

Appwrite 1.5 已在云端发布 - 四月产品更新

Hello, Appwriters👋 以下是四月份的产品更新和一个令人兴奋的消息: Appwrite 1.5 已在 Appwrite Cloud 上发布。这个版本备受期待,我们很高兴终于能与大家分享这个好消息。 为了让您快速复习,您现在可以开始使用云计算平台上的…

视频资源汇聚平台常见的几种接入方式

视频资源汇聚平台 视频汇聚平台可以实现海量资源的接入、汇聚、存储、处理、分析、运维等,平台具备轻量化接入能力,可支持多协议方式接入,包括主流标准协议GB28181、RTSP、ONVIF、RTMP、FLV、WEBSOCKET等,以及厂家私有协议与SDK接…

人脸识别之bbox【det_10g】-ncnn(c++)

模型描述 det_10g是insightface 人脸框图和人脸关键点的分类,最终能够得到人脸框图bbox,分值还有人脸五官(眼x2、鼻子x1、嘴巴x2) 由于我这里没有采用最终结果,通过onnx转换为ncnn,所以后面的步骤结果丢弃…

桌面怎么分类便签 桌面分类便签设置方法

桌面便签,一直是我工作和学习的好帮手。每当灵感闪现或是有待办事项,我都会随手记录在便签上,它们就像我桌面上的小助手,时刻提醒我不要遗漏任何重要事务。 但便签一多,管理就成了问题。一张张五颜六色的便签贴满了我…

autolabor(ROS开发笔记)__1

视频链接:ROS机器人 chapter 1 ROS概述与环境搭建 学习步骤: 1.了解该模块的相关概念 是什么,为什么学,前世今生,发展前景 2.安装官方软件包 具备基本的开发环境,简陋notepad 3.搭建集成开发环境(IDE,Int…

信息检索(35):LEXMAE: LEXICON-BOTTLENECKED PRETRAINING FOR LARGE-SCALE RETRIEVAL

LEXMAE: LEXICON-BOTTLENECKED PRETRAINING FOR LARGE-SCALE RETRIEVAL 标题摘要1 引言2 相关工作3 LEXMAE:词典瓶颈屏蔽自动编码器3.1 语言建模编码器3.2 词典瓶颈模块3.3 弱化掩蔽式解码器3.4 词汇加权检索器的预训练目标和微调 4 实验4.1 主要评估4.2 效率分析与…

[算法][单调栈] [leetcode]316. 去除重复字母

去除重复字母 给你一个字符串 s ,请你去除字符串中重复的字母,使得每个字母只出现一次。需保证 返回结果的 字典序最小(要求不能打乱其他字符的相对位置)。 字典序最小: 考虑字符串 a 与 字符串 b,如果字…

JavaWeb:VsCode创建Web项目

一、Tomcat 先在官网上下载tomcat,解压到自己设定的文件夹。 配置环境变量 path变量配置 系统变量配置 验证服务器开机 二、Maven Maven 是一个基于 Java 的项目管理工具,可以对 Java 项目进行构建、依赖管理,可以自动下载所需要的包&#x…

关于各类软件下载及使用

文章目录 一、VS Code1、下载2、安装3、使用 二、Dev-C1、下载2、安装3、使用 三、VS20191、下载2、安装3、使用 四、IDEA1、下载2、安装3、使用 五、Fiddler1、下载1.1 官网下载1.2 文件下载 2、安装3、使用 一、VS Code 1、下载 2、安装 3、使用 二、Dev-C 1、下载 2、…

【蚂蚁笔试题汇总】2024-05-11-蚂蚁春招笔试题-三语言题解(CPP/Python/Java)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新蚂蚁近期的春秋招笔试题汇总~ 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢&#x1f49…

《超越代码生成:Agentic Reasoning探索研发智能化》——【研发效能·创享大会】

【研发效能创享大会】是由IDCF社区独家举办,这个会议主要聚焦于技术和研发管理,旨在为社区成员提供一个学习与交流的平台,分享技术经验,交流行业见解,促进技术合作与创新,发现并培养人才,推动软…

新能源汽车动力电池浸没式冷却方案介绍与未来趋势

前言 新能源汽车的兴起标志着汽车工业的一次革命,其中动力电池的设计与性能成为了关键。浸没式冷却方案作为一种新兴的技术,为动力电池系统提供了有效的散热解决方案,其在未来的发展趋势备受关注。 一 动力电池浸没式冷却方案介绍 首先&am…

攻防世界-web-command_execution

题目: 原理: | 的作用为将前一个命令的结果传递给后一个命令作为输入 &&的作用是前一条命令执行成功时,才执行后一条命令 方法一: 第一步: 1.打开浏览器,在文本框内输入127.0.0.1 | find / -name…

Qt : 一个超高人气的Node编辑器

真的是很不错的Node编辑器开源项目,基于Qt的图元/场景/视图框架,能做点啥不用我多说。 git地址:https://github.com/paceholder/nodeeditor

分布式链路追踪 Zipkin+Sleuth(8)

项目的源码地址 Spring Cloud Alibaba 工程搭建(1) Spring Cloud Alibaba 工程搭建连接数据库(2) Spring Cloud Alibaba 集成 nacos 以及整合 Ribbon 与 Feign 实现负载调用(3) Spring Cloud Alibaba Ribbo…

前端笔记-day02

文章目录 01-无序列表02-有序列表03-定义列表04-表格06-表格-合并单元格07-表单-input08-表单-input占位文本09-表单-单选框10-表单-上传多个文件11-表单-多选框12-表单-下拉菜单13-表单-文本域14-表单-label标签15-表单-按钮16-无语义-span和div17-字体实体19-注册登录页面 01…