Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling

news2025/4/26 21:03:02

paper

基于HIM的离线RL算法，解决基于序列模型的离线强化学习算法缺乏对序列拼接能力。

Intro

文章提出了ContextFormer，旨在解决决策变换器（Decision Transformer, DT）在轨迹拼接（stitching）能力上的不足。轨迹拼接是离线RL中一个重要的能力，它允许算法通过组合次优的轨迹片段来获得更优的策略。ContextFormer通过集成基于上下文信息的模仿学习（Imitation Learning, IL）和序列建模，模仿有限数量专家轨迹的表示，来实现次优轨迹片段的拼接。实验结果表明，ContextFormer在多模仿学习设置下具有竞争力，并且在与其他DT变体的比较中表现出色。

两个定义

在这里插入图片描述
上述两个定义分别给出基于隐变量的条件序列模型建模方式，以及使用专家序列，通过度量经过embedding后的变量距离，使得待优化策略应满足靠近专家策略，远离次优轨迹策略。对于定义二有如下形式化的目标来优化上下文隐变量表征
$\mathcal{J}_{\mathbf{z}^{*}}=\operatorname*{min}_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|]\\-\mathbb{E}_{\hat{\tau}\sim\hat{\pi}}[\|\mathbf{z}^{*}-I_{\phi}(\hat{\tau})\|],$

Method

在这里插入图片描述

ContextFormer的训练过程包括两个关键模型：Hindsight Information Extractor $I_{\phi}$ 和Contextual Policy。Hindsight Information Extractor使用BERT作为编码器，并采用VQ-VAE（Vector Quantization Variational Autoencoder）损失来训练。Contextual Policy则是一个基于潜在条件的序列模型（DT），通过上下文信息作为目标来优化策略接近专家策略。

根据定义4.1建模序列模型以及 $I_{\phi}$ ，通过监督学习方式优化上下文策略 $\pi_z$ 以及HI extractor。
$\mathcal{J}_{\pi_{\mathbf{z}},I_{\phi}}=\mathbb{E}_{\tau\sim(\pi^{*},\hat{\pi})}[\|\pi_{\mathbf{z}}(\cdot|I_{\phi}(\tau),\mathbf{s}_{0},\mathbf{a}_{0},\cdots,I_{\phi}(\tau),\mathbf{s}_{t})-\mathbf{a}_{t}\|], (4)$
其中 $\hat{\pi}\mathrm{~and~}\pi^{*}$ 分别表示次优策略以及专家策略。同时，基于定义4.2对 $I_\phi$ 以及上下文embedding $z^*$ 进行优化。
$\mathcal{J}_{\mathbf{z}^{*},I_{\phi}}=\min_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\hat{\tau}\sim\hat{\pi}(\tau),\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|-||\mathbf{z}^{*}-I_{\phi}(\hat{\tau})||] （5）$