Offline ：Adversarially Trained Actor Critic for Offline Reinforcement Learning

news2025/4/5 21:07:21

ICML 2022
paper
code
基于Stackelberg游戏博弈形式，对抗的学习actor与critic

Intro

Method

将离线RL的Stackelberg博弈表述为一个双层优化问题，学习者策略π∈Π为领导者，批评家f∈F为跟随者:
$\widehat{\pi}^{*}\in\operatorname*{argmax}_{\pi\in\mathbf{II}}\mathcal{L}_{\mu}(\pi,f^{\pi})~~~~\text{(1)}\\\mathrm{s.t.}\quad f^{\pi}\in\operatorname*{argmin}\mathcal{L}_{\mu}(\pi,f)+\beta\mathcal{E}_{\mu}(\pi,f)$
其中 $\beta>0$ ，并且
$\mathcal{L}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[f(s,\pi)-f(s,a)]~~~~\text{(2)}\\\mathcal{E}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[((f-\mathcal{T}^{\pi}f)(s,a))^{2}].~~~~\text{(3)}$
其中 $\mathcal{L}_{\mu}$ 是问题 $(1-\gamma)(J(\pi)-J(\mu)))$ 的下界，最大化下界从而保证目标策略优于行为策略。
在这里插入图片描述

伪代码

在这里插入图片描述
利用离线数据对 $\mathcal{L}_{\mu}\mathrm{~以及~}\mathcal{E}_{\mu}$ 分别做如下估计
$\mathcal{L}_{\mathcal{D}}(f,\pi):=\mathbb{E}_{\mathcal{D}}\left[f(s,\pi)-f(s,a)\right],$
$\begin{aligned}\mathcal{E}_{\mathcal{D}}(f,\pi)&:=\mathbb{E}_{\mathcal{D}}\left[\left(f(s,a)-r-\gamma f(s^{\prime},\pi)\right)^{2}\right]\\&-\min_{f^{\prime}\in\mathcal{F}}\mathbb{E}_{\mathcal{D}}\left[\left(f^{\prime}(s,a)-r-\gamma f(s^{\prime},\pi)\right)^{2}\right].\end{aligned}$

对于Critic，为了避免价值估计不稳定，采用
$\mathcal{E}_{\mathcal{D}}^w(f,\pi):=(1-w)\mathcal{E}_{\mathcal{D}}^{\mathrm{td}}(f,f,\pi)+w\mathcal{E}_{\mathcal{D}}^{\mathrm{td}}(f,\bar{f}_{\mathrm{min}},\pi)$
其中 $w\in[0,1],\mathcal{E}_{\mathcal{D}}^{\mathrm{td}}(f,f^{\prime},\pi):=\mathbb{E}_{\mathcal{D}}[(f(s,a)-r-\gamma f^{\prime}(s^{\prime},\pi))^{2}],\mathrm{~and~}\bar{f}_{\mathrm{min}}(s,a):=\min_{i=1,2}\bar{f}_{i}(s,a).$
对Actor的训练采用类似SAC的优化方式，但是并没采用 $\operatorname*{min}_{i=1,2}f_{i}(s,a)$ , 而是采用TD3选择一个 $f$ 作为更新策略的Q。