ICML 2022
paper
code
基于Stackelberg游戏博弈形式,对抗的学习actor与critic
Intro
Method
将离线RL的Stackelberg博弈表述为一个双层优化问题,学习者策略π∈Π为领导者,批评家f∈F为跟随者:
π
^
∗
∈
argmax
π
∈
I
I
L
μ
(
π
,
f
π
)
(1)
s
.
t
.
f
π
∈
argmin
L
μ
(
π
,
f
)
+
β
E
μ
(
π
,
f
)
\widehat{\pi}^{*}\in\operatorname*{argmax}_{\pi\in\mathbf{II}}\mathcal{L}_{\mu}(\pi,f^{\pi})~~~~\text{(1)}\\\mathrm{s.t.}\quad f^{\pi}\in\operatorname*{argmin}\mathcal{L}_{\mu}(\pi,f)+\beta\mathcal{E}_{\mu}(\pi,f)
π
∗∈π∈IIargmaxLμ(π,fπ) (1)s.t.fπ∈argminLμ(π,f)+βEμ(π,f)
其中
β
>
0
\beta>0
β>0,并且
L
μ
(
π
,
f
)
:
=
E
μ
[
f
(
s
,
π
)
−
f
(
s
,
a
)
]
(2)
E
μ
(
π
,
f
)
:
=
E
μ
[
(
(
f
−
T
π
f
)
(
s
,
a
)
)
2
]
.
(3)
\mathcal{L}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[f(s,\pi)-f(s,a)]~~~~\text{(2)}\\\mathcal{E}_{\mu}(\pi,f):=\mathbb{E}_{\mu}[((f-\mathcal{T}^{\pi}f)(s,a))^{2}].~~~~\text{(3)}
Lμ(π,f):=Eμ[f(s,π)−f(s,a)] (2)Eμ(π,f):=Eμ[((f−Tπf)(s,a))2]. (3)
其中
L
μ
\mathcal{L}_{\mu}
Lμ是问题
(
1
−
γ
)
(
J
(
π
)
−
J
(
μ
)
)
)
(1-\gamma)(J(\pi)-J(\mu)))
(1−γ)(J(π)−J(μ)))的下界,最大化下界从而保证目标策略优于行为策略。
伪代码
利用离线数据对
L
μ
以及
E
μ
\mathcal{L}_{\mu}\mathrm{~以及~}\mathcal{E}_{\mu}
Lμ 以及 Eμ分别做如下估计
L
D
(
f
,
π
)
:
=
E
D
[
f
(
s
,
π
)
−
f
(
s
,
a
)
]
,
\mathcal{L}_{\mathcal{D}}(f,\pi):=\mathbb{E}_{\mathcal{D}}\left[f(s,\pi)-f(s,a)\right],
LD(f,π):=ED[f(s,π)−f(s,a)],
E
D
(
f
,
π
)
:
=
E
D
[
(
f
(
s
,
a
)
−
r
−
γ
f
(
s
′
,
π
)
)
2
]
−
min
f
′
∈
F
E
D
[
(
f
′
(
s
,
a
)
−
r
−
γ
f
(
s
′
,
π
)
)
2
]
.
\begin{aligned}\mathcal{E}_{\mathcal{D}}(f,\pi)&:=\mathbb{E}_{\mathcal{D}}\left[\left(f(s,a)-r-\gamma f(s^{\prime},\pi)\right)^{2}\right]\\&-\min_{f^{\prime}\in\mathcal{F}}\mathbb{E}_{\mathcal{D}}\left[\left(f^{\prime}(s,a)-r-\gamma f(s^{\prime},\pi)\right)^{2}\right].\end{aligned}
ED(f,π):=ED[(f(s,a)−r−γf(s′,π))2]−f′∈FminED[(f′(s,a)−r−γf(s′,π))2].
对于Critic,为了避免价值估计不稳定,采用
E
D
w
(
f
,
π
)
:
=
(
1
−
w
)
E
D
t
d
(
f
,
f
,
π
)
+
w
E
D
t
d
(
f
,
f
ˉ
m
i
n
,
π
)
\mathcal{E}_{\mathcal{D}}^w(f,\pi):=(1-w)\mathcal{E}_{\mathcal{D}}^{\mathrm{td}}(f,f,\pi)+w\mathcal{E}_{\mathcal{D}}^{\mathrm{td}}(f,\bar{f}_{\mathrm{min}},\pi)
EDw(f,π):=(1−w)EDtd(f,f,π)+wEDtd(f,fˉmin,π)
其中
w
∈
[
0
,
1
]
,
E
D
t
d
(
f
,
f
′
,
π
)
:
=
E
D
[
(
f
(
s
,
a
)
−
r
−
γ
f
′
(
s
′
,
π
)
)
2
]
,
a
n
d
f
ˉ
m
i
n
(
s
,
a
)
:
=
min
i
=
1
,
2
f
ˉ
i
(
s
,
a
)
.
w\in[0,1],\mathcal{E}_{\mathcal{D}}^{\mathrm{td}}(f,f^{\prime},\pi):=\mathbb{E}_{\mathcal{D}}[(f(s,a)-r-\gamma f^{\prime}(s^{\prime},\pi))^{2}],\mathrm{~and~}\bar{f}_{\mathrm{min}}(s,a):=\min_{i=1,2}\bar{f}_{i}(s,a).
w∈[0,1],EDtd(f,f′,π):=ED[(f(s,a)−r−γf′(s′,π))2], and fˉmin(s,a):=mini=1,2fˉi(s,a).
对Actor的训练采用类似SAC的优化方式,但是并没采用
min
i
=
1
,
2
f
i
(
s
,
a
)
\operatorname*{min}_{i=1,2}f_{i}(s,a)
mini=1,2fi(s,a), 而是采用TD3选择一个
f
f
f作为更新策略的Q。