ICML 2023 Poster
paper
Intro
文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。
Method
原始的RL目标是最大化累计奖励:
π
∗
=
arg
max
π
J
R
(
π
)
:
=
E
[
∑
t
=
0
∞
γ
t
r
t
]
\pi^*=\arg\max_\pi J_R(\pi):=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tr_t\right]
π∗=argmaxπJR(π):=E[∑t=0∞γtrt]。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标
max
π
J
R
+
I
(
π
,
α
)
=
max
π
E
[
∑
t
=
0
H
γ
t
(
r
t
−
α
H
t
X
(
π
∣
π
ˉ
)
)
]
\max_{\pi}J_{R+I}(\pi,\alpha)=\max_{\pi}\mathbb{E}\left[\sum_{t=0}^{H}\gamma^{t}(r_{t}-\alpha H_{t}^{X}(\pi|\bar{\pi}))\right]
πmaxJR+I(π,α)=πmaxE[t=0∑Hγt(rt−αHtX(π∣πˉ))]
其中
H
t
X
(
π
∣
π
ˉ
)
=
−
E
a
∼
π
(
⋅
∣
τ
t
)
[
log
π
ˉ
(
a
∣
o
t
T
)
]
H_t^X(\pi|\bar{\pi})=-\mathbb{E}_{a\sim\pi(\cdot|\tau_t)}[\log\bar{\pi}(a|o_t^T)]
HtX(π∣πˉ)=−Ea∼π(⋅∣τt)[logπˉ(a∣otT)]。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。形式化该问题便得到算法核心的优化目标
max
π
J
R
+
I
(
π
,
α
)
s.t.
J
R
(
π
)
≥
J
R
(
π
R
)
\max_\pi J_{R+I}(\pi,\alpha)\quad\text{s.t.}\quad J_R(\pi)\geq J_R(\pi_R)
πmaxJR+I(π,α)s.t.JR(π)≥JR(πR)
其中
π
R
\pi_R
πR是只采用任务原始奖励所优化的辅助策略。进一步转化为拉格朗日对偶问题
min
λ
≥
0
max
π
[
J
R
+
I
(
π
,
α
)
+
λ
(
J
R
(
π
)
−
J
R
(
π
R
)
)
]
=
min
λ
≥
0
max
π
[
(
1
+
λ
)
J
R
+
I
(
π
,
α
1
+
λ
)
−
λ
J
R
(
π
R
)
]
\min_{\lambda\geq0}\max_{\pi}\left[J_{R+I}(\pi,\alpha)+\lambda\left(J_{R}(\pi)-J_{R}(\pi_{R})\right)\right]=\\\min_{\lambda\geq0}\max_{\pi}\left[(1+\lambda)J_{R+I}(\pi,\frac{\alpha}{1+\lambda})-\lambda J_{R}(\pi_{R})\right]
λ≥0minπmax[JR+I(π,α)+λ(JR(π)−JR(πR))]=λ≥0minπmax[(1+λ)JR+I(π,1+λα)−λJR(πR)]
解决该问题分两步,第一步优化策略
π
\pi
π以及
π
R
\pi_R
πR。然后通过梯度下降优化乘子
λ
\lambda
λ
λ
n
e
w
=
λ
o
l
d
−
μ
[
J
R
(
π
)
−
J
R
(
π
R
)
]
\lambda_{new}=\lambda_{old}-\mu[J_R(\pi)-J_R(\pi_R)]
λnew=λold−μ[JR(π)−JR(πR)]
其中
J
R
(
π
)
−
J
R
(
π
R
)
=
E
(
s
,
a
,
t
)
∼
ρ
[
γ
t
(
A
π
R
(
s
,
a
)
−
A
π
(
s
,
a
)
)
]
J_R(\pi)-J_R(\pi_R)=\mathbb{E}_{(s,a,t)\thicksim\rho}[\gamma^t(A_{\pi_R}(s,a)-A_\pi(s,a))]
JR(π)−JR(πR)=E(s,a,t)∼ρ[γt(AπR(s,a)−Aπ(s,a))]
这个更新规则很直观:如果融合专家优化得到的策略 π \pi π比辅助策略 π R \pi_R πR实现了更多的任务奖励,则 λ \lambda λ减少,增加了 α 1 + λ \frac{\alpha}{1+\lambda} 1+λα,使得策略优化更依赖于下一次迭代中的专家。否则,如果 辅助策略 π R \pi_R πR比策略 π \pi π获得更高的奖励,则 λ 的增加会降低教师的重要性。
伪代码
results
问题
伪代码第12行采用了梯度上升。