ICML 2024
paper
code
Intro
O2O如何避免悲观学习导致sample efficiency较低,亦或者乐观估计导致的performance drop。本文提出贝叶斯准则,指导在线学习过程中的探索和利用。通过构建一个Q值相关的信念分布,agent可以对不同策略的优劣有一个概率性的评估。
Method
offline pretrain
离线训练阶段,采用集成的TD3+BC的方法学习多个Q值函数与策略函数
其中,还采用一个Bernoulli分布
{
M
l
}
l
=
1
L
,
M
l
∈
{
0
,
1
}
N
\{M_l\}_{l=1}^{L}, M_l\in\{0,1\}^N
{Ml}l=1L,Ml∈{0,1}N对样本进行mask,
M
l
M_l
Ml是一个长度为N的由0,1构成的向量。
(这里与伪代码冲突,伪代码中的N应该是L??)
Online
在线阶段,则是由训练的L个Q值函数结果softmax,将结果看作概率分布采样对应的策略以及Q
同时,离线数据集中的数据也将纳入在线训练,与在线数据按照1:1比例采样。
同样,伪代码中的N应改为L