强化学习学习（四）Model-Based Reinforcement Learning 从原理到改进分析

news2026/2/14 20:15:10

文章目录

- Model-Based RL
- - - Basics of Model-based reinforcement learning
    - Uncertainty of Model-based RL
    - Use uncertainty in Model-based RL
    - State space (latent space) models

Model-Based RL

Basics of Model-based reinforcement learning

Model-based reinforcement learning: If we know $f(s_t,a_t)=s_{t+1}$ or $p(s_{t+1}|s_t,a_t)$ in the stochastic case, we can plan it better.
So let’s learn $f(s_t,a_t)$ from data, and then plan through it!

Model-based reinforcement learning version 0.5:

run base policy $\pi_0(s_t|s_t)$ (e.g., random policy) to collect some data $\mathcal{D}=\{(s,a,s')_i\}$
learn dynamics model $f (s, a)$ to minimize $\sum_i||f(s_i,a_i)-s'_i||^2$ (监督学习)
plan through model $f (s, a)$ to choose actions
但这个version 0.5并不适应于一些场景：要拟合的模型参数过多的时候，如神经网络这种高容量的模型

Model-based reinforcement learning version 1.0:

run base policy $\pi_0(s_t|s_t)$ (e.g., random policy) to collect some data $\mathcal{D}=\{(s,a,s')_i\}$
learn dynamics model $f (s, a)$ to minimize $\sum_i||f(s_i,a_i)-s'_i||^2$ (监督学习)
plan through model $f (s, a)$ to choose actions
execute those actions and add the resulting data ${(s,a,s')_i\}$ to $\mathcal{D}$
重复2-4
改变的点，就是不断增加新的数据，能够变得可行一些了。
Can we do better?

如果我们的model有一些错误，如在实际上车的方向盘有一点偏左。v 1.0版本的算法能够修改model去纠正这个错误，但是需要过很长时间，因为我们用一个 $f (s, a)$ 执行了很多步以后才再迭代，我们需要来个更快纠错的算法：当发生错误的时候，立刻replan——先看一下采取action实际导致的state，随后问一下model这样的是不是想要的，而不是继续执行以前的

Model-based reinforcement learning version 1.5:（模型预测控制）

run base policy $\pi_0(s_t|s_t)$ (e.g., random policy) to collect some data $\mathcal{D}=\{(s,a,s')_i\}$
learn dynamics model $f (s, a)$ to minimize $\sum_i||f(s_i,a_i)-s'_i||^2$ (监督学习)
plan through model $f (s, a)$ to choose actions
execute the fist planned action, observe resulting state $s^{'}$ 。只执行第一个动作，看看实际的结果是什么样的
append $(s, a, s^{'})$ to dataset $\mathcal{D}$
立刻replan，重复3-5
重复2-5
所以整个方法的核心思想就是：我先试运行一部action看看效果怎么样（如果发现了汽车再偏左），那就重新plan得到action。实际上，重新plan的代价非常高，所以在第3步的时候，步伐小一些。

Uncertainty of Model-based RL

想象现在有这样一个场景：你训练一个RL模型在悬崖边行走，如果我们的 $f (s, a)$ 不对下一个具体状态进行预测而是下一个状态可能的分布，就像你会估计自己还有多远就会掉下悬崖，那么你更有可能到达紧挨着的边缘。如果你保持较小范围的不确定性，对自己的模型有很大的信心，那你会努力靠近；如果你有较大的不确定性，那么就会保持远离悬崖，因为更近的状态不确定。

the model is certain about the data, but we are not certain about the model

我们不去预测 $p(\theta|D)$ 最大值的 $\theta$ 而是试图直接预测它的分布， $p(\theta|D)$ 意味着模型的不确定性。随后我们在得到下一个状态的时候，就不是根据最大的 $\theta$ ，而是利用它的分布去求一个期望。
$\int p(s_{t+1}|s_t,a_t,\theta)p(\theta|D)d\theta$
举例子：贝叶斯神经网络

以往情况下，节点之间的连接都是确定的数，但是如果我们将它换成带有不确定性的分布，这个神经网络本身就具有了不确定性。
当然，我们去得到这个维度很高的整个模型的参数分布的比较困难的，因此进行了一些简化：我们用每条边上的分布参数乘积去拟合，这默认了边上的分布之间是独立的：
$\begin{align}p(\theta|D)=\prod_ip(\theta_i|D)\\ p(\theta_i|D)=\mathcal{N}(\mu_i,\sigma_i)\end{align}$
边上的权重参数分布我们用高斯分布去拟合：以往的一个数的权重，现在用两个参数的分布函数来刻画不确定性， $\mu_i$ 代表确定的参数值， $\sigma_i$ 代表对这个参数的不确定性。

Bootstrap ensembles

实际上，我们需要这些模型相对独立的训练，SGD这种对数据集的随机采样就能够满足了。让他们投票下一个state是什么，他们之间投票的误差就能够实现一些不确定性估计。

Use uncertainty in Model-based RL

Before: $J(a_1,\dots,a_H)=\sum_{t=1}^Hr(s_t,a_t)$ , where $s_{t+1}=f(s_t,a_t)$ ， $a_1,\dots,a_H$ 表示一个动作序列
Now: $J(a_1,\dots,a_H)=\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^Hr(s_{t,i},a_t)$ , where $s_{t+1,i}=f_i(s_{t,i},a_t)$
一般情况下，对于候选的动作序列 $a_1,\dots,a_H$ ：

采样模型 $\theta\sim p(\theta|D)$ ，如果用了上面的Bootstrap 就想到于从N个模型中随机选一个
在每一个时间步长t, 采样状态 $s_{t+1}\sim p(s_{t+1}|s_t,a_t,\theta)$ ，
计算所有时间上的奖励综合 $R=\sum_tr(s_t,a_t)$
重复1-3计算平均奖励

State space (latent space) models

我们需要学： $p(s_t|s_t)$ ——观测模型 observation model
$p(s_{t+1}|s_t,a_t)$ ——状态转移模型 dynamics model
$p(r_{t}|s_t,a_t)$ ——奖励模型 reward model

standard (fully oberved) model:
$\max_{\phi}\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T\log p_{\phi}(s_{t+1,i}|s_{t,i},a_{t,i})$
现在我们有了一个潜在空间latent space model:
$\max_{\phi}\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^TE[\log p_{\phi}(s_{t+1,i}|s_{t,i},a_{t,i})+\log p_{\phi}(o_{t,i}|s_{t,i})]$
如果我们知道状态s_t，上面这个式子会很容易，但问题是我们不知道，因此我们只能用未来状态的期望：expectation w.r.t. $(s_t,s_{t+1})\sim p(s_t,s_{t+1}|o_{1:T},a_{1:T})$
我们想学习后验概率approximate posterior $q_{\psi}(s_t|o_{1:t},a_{1:t})$ ，这个也是一个神经网络encoder，给我们基于当前观测和动作，下一个状态的分布，这个神经网络有很多选择，我们在这里选择最简单的一个 $q_{\psi}(s_t|o_t)$ ，这代表状态几乎可以从观测推断出来，因此它是一个确定编码器deterministic，expectation w.r.t. $s_t\sim q_{\psi}(s_t|o_t),s_{t+1}\sim q_{\psi}(s_{t+1}|o_{t+1})$ 也就是说我们有 $q_{\psi}(s_t|o_t)=\delta(s_t=q_{\psi}(o_t))\Rightarrow s_t=g_{\psi}(o_t)$ ，目标函数变成：
$\max_{\phi}\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T\log p_{\phi}(g_{\psi}(o_{t+1,i})|g_{\psi}(o_{t,i},a_{t,i})+\log p_{\phi}(o_{t,i}|g_{\psi}(o_{t,i}))$
整个上面的这些东西，都是为了在不知道状态的情况下，实现我们的优化，现在这个式子是可微可以用反向传播求解了。