Chapter 7 n-step Bootstrapping

本章的n-step TD方法是前两章的Monte Carlo 方法和one-step TD方法的推广。它使自举法在多个时间步内进行，解决了前两章中的更新时间步不灵活的问题。

7.1 n-step TD Prediction

在用策略 $\pi$ 下生成的采样回合序列来估计 $v_{\pi}$ 时，Monte Carlo方法根据从某一个状态开始到终止状态的整个奖励序列来对这个状态进行价值更新。而one-step TD方法则只根据下一个奖励，用下一个后继状态的价值作为其余奖励的近似的基础上进行自举更新。

所以，介于两者之间的方法根据多个中间时刻的奖励来进行更新：多于一个时刻的奖励，但又不是到终止状态的所有奖励。比如，two-step基于接下来的两步奖励和两步之后的状态的价值估计值。下图是 $v_{\pi}$ 的一个n-step更新的回溯图，最左边是one-step TD更新，最右边是Monte Carlo更新。
在这里插入图片描述

n-step更新属于TD方法，因为它们仍然根据一个状态与后继状态的估计值的差异来进行状态的更新。但这里的后继状态是n步后的状态，而不是后一步状态。将时序差分量被扩展成n步的方法称为n-step TD 方法。

现在使用更正式的方式来讨论状态的价值估计值的更新。假设有“状态-奖励”序列 $S_t,R_{t+1},S_{t+1},R_{t+2},\cdots,R_T,S_T$ （这里为了简便，我们先忽略动作），我们的目的是更新状态 $S_t$ 的价值估计。在Monte Carlo的更新中， $v_{\pi}(S_t)$ 的估计值会沿着完整回报的方向进行更新，即（式中的T是终止状态的时刻， $G_t$ 是更新的目标）：
$G_t \ \dot{=} \ R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + \cdots + \gamma^{T-t-1} R_T$
而对于one-step TD的更新的目标为下式，即用第一个奖励值加上折扣后继状态的价值估计，称其为one-step return：
$G_{t:t+1} \ \dot{=} \ R_{t+1} + \gamma V_t(S_{t+1})$
上式中， $V_t: \mathcal{S} \rightarrow \mathbb{R}$ 是在t时刻 $v_{\pi}$ 的估计值。 $G_{t:t+1}$ 的下标表示它是一种截断回报，它由当前时刻到时刻t+1的累积奖励 $R_{t+1}$ 和折扣估计 $\gamma V_t(S_{t+1})$ 组成， $\gamma V_t(S_{t+1})$ 很明显是代替了完整回报中的 $\gamma R_{t+2} + \gamma^2R_{t+3} + \cdots + \gamma^{T-t-1} R_T$ 。

我们将这种想法扩展到两步的情况，两步更新的目标被称为two-step return：
$G_{t:t+2} \ \dot{=} \ R_{t+1} + \gamma R_{t+2} + \gamma^2 V_{t+1}(S_{t+2})$
显然，两步更新中的 $\gamma V_{t+1}(S_{t+2})$ 替代了完整回报中的 $\gamma^2R_{t+3} + \gamma^3R_{t+4} + \cdots + \gamma^{T-t-1} R_T$ 。类似地，对于n-step更新的n-step return为:
$G_{t:t+n} \ \dot{=} \ R_{t+1} + \gamma R_{t+2} + \cdots + \gamma^{n-1}R_{t+n} + \gamma^n V_{t+n-1}(S_{t+n})$
其中， $\ge 1$ ， $\le t < T-n$ ，如果 $\ge T$ (即n-step return 超出了终止状态)，则其余部分为0，即n-step回报等于完整的回报。

n-step TD算法：基于n-step回报的状态价值函数的更新算法为：
$V_{t+n}(S_t) \dot{=} V_{t+n-1}(S_t) + \alpha [G_{t:t+n} - V_{t+n-1}(S_t)], \ \ 0 \le t < T \ \qquad (7.2)$
而对于任意其他状态s（ $\neq S_t$ ）的价值估计保持不变： $V_{t+n}(s) = V_{t+n-1}(s)$ 。注意，在每一个回合的前n-1个时刻，价值函数不会被更新，为了弥补这个损失，在终止时刻后还将执行对应次数的更新，完整的伪代码如下图：

在这里插入图片描述

n-step回报的一个重要的性质是：在最坏情况下，它们的期望作为 $v_{\pi}$ 的估计可以保证比 $V_{t+n-1}$ 更好，也就是说n-step回报的期望的最坏误差能够保证不大于 $V_{t+n-1}$ 最坏误差的 $\gamma^n$ 倍：
$\mathop{max}_s \left\lvert \mathbb{E}_{\pi}[G_{t:t+n}|S_t=s] - v_{\pi}(s) \right\rvert \le \gamma^n \mathop{max}_s \left| V_{t+n-1}(s) - v_{\pi}(s) \right|$
上式中， $\ge 1$ ，被称为n-step回报的误差减少性质（error reduction property），因为误差减少性质，可以证明在合适的条件下，n-step方法可以收敛到正确的预测。

7.2 n-step Sarsa

Sarsa算法的n-step版本被称为n-step Sarsa，在第6章的初始版本被称为one-step Sarsa，或Sarsa(0)。

n-step Sarsa方法的回溯图如下图（注意对比一下本章的第一个图，类似但是Sarsa的首末两端都是动作）。
在这里插入图片描述

这里用动作价值估计来重新定义一下 n-step回报：
$G_{t:t+n} \ \dot{=} \ R_{t+1} + \gamma R_{t+2} + \cdots + \gamma^{n-1}R_{t+n} + \gamma^n Q_{t+n-1}(S_{t+n}, A_{t+n}), n \ge 1, 0 \le t < T-n \ \qquad (7.4)$
上式中，当 $\ge T$ 时，有 $G_{t:t+n} \dot{=} G_t$ 。

n-step Sarsa算法：
$Q_{t+n}(S_t,A_t) \dot{=} Q_{t+n-1}(S_t, A_t) + \alpha [G_{t:t+n} - Q_{t+n-1}(S_t, A_t)], \ \ 0 \le t < T \ \qquad (7.5)$
而对于任意其他状态s（ $\neq S_t$ ）或动作a（ $\neq A_t$ ）的价值估计保持不变： $Q_{t+n}(s,a) = Q_{t+n-1}(s,a)$ 。其伪代码如下图。

在这里插入图片描述

公式（7.4）Sarsa的n-step回报可以被写作TD error的形式：
$G_{t:t+n} = Q_{t-1}(S_t, A_t) + \mathop{\sum}_{k=t}^{min(t+n, T)-1} \gamma^{k-t} [R_{k+1} + \gamma Q_k(S_{k+1}, A_{k+1}) - Q_{k-1}(S_k, A_k)] \ \qquad (7.6)$

n-step Expected Sarsa的回溯图如下图，它的更新公式与公式（7.5）一致，只是它的n-step回报定义如下：
$G_{t:t+n} \ \dot{=} \ R_{t+1} + \gamma R_{t+2} + \cdots + \gamma^{n-1}R_{t+n} + \gamma^n \overline{V}_{t+n-1}(S_{t+n}),\ t+n < T \ \qquad (7.7)$
上式中，当 $\ge T$ 时，有 $G_{t:t+n} \dot{=} G_t$ ，而 $\overline{V}_{t}(s)$ 是状态s的期望近似价值（expected approximate value），它采用了在目标策略下，时刻t的动作价值估计来计算：
$\overline{V}_{t}(s) \ \dot{=} \ \sum_a \pi(a|s)Q_t(s, a),\ \ for\ all\ s\in \mathcal{S} \ \qquad (7.8)$
如果s是终止状态，那么期望近似价值被定义为0。

在这里插入图片描述

7.3 n-step Off-policy Learning

在本书的5.5节中学习过off-policy有两个策略：目标策略 $\pi$ 和行为策略 $b$ ，为了使用遵循策略 $b$ 得到的数据，我们必须考虑两种策略之间的不同，使用它们对应动作的相对概率。对于off-policy的n-step TD版本，对于时刻t的更新，可以使用 $\rho_{t:t+n-1}$ 来加权：
$V_{t+n}(S_t) \dot{=} V_{t+n-1}(S_t) + \alpha \ \rho_{t:t+n-1}[G_{t:t+n} - V_{t+n-1}(S_t)], \ \ 0 \le t < T \ \qquad (7.9)$
$\rho_{t:t+n-1}$ 是重要度采样率(importance sampling ratio)，是两种策略下采取 $A_t$ 到 $A_{t+n-1}$ 的n个动作的相对概率（参考本书的5.5节的式5.3）。
$\rho_{t:h}\ \dot{=} \ \prod_{k=t}^{min(h, T-1)} \frac {\pi(A_k|S_t)}{b(A_k|S_t)} \qquad (7.10)$
如果策略 $\pi$ 永远都不会采取某个特定动作（ $\pi(A_k|S_k)=0)$ ，则n-step回报的权重应该为0，即完全忽略。另一方面，如果某个动作在策略 $\pi$ 下被采取的概率远远大于行为策略b，那么将增加对应回报的权重。

如果两种策略实际上是一样的，那么重要度采样率总是为1，故更新是之前的n步时序差分学习方法的推广，并且可以完整代替它，前面的n-step Sarsa更新可以用下面的off-policy形式代替，对于 $\le t <T$ ：
$Q_{t+n}(S_t, A_t) \ \dot{=} \ Q_{t+n-1}(S_t, A_t) + \alpha \rho_{t+1:t+n} [G_{t:t+n} - Q_{t+n-1}(S_t, A_t)], \ \qquad (7.11)$
注意上式中的重要度采样率，其起点和终点比公式（7.9）都要晚一步，因为这里我们更新的是“状态-动作”对：不关心这些动作有多大概率被选择，既然我们已经选择了这些动作，那么我们想要的是充分学习发生的事情，通过后继动作的重要度采样率来实现的。

在这里插入图片描述

对于off-policy版本的n-step 期望Sarsa使用与上式一样的更新公式，不过重要度采样率是 $\rho_{t+1:t+n-1}$ ，并且使用式（7.7）的期望Sarsa版本的n-step回报。这是因为在期望Sarsa方法中，所有可能的动作都会在最后一个状态中被考虑，实际采取的那个具体动作对期望Sarsa的计算没有影响，所以不需要去修正。

7.4 *Per-decision Methods with Control Variates

TODO

7.5 Off-policy Learning Without Importance Sampling: The n-step Tree Backup Algorithm

有不需要重要度采样的off-policy学习方法吗？在第6章的Q-learning和期望Sarsa因为是one-step，所以不需要重要度采样，那对于multi-step算法呢？树回溯算法（tree-backup algorithm）是一个答案。

下图是一个3-step的树回溯图，在初始“状态-动作”对 $S_t$ 、 $A_t$ 后面，有三个采样状态和奖励、两个采样动作。连接在每个状态侧边的是没有被采样选择的动作（对于最后一个状态，所有的动作都被认为是没有被选择的）。因为没有未被选择的动作的样本数据，所以我们采用自举法并且使用它们的估计值来构建用于价值函数更新的目标。在树回溯中，目标包含了沿途所有的奖励（加上折扣）和底部节点的估计价值以及每一层悬挂在两侧的动作节点的估计价值。这是为什么它被称为树回溯：它的更新来源于整个树的动作价值的估计。

在这里插入图片描述

n-step 树回溯算法的one-step回报与期望Sarsa一样：
$G_{t:t+1} \dot{=} R_{t+1} + \gamma \sum_a \pi(a|S_{t+1})Q_t(S_{t+1}, a),\ for \ t<T-1 \ \qquad (7.15)$
two-step 树回溯的回报为：
$\begin {aligned} G_{t:t+2} & \dot{=} R_{t+1} + \gamma \sum_{a \neq A_{t+1}} \pi(a|S_{t+1})Q_{t+1}(S_{t+1}, a) + \gamma \pi(A_{t+1}|S_{t+1}) \left(R_{t+2} + \gamma \sum_a \pi(a|S_{t+2})Q_{t+1}(S_{t+2}, a) \right) \\ & = R_{t+1} + \gamma \sum_{a \neq A_{t+1}} \pi(a|S_{t+1})Q_{t+1}(S_{t+1}, a) + \gamma \pi(A_{t+1}|S_{t+1}) G_{t+1:t+2}, \ \ for \ t<T-2 \end {aligned}$
上式显示了树回溯的n-step回报的递归形式的一般形式：
$G_{t:t+n} = R_{t+1} + \gamma \sum_{a \neq A_{t+1}} \pi(a|S_{t+1})Q_{t+n-1}(S_{t+1}, a) + \gamma \pi(A_{t+1}|S_{t+1}) G_{t+1:t+n}, \ \ for \ t<T-1, n\ge 2, \ \qquad (7.16)$
除了 $G_{T-1:t+n} \dot{=} R_T$ 之外n=1时可以用公式（7.15）来解决。这个目标可以用于n-step Sarsa的动作-价值更新规则(不需要重要性采样率了）：
$Q_{t+n}(S_t, A_t) \ \dot{=} \ Q_{t+n-1}(S_t, A_t) + \alpha [G_{t:t+n} - Q_{t+n-1}(S_t, A_t)]，\ for \ 0 \le t < T$
而对于任意其他状态s（ $\neq S_t$ ）或动作a（ $\neq A_t$ ）的价值估计保持不变： $Q_{t+n}(s,a) = Q_{t+n-1}(s,a)$ 。其伪代码如下图。

在这里插入图片描述

7.6 *A Unifing Algorithm: n-step Q()

TODO

参考资料

《Reinforcement Learning: An Introduction》Sutton, Richard S. and Andrew G. Barto. 第2版，书籍网站，文中图片全部来自书籍。
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
https://github.com/YunlianMoon/reinforcement-learning-an-introduction-2nd-edition/tree/master