▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch4 值迭代与策略迭代【动态规划算法】

PPT 截取必要信息。课程网站做习题。总体 MOOC 过一遍

1、视频 + 学堂在线习题
2、过电子书补充【下载：本章 PDF 电子书 GitHub】 [又看了一遍视频。原来第一次跳过了好多内容。。。]
3、总体 MOOC 过一遍习题

学堂在线课程页面链接
中国大学MOOC 课程页面链接
B 站视频链接

PPT和书籍下载网址：【GitHub 链接】

在这里插入图片描述

总述：

开始介绍第一个可以找到最优策略的算法。 ——> 动态规划算法

介绍 3 种迭代算法：
1、值迭代算法：上一章讨论的求解 Bellman 最优方程的压缩映射定理所提出的算法。
2、策略迭代算法
3、截断策略迭代算法：值迭代和策略迭代算法是该算法的极端情况。

动态规划算法，需要系统模型。
本章介绍的策略迭代算法扩展得到第 5 章介绍的蒙特卡洛算法。
——————————————
model-based 算法

值迭代上一章的延伸
策略迭代下一章蒙特卡洛学习的基础

在这里插入图片描述

值迭代和策略迭代是截断策略迭代的两个极端情况

4.1 值迭代

贝尔曼最优公式的矩阵向量形式：

$\bm v=f(\bm v) =\max\limits_\pi({\bm r}_\pi+\gamma {\bm P}_\pi {\bm v})$

求解方法：上一章的压缩映射定理建议的迭代算法【值迭代】

${\bm v}_{k+1} = f({\bm v}_k)=\max\limits_\pi({\bm r}_\pi+\gamma {\bm P}_\pi {\bm v}_k), ~~~k=1, 2, 3...$

其中 ${\bm v}_0$ 可为任意值。

两步：
1、策略更新 (policy update)

${\bm v}_k$ 给定，求解 $\pi_{k+1} = \arg \max\limits_{\pi}({\bm r}_\pi+\gamma {\bm P}_\pi {\bm v}_k)$

2、值更新 (value update)

上一步得到的策略 $\pi_{k+1}$ ，更新 ${\bm v}_{k +1}={\bm r}_{\pi_{k+1}}+\gamma {\bm P}_{\pi_{k+1}}{\bm v}_k$

在这里插入图片描述

$v_k$ 是否是一个状态值?
答案是否定的。虽然 $v_k$ 最终收敛于最优状态值，但不能保证满足任何策略的 Bellman方程。例如，它一般不满足 $v_k=r_{\pi_k}+\gamma P_{\pi_k}v_k$ 或 $v_k=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_k$ 。它只是算法生成的一个中间值。另外，由于 $v_k$ 不是状态值，所以 $q_k$ 不是动作值。

编程实现需要知道更具体的形式 elementwise form
更新策略更具体的形式为：
$\pi_{k+1}(s) = \arg \max\limits_{\pi}\sum_a\pi(a|s)\underbrace{\Big(\sum_rp(r|s, a)r+\gamma \sum_{s^{\prime}}p(s^{\prime}|s, a)v_k(s^{\prime})\Big)}_{q_k(s, a)},s \in S$

根据上一章的分析，上述优化问题的最优策略解为：
$\pi_{k+1}(a|s)=\begin{cases}1\quad a=a_k^*(s) \\ 0\quad a\neq a_k^*(s) \end{cases}$
其中 $a_k^*(s)=\arg\max\limits_aq_k(a, s)$

如果 $a_k^*(s)=\arg\max\limits_aq_k(a, s)$ 有多个解，我们可以选择任意一个解而不影响算法的收敛性。只是若是没选中最优策略该选的动作，需要多迭代几次后才能获得最终的最优策略

贪心策略 $\pi_{k+1}$ ：贪心地选择 $q_k(a, s)$ 最大的 action 确定的策略
————————————
更新值更具体的形式为：
$\begin{align*}v_{k +1}(s)&=\sum_a\pi_{k+1}(a|s)\underbrace{\Big(\sum_rp(r|s, a)r+\gamma \sum_{s^{\prime}}p(s^{\prime}|s, a)v_k(s^{\prime})\Big)}_{q_k(s, a)},s \in S\\ &=\max_aq_k(a, s)\end{align*}$

迭代流程

$v_k(s)\to q_k(s, a)\to$ 贪心策略 $~\pi_{k+1}(a|s)\to$ 新的值 $~v_{k+1}=\max\limits_{a}q_k(s, a)$

伪代码：值迭代算法
目标：搜索求解贝尔曼最优公式的最优状态值和最优策略。

在这里插入图片描述

遍历 每个状态 中的 每个动作，计算 $q_k$

策略更新：选择 $q_k$ 最大的 action
值更新：将 $v_{k+1}(s)$ 更新为计算得到的最大 $q_k$

4.1.2 例子

在这里插入图片描述

对每个状态的每个动作，初始化 $q$ 值表

在这里插入图片描述

在这里插入图片描述
按照这里
策略更新 是将每个状态的 $q$ 值最大的动作的选取概率 $\pi(a|s)$ 置为 1。等效于让策略在这一步做这个 $q$ 值最大的动作
值更新 是将每个状态的值更新为相应状态的最大 $q$ 值。

$v_0$ 可以任意选取，这里选择为 0。不同的初值选取对迭代过程影响多大？如何根据具体情况选取合适的初值？
——> 比较直觉的是若是初始值选得离最优状态值较远，需要的迭代次数会多些。

对于状态 $s_1$ ，动作 $a_3$ 和 $a_5$ 对应的 $q$ 都是最大的，这里直接选了 $a_5$ ，有没有可能在这里选 $a_3$ 得到的才是最优策略呢？
——> 确实有可能，所以要多次迭代，收敛后迭代结束获得的就是最优策略。

在这里插入图片描述

第一次迭代， s1 没有达到最优。

在这里插入图片描述

这里迭代两次就获得了最优策略。

其它更复杂情况的迭代停止条件为：

在这里插入图片描述

迭代停止则认为获得了最优策略。

4.2 策略迭代

主要内容：是什么？——> 性质 ——> 如何编程实现

任意给定的初始策略 $\pi_0$

两步：
1、策略评估 (policy evaluation, PE)

计算 $\pi_k$ 的状态值： ${\bm v}_{\pi_k}={\bm r}_{\pi_k}+\gamma {\bm P}_{\pi_k}{\bm v}_{\pi_k}~~~~~~~$ 求解贝尔曼方程

策略评估做的事：通过计算相应的状态值来评估给定策略。

2、策略优化 (policy improvement，PI)

$\pi_{k+1}=\arg\max\limits_\pi({\bm r}_\pi+\gamma {\bm P}_\pi {\bm v}_{\pi_k})$

迭代流程

$\pi_0\xrightarrow{PE}v_{\pi_0}\xrightarrow{PI}\pi_1\xrightarrow{PE}v_{\pi_1}\xrightarrow{PI}\pi_2\xrightarrow{PE}v_{\pi_2}\xrightarrow{PI}...$

PE: 策略评估
PI：策略优化

现在处理以下几个问题：

Q1：在策略评估步骤中，如何通过求解 Bellman 方程得到状态值?
Q2：在策略优化步骤中，为什么新策略 $\pi_{k+1}$ 优于 $π_k$ ?
Q3：为什么这样的迭代算法最终可以达到最优策略?
Q4：这个策略迭代算法和之前的值迭代算法是什么关系?

Q1：在策略评估步骤中，如何通过求解 Bellman 方程得到状态值?

如何获取 $v_{\pi_k}$

已知： ${\bm v}_{\pi_k}={\bm r}_{\pi_k}+\gamma {\bm P}_{\pi_k}{\bm v}_{\pi_k}$

方法一：矩阵求逆

${\bm v}_{\pi_k}=({\bm I}-\gamma {\bm P}_{\pi_k})^{-1}{\bm r}_{\pi_k}$

方法二：迭代 ✔

${\bm v}_{\pi_k}^{(j+1)}={\bm r}_{\pi_k}+\gamma {\bm P}_{\pi_k}{\bm v}_{\pi_k}^{(j)}, ~~~j=0,1,2,...$

策略迭代是在策略评估步骤中嵌入另一个迭代算法的迭代算法！

Q2：在策略优化步骤中，为什么新策略 $\pi_{k+1}$ 优于 $π_k$ ?

在这里插入图片描述

证明 1：在策略优化步骤中，为什么新策略 $\pi_{k+1}$ 优于 $π_k$ ? P73-

Q3：为什么策略迭代算法最终可以找到最优策略?

由于每次迭代都会改进策略，即

$\bm v_{\pi_0}\leq\bm v_{\pi_1}\leq\bm v_{\pi_2}\leq\cdots\leq\bm v_{\pi_k}\leq\cdots\leq\bm v^*$

$\bm v_{\pi_k}$ 不断减小并最终收敛。仍需证明将收敛到 $\bm v^*$ 。

在这里插入图片描述

定理 4.1 (策略迭代的收敛性)。策略迭代算法生成的状态值序列 $\{v_{\pi_k}\}_{k=0}^\infty$ 收敛到最优状态值 $v^*$ 。因此，策略序列 $\{\pi_k\}_{k=0}^\infty$ 收敛到最优策略。

证明 2: 证明策略迭代会收敛到最优策略 P75

证明的思路是证明策略迭代算法比值迭代算法收敛得更快。

如果策略迭代和值迭代从相同的初始猜测开始，由于策略迭代算法的收敛性，策略迭代将比值迭代收敛得更快。

Q4：这个策略迭代算法和之前的值迭代算法是什么关系?

值迭代和策略迭代是截断策略迭代的两个极端，后续将进一步说明。

——————————————————
如何实现策略迭代算法？

在这里插入图片描述

策略迭代算法：
目标：搜索最优状态值和最优策略

在这里插入图片描述

策略迭代算法生成的中间值是是状态值。因为这些值是当前策略的 Bellman 方程的解。

4.2.3 例子

在这里插入图片描述

一个示例 P79
发现一个有趣的现象：接近目标的状态的策略先变好，远离目标的状态的策略会后变好。

在某一个状态，选择 greedy action 时, 严重依赖于其它状态的策略。
若其它状态的策略是不好的，此时虽然选一个动作值 ( $q$ ) 最大的动作，可能意义不大；
如果其它状态有能够到达目标区域的策略，选择变到那个状态，也能到达目标区域，得到正的 reward。

当某个状态周围没有状态能够到达目标区域的时候，这个状态无法到达目标区域。
当周围有状态能够到达目标区域的策略时，新的策略也能到达目标区域。

1、观察策略是如何演变的，一个有趣的模式是靠近目标区域的状态比远离目标区域的状态更早找到最优策略。只有较近的状态能先找到到达目标的轨迹，较远的状态才能找到经过较近状态到达目标的轨迹。
2、状态值的空间分布呈现出一种有趣的模式：靠近目标的状态具有更大的状态值。这种模式的原因是，一个 agent 从更远的状态出发，必须走很多步才能获得正的奖励。这样的奖励将严重打折扣，因此相对较小。

4.3 截断策略迭代

值迭代算法和策略迭代算法是截断策略迭代算法的两种特殊情况。

策略迭代：初始策略为 $\pi_0~~$ 【任意猜测的】

策略评估 (PE)： ${\bm v}_{\pi_k}={\bm r}_{\pi_k}+\gamma {\bm P}_{\pi_k}{\bm v}_{\pi_k}$
策略优化 (PI)： $\pi_{k+1}=\arg\max\limits_\pi({\bm r}_\pi+\gamma {\bm P}_\pi {\bm v}_{\pi_k})$

值迭代：初始值为 ${\bm v}_0$

策略更新 (PU)： $\pi_{k+1}=\arg\max\limits_\pi({\bm r}_\pi+\gamma {\bm P}_\pi {\bm v}_k)$
值更新 (VU)： ${\bm v}_{k+1}={\bm r}_{\pi_{k+1}}+\gamma {\bm P}_{\pi_{k+1}}{\bm v}_k$

！！每一步的等号右侧都有的： ${\bm r} +\gamma {\bm P} {\bm v}$

在这里插入图片描述

从相同的初始条件开始。
前三个步骤是相同的。
第四步就不一样了：

策略迭代，求解 $v_{π_1} = r_{π_1} + γP_{\pi_1}v_{\pi_1}$ 需要一个迭代算法 ( 迭代无数次 )
值迭代， $v_1 = r_{π_1} + \gamma P_{π_1}v_0$ 是一步迭代。

在这里插入图片描述

每步求解 $\bm v$ 值时，值迭代需要一步，策略迭代需要无穷步，迭代次数取中间值如何呢？

值迭代算法：计算一次。
策略迭代算法：计算无限次迭代。
截断策略迭代算法：计算一个有限次迭代(例如 $j$ )。从 $j$ 到 $\infty$ 的其余迭代被截断。

在这里插入图片描述

算法中的 $v_k$ 和 $v_k^{(j)}$ 不是状态值,是真实状态值的近似值，因为在策略评估步骤中只执行有限次迭代。

只有当我们在策略评估步骤中运行无限次迭代时，才能获得真实的状态值。

截断策略迭代会不会结束迭代时是一个发散的结果？

在这里插入图片描述

证明。参考电子书 PDF P83

——————————————

证明：截断策略迭代算法的收敛性。

因为

$v_{\pi_k}^{(j)}=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}^{(j-1)}$

$v_{\pi_k}^{(j+1)}=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}^{(j)}$

则

$v_{\pi_k}^{(j+1)}-v_{\pi_k}^{(j)}=\gamma P_{\pi_k}(v_{\pi_k}^{(j)}-v_{\pi_k}^{(j-1)})=\cdots=\gamma^j P^j_{\pi_k}(v_{\pi_k}^{(1)}-v_{\pi_k}^{(0)})$

$v_{\pi_k}^{(0)}=v_{\pi_{k-1}}~~~~$ 上一轮迭代的结果

$\begin{aligned}v_{\pi_k}^{(1)}&=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}^{(0)}\\ &=r_{\pi_k}+\gamma P_{\pi_k}\textcolor{blue}{v_{\pi_{k-1}}}\\ &\geq r_{\pi_{\textcolor{blue}{{k-1}}}}+\gamma P_{\pi_{\textcolor{blue}{{k-1}}}}\textcolor{blue}{v_{\pi_{k-1}}}~~~~~~~~\textcolor{blue}{①}\\ &=v_{\pi_{k-1}}\\ &=v_{\pi_k}^{(0)}\end{aligned}$

则 $v_{\pi_k}^{(j+1)}\geq v_{\pi_k}^{(j)}$ 。

① $\pi_k=\arg\max\limits_\pi(r_\pi+\gamma P_\pi v_{\pi_{k-1}})$

——————————————
在这里插入图片描述
相比于策略迭代算法，截断的策略迭代算法在策略评估步骤中只需要有限次数的迭代，因此计算效率更高。与值迭代相比，截断策略迭代算法可以在策略评估步骤中多运行几次迭代，从而加快收敛速度。

Pl 【策略迭代】的收敛性证明是基于 VI 【值迭代】的收敛性证明。由于 VI 收敛，得到 PI 收敛。

小结：

在这里插入图片描述
4.5
Q：值迭代算法一定能找到最优策略吗?
是的。值迭代正是上一章求解 Bellman 最优性方程的压缩映射定理所提出的算法。利用压缩映射定理保证了算法的收敛性。

model-based VS model-free
虽然本章介绍的算法可以找到最优策略，但由于它们需要系统模型，通常被称为动态规划算法而不是强化学习算法。
强化学习算法可以分为两类：基于模型的和免模型的。
这里，“基于模型的”并不是指系统模型的需求。相反，基于模型的强化学习使用数据来估计系统模型，并在学习过程中使用该模型。相比之下，免模型强化学习在学习过程中不涉及模型估计。

——————
习题

值迭代、策略迭代、截断策略迭代

值迭代算法中间产生的值不一定对应某些策略的状态值，这些只是产生的一些中间过程的数值，没有特别的含义。

压缩映射定理给出的算法实际是值迭代算法。

策略迭代算法同时获得最优状态值和最优策略。【策略评估需要计算状态值】

补充

证明 1：在策略优化步骤中，为什么新策略 $\pi_{k+1}$ 优于 $π_k$ ? P73-

证明：
状态值 $v_{\pi_{k+1}}$ 和 $v_{\pi_k}$ 满足贝尔曼公式：
$v_{\pi_{k+1}}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_{k+1}}$
$v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}$
由于 $\pi_{k+1} = \arg\max\limits_\pi(r_\pi+\gamma P_\pi v_{\pi_k})$
则 $r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_{k+1}}\geq r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}$
$\begin{align*}v_{\pi_k}-v_{\pi_{k+1}}&= (r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}) - (r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_{k+1}})\\ &\leq(r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_k}) - (r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_{k+1}})\\ &\leq \gamma P_{\pi_{k+1}}(v_{\pi_k} -v_{\pi_{k+1}})\\ &\leq \gamma^2 P_{\pi_{k+1}}^2(v_{\pi_k} -v_{\pi_{k+1}})\\ &\leq ...\\ &\leq \gamma^n P_{\pi_{k+1}}^n(v_{\pi_k} -v_{\pi_{k+1}})\\ &\leq \lim\limits_{n\to\infty}\gamma^n P_{\pi_{k+1}}^n(v_{\pi_k} -v_{\pi_{k+1}})\\ &=0\end{align*}$

证明 2：证明策略迭代会收敛到最优策略 P75

在这里插入图片描述

证明的思路是证明策略迭代算法比值迭代算法收敛得更快。

——————————
证明：
为了证明 $\{v_{\pi_k}\}_{k=0}^\infty$ 的收敛性，引入由以下式子生成的另一个序列 $\{v_k\}_{k=0}^\infty$ 。

$v_{k+1}=f(v_k)=\max\limits_\pi(r_\pi+\gamma P_\pi v_k)$

这个迭代算法正是值迭代算法，则给定任意初始值 $v_0$ , $v_k$ 收敛到 $v^*$ 。

$k = 1$ ，对任意 $\pi_0$ , 有 $v_{\pi_0}\geq v_0$ 。

通过归纳法证明对任意 $k$ , 有 $v_k\leq v_{\pi_k}\leq v^*$ 。

对 $k\geq0$ ，假设 $v_{\pi_k}\geq v_k$ 。

用到的一些中间式:

在这里插入图片描述
① $v_{\pi_{k+1}}\geq v_{\pi_k}~~$ 【上面的证明 1 已证。即策略优化后的策略的状态值比之前的大】 , $P_{\pi_{k+1}}\geq0$
② 令 ${\textcolor{blue}{{\pi_k^\prime}}}=\arg \max\limits_\pi(r_\pi+\gamma P_\pi v_k)$
③ $\pi_{k+1}=\arg \max\limits_\pi(r_\pi+\gamma P_\pi v_{\pi_k})$

对于 $k + 1$ 有：

$\begin{aligned}v_{\pi_{k+1}}-v_{k+1}&=(r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_{k+1}})-\max\limits_\pi(r_\pi+\gamma P_\pi v_k)\\ &\geq(r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_{\textcolor{blue}{k}} })-\max\limits_\pi(r_\pi+\gamma P_\pi v_k)~~~~~~~~~~\textcolor{blue}{①}\\ &=(r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_{\pi_k })-(r_{\textcolor{blue}{{\pi_k^\prime}}}+\gamma P_{\textcolor{blue}{{\pi_k^\prime}}}v_k)~~~~~~~~~~\textcolor{blue}{②}\\ &\geq(r_{\textcolor{blue}{{\pi_k^\prime}}}+\gamma P_{\textcolor{blue}{{\pi_k^\prime}}}v_{\pi_k })-(r_{\textcolor{blue}{{\pi_k^\prime}}}+\gamma P_{\textcolor{blue}{{\pi_k^\prime}}}v_k)~~~~~~~~~~\textcolor{blue}{③}\\ &=\gamma P_{\pi_k^\prime}(v_{\pi_k}-v_k)\end{aligned}$