⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式【压缩映射定理】

PPT 截取必要信息。课程网站做习题。总体 MOOC 过一遍

1、视频 + 学堂在线习题
2、过电子书，补充【下载：本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频]
3、总体 MOOC 过一遍习题

学堂在线课程页面链接
中国大学MOOC 课程页面链接
B 站视频链接

PPT和书籍下载网址：【GitHub 链接】

强化学习的最终目标：寻求最优策略

贝尔曼最优公式，可以求解最优状态值和最优策略。

在这里插入图片描述

————————
P1 如何改进策略 ——> 选择动作值最大的动作

最优状态值、最优策略
the Bellman optimality equation (BOE) 贝尔曼最优公式

在这里插入图片描述

计算状态值 $v_\pi(s)$ ，然后计算动作值 $q_\pi(s)$

选择动作值最大的动作可以得到比较好的策略。

选择动作值大的策略，不断迭代，一定可以得到最优策略。

——————

P2 最优策略定义

用 状态值 来评估一个策略的好坏：

若对于所有的 $s\in \mathcal S$ ，均满足 $v_{\pi_1}(s)\geq v_{\pi_2}(s)$ 。则认为策略 1 比策略 2 好。

最优策略 $\pi^*$ ：对所有 $s$ 和所有策略 $\pi$ ，均有 $v_{\pi^*}(s) \geq v_\pi(s)$ 。

与所有其他策略相比，最优策略在每个状态下都具有最大的状态值。

最优策略是否一定存在?
最优策略是唯一的吗?
最优策略是随机的还是确定的?
如何获得最优策略?

在后续内容中，需要求解形如 $f (v) = v$ 的方程，这正是压缩映射定理【不动点定理】的相关内容。可证得最优策略对应的最优状态值存在且唯一。

3.3 贝尔曼最优公式

$\begin{aligned}v(s)&= \textcolor{blue}{\max\limits_\pi}\sum\limits_a\pi(a|s)\Big(\sum\limits_rp(r|s,a)r+\gamma \sum\limits_{s^\prime}p(s^\prime|s, a)v(s^\prime)\Big), ~~~~\forall s\in\mathcal S\\ &=\max\limits_\pi\sum\limits_a\pi(a|s)q(s, a), ~~~s\in\mathcal S\end{aligned}$

通过求解这个方程，可以获得最优策略和最优状态值。

已知： $p(r|s,a),~~~p(s^\prime|s,a)$
未知： $v(s),~~~v(s^\prime)$

$\forall$ $~~\forall$

贝尔曼最优方程的矩阵-向量形式：

$\bm v=\max \limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v)$

$[r_\pi]_s\triangleq\sum\limits_a\pi(a|s)\sum\limits_rp(r|s, a)r$
$[P_\pi]_{s,s^\prime}=p(s^{\prime}|s)\triangleq\sum\limits_a\pi(a|s)\sum\limits_{s^\prime}p(s^{\prime}|s, a)$

$\triangleq$ $~~\triangleq$

如何求解这个方程?
存在性：这个方程有解吗?
唯一性：这个方程的解是否唯一?
最优性：这个解与最优策略有什么关系?

一个式子，两个未知量。如何求解右侧的最大化？

在这里插入图片描述

类似地，求解贝尔曼最优方程

$v(s)=\max\limits_\pi\sum\limits_a\pi(a|s)q(s, a)$

受上述例子启发，由于 $\sum\limits_a\pi(a|s)=1$

$\sum\limits_a\pi(a|s)q(s, a)\leq\sum\limits_a\pi(a|s)\max\limits_aq(s,a)=\max\limits_aq(s, a)$

$\sum\limits_a\pi(a|s)q(s, a)$ 是类似于上述例子中的求和式，根据经验，让取得最大的 $q (s, a)$ 【相当于 $q_3$ 】相应的概率 $\pi(a|s)$ 【相当于 $c_3$ 】为 1，其它情况相应的 $\pi(a|s)$ 为 0，此时能获得最大值

即令 $\pi(a|s)=\left\{ \begin{aligned} &1, &a=a^*\\ &0, &a\neq a^*\\ \end{aligned} \right.$

$a^*$ ：最大的 $q$ 值对应的 action。 $a^*=\arg \max\limits_aq(s, a)$

最优策略 $π (s)$ 是选择具有最大 $q (s, a)$ 的动作的策略。

——————

3.3.3 压缩映射定理：求解 v = f(v)

压缩映射定理是分析一般非线性方程的有力工具。它也被称为不动点定理。

在这里插入图片描述

回到正题：

在这里插入图片描述

令 $f(\bm v)=\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v)$

$~~\bm v=f(\bm v)$

在这里插入图片描述

映射后的距离比之前小。

示例：

在这里插入图片描述

该定理描述了不动点和压缩映射之间的关系

只要是具有 形如 $x = f (x)$ 的压缩映射，必存在一个不动点满足 $f(x^*)=x^*$ ，且这个不动点是唯一的。可通过迭代式 $x_{k+1}=f(x_k)$ 求解。

压缩映射定理不仅可以判断非线性方程的解是否存在，而且还提供了求解该方程的数值算法。

P53-

证明 1：压缩映射定理 P53- [见后文补充]

如何利用压缩映射定理提出的迭代算法计算一些方程的不动点

例子：

在这里插入图片描述

3.3.4 贝尔曼最优公式的右侧具有压缩性

为了应用上述的压缩映射定理求解贝尔曼最优方程，需要证明 $f (v)$ 是具有收缩的性质。

在这里插入图片描述

证明 2：贝尔曼最优方程的右侧是压缩映射的 P55- [ 见后文补充]

3.4 贝尔曼最优方程的解

上述内容证明了贝尔曼最优方程可以运用压缩映射定理进行分析，可通过迭代式求解。

在这里插入图片描述

最优策略 $\pi^*=\arg\max\limits_\pi(r_\pi+\gamma P_\pi v^*)$

$v^*$ 是不动点，因为 $v^*=f(v^*)$ 。

贝尔曼最优公式是策略为最佳策略时的贝尔曼公式。

这个策略是不是最优的？
状态值 $v_{\pi^*}$ 是不是最大的 ?

贝尔曼最优公式的不动点解【最终的收敛值】 $v^*$ 就是最大的状态值，此时的 $\pi^*$ 为最优策略。 [因为对应的状态值最大]

在这里插入图片描述

BOE：描述了最优状态值和最优策略。

证明 3：贝尔曼最优方程的解对应最大状态值和最优策略 P58- [见后文补充]

最优策略 $\pi^*$ 长啥样呢？

在这里插入图片描述
总存在一个确定性的最优贪婪策略。

在这里插入图片描述

同样是类似于之前的求和式，令 $q^*(s, a)$ 最大的对应 $\pi (a|s)$ 为 1，其它为 0 。可获得最大值。

正是证明了之前提到的最优策略 $π (s)$ 是选择具有最大 $q (s, a)$ 的动作的策略。

$v^*$ 的值是唯一的，但 $v^*$ 对应的最优策略可能不是唯一的。

————————

3.5 哪些因素影响最佳策略

P4 3.5

什么因素决定最优策略？

最优策略的影响因素：回报 $r$ ，折扣率 $\gamma$

在这里插入图片描述

$\gamma~$ 小，短视；即时奖励 [选择即时奖励最大的行动，而不是总回报最大的行动。]
$\gamma~$ 大，目光长远；延迟奖励

靠近目标的状态值较大，而远离目标的状态值较低。

如果一个状态必须沿着更长的轨迹到达目标，那么由于折扣率的存在，它的状态值就会变小。

$r$ 只关心动作间的奖励相对值。

$r~$ 友好的波浪线强制空格

在这里插入图片描述

证明 4：对所有 reward 统一进行仿射变换，最优策略保持不变 P62- [见后文补充]

当奖励都为正或都为负的时候可以依据以上定理进行变换。最优策略只和奖励间的相对值有关

例子：

绕路

贝尔曼最优方程的解对应最佳状态值和最优策略。

小结：

在这里插入图片描述

3.7 节

什么是最优策略?
如果一个策略对应的状态值大于或等于任何其他策略，则该策略是最优的。
应该注意的是，这个特定的最优性定义仅对表格强化学习算法有效。当值或策略由函数近似时，必须使用不同的度量来定义最优策略。

最优政策是随机的还是确定的 ?
最优策略可以是确定性的，也可以是随机的。一个很好的事实是，总是存在确定性贪婪最优策略。

如果我们希望最优策略在到达目标之前避免无意义的弯路，我们是否应该在每一步都增加一个负奖励，以使 agent 尽快到达目标?
首先，在每一步中引入一个额外的负奖励是奖励的仿射变换，它不会改变最优策略。其次，折扣率可以自动鼓励 agent 尽快达到目标。这是因为无意义的弯路会增加轨迹长度，减少 discounted return。

-——————
习题笔记：

最优策略不一定唯一。

补充

证明 1：压缩映射定理

在这里插入图片描述

压缩映射定理不仅可以判断非线性方程的解是否存在，而且还提供了求解该方程的数值算法。 $x_{k+1}=f(x_k)$ 。不断迭代即可获得解。

P8 Box 3.1

补充：

在这里插入图片描述

根据柯西极限存在准则，证明不动点存在。

1、证明当 $\{x_k\}_{k=1}^\infty$ 时， $x_k=f(x_{k-1})$ 收敛。

这个证明依赖于柯西序列。一个序列 $x_1, x_2, \cdots \in \mathbb R$ ，如果对于任何小的 $\varepsilon > 0$ ，存在 $N$ ，对于所有 $m, n > N$ ，使得 $||x_m - x_n|| < \varepsilon$ 。

直观的解释是存在一个有限整数 $N$ ，使得 $N$ 之后的所有元素彼此足够接近。

柯西序列之所以重要，是因为它保证了柯西序列收敛于某个有限值。
它的收敛性将用于证明压缩映射定理。

注意，对于所有的 $m, n > N$ ，我们必须有 $x_m - x_n|| < ε$ 。
如果我们仅仅有 $x_{n+1} - x_n→0$ ，就不足以断言这个序列是柯西序列。
例如，对于 $x_n= \sqrt n$ ， $x_{n+1} - x_n→0$ 成立，但显然， $x_n= \sqrt n$ 是发散的。

证明 $\{x_k=f(x_{k-1})\}_{k=1}^\infty$ 是柯西序列，因此是收敛的。

——————————————

由于 $f$ 是收缩映射，则有

$||x_{k+1}-x_k||=||f(x_k)-f(x_{k-1})||\leq\gamma||x_k-x_{k-1}||$

类似地，有
$||x_k-x_{k-1}||\leq\gamma||x_{k-1}-x_{k-2}||$
$\vdots$
$||x_2-x_1||\leq\gamma||x_1-x_0||$

则

$\begin{aligned}||x_{k+1}-x_k||&\leq\gamma||x_k-x_{k-1}||\\ &\leq\gamma^2||x_{k-1}-x_{k-2}||\\ & \vdots\\ &\leq\gamma^k||x_1-x_0||\end{aligned}$

由于 $\gamma < 1$ , 对任意 $x_1, x_0$ ，当 $k\to \infty$ ， $x_{k+1}-x_k||$ 以指数速度收敛到 0。

正如前文所述，仅满足 $x_{n+1} - x_n→0$ ，无法得到收敛的结论。如发散的 $x_n= \sqrt n$ 。

需要进一步考虑 $m > n$ 时，

$\begin{aligned}||x_m-x_n||&=||x_m-x_{m-1}+x_{m-1}-\cdots-x_{n+1}+x_{n+1}-x_n||\\ &\leq ||x_m-x_{m-1}||+\cdots+||x_{n+1}-x_n||\\ &\leq \gamma^{m-1} ||x_1-x_0||+\cdots+\gamma^n||x_1-x_0||\\ &=\gamma^n(\gamma^{m-1-n}+\cdots+1)||x_1-x_0||\\ &\leq\gamma^n·\sum\limits_{i=1}^\infty\gamma^i·||x_1-x_0||~~~~~~~\textcolor{blue}{\gamma ~的幂次项扩展到无穷多项}\\ &=\frac{\gamma^n}{1-\gamma} ||x_1-x_0||\\ \end{aligned}$

对于右侧， $\gamma<1$ ，为某个小的值

对任意小的 $\varepsilon$ ，总能找到 $N$ ，使得当 $m, n > N$ ，有 $x_m - x_n|| < ε$ ，满足柯西极限存在准则，数列 ${x_k\}$ 收敛。

假设收敛到 $x^*$ ， $\lim\limits_{k\to\infty}x_k=x^*$ 。

2、证明 $x^*=\lim\limits_{k\to\infty}x_k$ 是一个不动点。

由于 $||f(x_k)-x_k||=||x_{k+1}-x_k||\leq\gamma^k||x_1-x_0||$

已知 $f(x_k)-x_k||$ 以指数速度收敛于 0。则 $f(x^*)=x^*~~~$ 两边同时取极限

$\lim\limits_{k\to\infty}||f(x_k)-x_k||=0$

3、证明不动点唯一。

假设存在另外的不动点 $x^\prime$ ，满足 $f(x^\prime) =x^\prime$

$||x^\prime-x^*||=||f(x^\prime)-f(x^*)||\leq\gamma||x^\prime-x^*||$

由于 $\gamma < 1$ , 当且仅当 $||x^\prime-x^*||=0$ 时不等式成立。因此，只能是 $x^\prime=x^*$ 。

或者不等式两边同除 $||x^\prime-x^*||$ ，得到 $\gamma\geq1$ ，与题设 $\gamma < 1$ 矛盾，因此不动点唯一。

4、证明 $x_k$ 以指数速度收敛于 $x^*$ 。

由之前的 $||x_m-x_n|| \leq \frac{\gamma^n}{1-\gamma}||x_1-x_0||$

由于 $m$ 可以是任意大。

$x^*-x_n =\lim\limits_{m\to\infty}||x_m-x_n||\leq \frac{\gamma^n}{1-\gamma}||x_1-x_0||$

由于 $\gamma<1$ ，当 $n \to \infty$ 时，误差以指数速度收敛于 0。

——————————
补充：参考链接

在这里插入图片描述

在这里插入图片描述

其它可参考链接：

链接 1：数分之梯丨压缩映射定理——同济大学陈滨
链接 2：柯西收敛准则有啥用？当然是证明压缩映射原理！

证明 2：证明贝尔曼最优方程的右侧是压缩映射的

在这里插入图片描述

考虑两个向量 $\bm v_1, \bm v_2\in \mathbb R^{|\cal S|}$

$\pi_1^*\dot=\arg\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_1)$

$\pi_2^*\dot=\arg\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_2)$

$f(\bm v_1)=\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_1)=\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1\geq \bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_1~~~~~$ 对于同一状态值 $v_1$ ，最佳策略 $\pi_1^*$ 相应的状态值必然大于其它策略的

$f(\bm v_2)=\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_2)=\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2\geq \bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_2~~~~~$

$\geq$ 是元素级的。

$\begin{aligned}f(\bm v_1)-f(\bm v_2)&=\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1-(\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2)\\ &\leq \bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1-(\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_2)\\ &=\gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)\end{aligned}$

$\begin{aligned}f(\bm v_2)-f(\bm v_1)&=\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2-(\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1)\\ &\leq \bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2-(\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_1)\\ &=\gamma\bm P_{\pi_2^*}(\bm v_2-\bm v_1)\end{aligned}$

$\gamma\bm P_{\pi_2^*}(\bm v_1-\bm v_2)\leq f(\bm v_1)-f(\bm v_2)\leq \gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)$

令 $z\dot=\max~\{|\gamma\bm P_{\pi_2^*}(\bm v_1-\bm v_2)|, |\gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)|\}\in\mathbb R^{|\cal S|}$

$z\geq0$

$-z\leq\gamma\bm P_{\pi_2^*}(\bm v_1-\bm v_2)\leq f(\bm v_1)-f(\bm v_2)\leq \gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)\leq z$

$|f(\bm v_1)-f(\bm v_2)|\leq z$

最大模 $||f(\bm v_1)-f(\bm v_2)||_\infty\leq ||z||_\infty$

$p_i^T$ ， $q_i^T$ 分别为 $\bm P_{\pi_1^*}$ 和 $\bm P_{\pi_2^*}$ 的第 $i$ 行。

$z_i=\max~\{\gamma |p_i^T(\bm v_1-\bm v_2)|, \gamma|q_i^T(\bm v_1-\bm v_2)|\}$

$p_i$ 是一个包含所有非负元素的向量并且所有元素的和等于 1。

$|p_i^T(\bm v_1-\bm v_2)|\leq p_i^T|\bm v_1-\bm v_2|\leq||\bm v_1-\bm v_2||_\infty$

类似地， $|q_i^T(\bm v_1-\bm v_2)|\leq||\bm v_1-\bm v_2||_\infty$

$z_i\leq\gamma||\bm v_1-\bm v_2||_\infty$

$||z||_\infty=\max\limits_i|z_i|\leq\gamma||\bm v_1-\bm v_2||_\infty$

即 $||f(\bm v_1)-f(\bm v_2)||_\infty\leq \gamma||\bm v_1-\bm v_2||_\infty$

证毕。

证明 3：贝尔曼最优方程的解对应最大状态值和最优策略

在这里插入图片描述

P58

对于任意策略 $\pi$ , 满足贝尔曼方程为 $v_\pi=r_\pi+\gamma P_\pi v_\pi$

由于最优策略 $v^*=\max\limits_\pi(r_\pi+\gamma P_\pi v^*)=r_{\pi^*}+\gamma P_{\pi^*} v^*\geq r_\pi+\gamma P_\pi v^*$

$v^*-v_\pi\geq r_{\pi^*}+\gamma P_{\pi^*} v^*-(r_\pi+\gamma P_\pi v_\pi)=\gamma P_\pi (v^*-v_\pi)$

重复应用上述不等式：

$v^*-v_\pi\geq\gamma P_\pi (v^*-v_\pi)\geq\gamma^2 P^2_\pi (v^*-v_\pi)\geq\cdots\geq\gamma^n P^n_\pi (v^*-v_\pi)$

$v^*-v_\pi\leq\lim\limits_{n\to\infty}\gamma^n P^n_\pi (v^*-v_\pi)=0$

由于 $\gamma<1$ 且 $P^n_\pi$ 是元素均小于或等于 1 的非负矩阵 $P^n_\pi \bm1=\bm1$

因此 $v^*\geq v_\pi$ 对于任意 $\pi$ 均成立。

证明 4：对所有 reward 统一进行仿射变换，最优策略不变

在这里插入图片描述

最优策略不变性

最优策略 $\bm v^*=\max\limits_\pi(\bm r_\pi+\gamma \bm P_\pi \bm v^*)$

对其中的每个奖励值 $r$ 都进行仿射变换 $\alpha r + \beta$

则相应的最优状态值 $\bm v^\prime=\alpha \bm v^*+\frac{\beta}{1-\gamma}\begin{bmatrix}1\\1\\...\\1\\1\end{bmatrix}$

其中折扣率 $\gamma \in (0, 1)$
由 $\bm v^\prime$ 得到的最优策略对于奖励值的仿射变换是不变的。

————————————————————————

P62 -

证明：

对任意策略 $\pi$ ，令 $r_\pi=[\cdots,r_\pi(s), \cdots]^T$

$r_\pi(s)= \sum\limits_{a\in\cal A}\pi(a|s)\sum\limits_{r\in\cal R}p(r|s, a)r,~~~~~s\in\cal S$

如果 $r\to\alpha r+\beta$ ，则 $r_\pi(s)\to\alpha r_\pi(s)+\beta$

$r_\pi\to\alpha r_\pi+\beta{\bf1}$ ，其中 $\bm 1=[1, \cdots,1]^T$

此时，贝尔曼最优公式变成：

$\bm v^\prime=\max\limits_\pi(\alpha\bm r_\pi+\beta \bm1+\gamma\bm P_\pi\bm v^\prime)~~~~~~~~~~~~~~(3.9)$

设 $\bm v^\prime=\alpha \bm v^*+c\bm 1$ 是上述式 (3.9) 的解

将 $\bm v^\prime=\alpha \bm v^*+c\bm 1$ 代入 (3.9)

$\alpha \bm v^*+c\bm 1=\max\limits_\pi\Big(\alpha\bm r_\pi+\beta \bm1+\gamma\bm P_\pi(\alpha \bm v^*+c\bm 1)\Big)=\max\limits_\pi (\alpha\bm r_\pi+\beta \bm1+\gamma\alpha\bm P_\pi \bm v^*+\gamma c\bm 1 )$