0 专栏介绍

本专栏重点介绍强化学习技术的数学原理，并且采用Pytorch框架对常见的强化学习算法、案例进行实现，帮助读者理解并快速上手开发。同时，辅以各种机器学习、数据处理技术，扩充人工智能的底层知识。

🚀详情：《Pytorch深度强化学习》

1 贝尔曼最优方程

在Pytorch深度强化学习1-3：策略评估与贝尔曼期望方程详细推导中，我们介绍了贝尔曼递推公式(Bellman Equation)或称贝尔曼期望方程，如下

${\begin{cases} V_{\gamma}^{\pi}\left( s \right) =\sum_{a\in A}{\pi \left( s,a \right)}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma V_{\gamma}^{\pi}\left( s' \right) \right]\\ Q_{\gamma}^{\pi}\left( s,a \right) =\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma \sum_{a'\in A}{\pi \left( s',a' \right) Q_{\gamma}^{\pi}\left( s',a' \right)} \right]\\\end{cases}}$

贝尔曼期望方程用于策略评估，即衡量策略的好坏。

自然地，我们会想到，能否计算出最优策略呢？这就引出本节的主题——贝尔曼最优方程。

我们对上面的贝尔曼期望方程做一些变化：将期望视作随机变量不同取值的加权和，权重即为概率分布。现在将随机变量的最大取值权重赋为1，其余取值赋为0，将得到随机变量的最大值。因此随机变量的最大值是一种特殊的期望，符合

$\mathbb{E} \left( x \right) \leqslant \max \left( x \right)$

状态值函数 $V^{\pi}\left( s \right)$ 是期望的形式，欲使 $V^{\pi}\left( s \right)$ 数值最大，最优策略 $\pi ^*$ 对应的条件概率分布应是0-1序列，其中权重1赋予回报最大的动作，即

$\begin{cases} V_{\gamma}^{*}\left( s \right) =\underset{a\in A}{\max}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma V_{\gamma}^{*}\left( s' \right) \right]\\ Q_{\gamma}^{*}\left( s,a \right) =\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma \underset{a'\in A}{\max}Q_{\gamma}^{*}\left( s',a' \right) \right]\\\end{cases}}$

这就演化成了最优贝尔曼方程

在这里插入图片描述

Richard Ernest Bellman

2 贪心策略与策略改进

设当前策略为 $\pi$ ，则总可以将其改进为 $\pi '\left( s \right) =\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right)$ ，也称为贪心策略，记作 $G\left( \cdot \right)$

证明

设贝尔曼最优算子为 $\mathcal{B} ^*$ ，其不依赖于具体策略，则

$\left| \left( \mathcal{B} ^*V^{\pi} \right) \left( s \right) -\left( \mathcal{B} ^*V^{\pi '} \right) \left( s \right) \right|=\left| \underset{a\in A}{\max}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma V^{\pi}\left( s' \right) \right] -\underset{a\in A}{\max}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma V^{\pi '}\left( s' \right) \right] \right|$

根据不等式

$\begin{aligned}\left| \max _xf\left( x \right) -\max _xg\left( x \right) \right|&=\left| f\left( x^* \right) -\max _xg\left( x \right) \right|\,\, { x^*\text{是}f\left( x \right) \text{最大值}}\\&\leqslant \left| f\left( x^* \right) -g\left( x^* \right) \right|\\&\leqslant \max _x\left| f\left( x \right) -g\left( x \right) \right|\end{aligned}$

可得

$\begin{aligned}\left| \left( \mathcal{B} ^*V^{\pi} \right) \left( s \right) -\left( \mathcal{B} ^*V^{\pi '} \right) \left( s \right) \right|&\leqslant \left| \gamma \underset{a\in A}{\max}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ V^{\pi}\left( s' \right) -V^{\pi '}\left( s' \right) \right] \right|\\&\leqslant \gamma \underset{a\in A}{\max}\left| \sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ V^{\pi}\left( s' \right) -V^{\pi '}\left( s' \right) \right] \right|\\&\leqslant \gamma \underset{a\in A}{\max}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left| V^{\pi}\left( s' \right) -V^{\pi '}\left( s' \right) \right|\,\, { \text{绝对值不等式}}\\&=\gamma \sum_{s'\in S}{P_{s\rightarrow s'}^{a^*}}\left| V^{\pi}\left( s' \right) -V^{\pi '}\left( s' \right) \right|\\&\leqslant \gamma \sum_{s'\in S}{P_{s\rightarrow s'}^{a^*}}\underset{s''}{\max}\left| V^{\pi}\left( s'' \right) -V^{\pi '}\left( s'' \right) \right|\\&=\gamma \left\| V^{\pi}-V^{\pi '} \right\| _{\infty}\end{aligned}$

同样根据巴拿赫不动点定理可知映射 $\mathcal{B} ^*$ 存在唯一的不动点。易知当策略取为

$\begin{aligned}\pi '\left( s \right) &=\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right) \\&=\underset{a\in A}{\mathrm{arg}\max}\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma V_{\gamma}^{\pi}\left( s' \right) \right]\end{aligned}$

与贝尔曼最优方程等价，亦即贪心策略 $G\left( V^{\pi} \right) =\pi '$ 与贝尔曼最优算子 $\mathcal{B} ^*$ 等价

$\mathcal{B} ^*V^{\pi}=\mathcal{B} ^{G\left( V^{\pi} \right)}V^{\pi}=\mathcal{B} ^{\pi '}V^{\pi}$

3 策略迭代与价值迭代

贪心策略指向的结果是

$\mathcal{B} ^*V^{\pi}=\mathcal{B} ^{G\left( V^{\pi} \right)}V^{\pi}=\mathcal{B} ^{\pi '}V^{\pi}$

上式表明，代表策略评估的贝尔曼期望方程和代表策略改进的贝尔曼最优方程通过贪心策略联系在一起。

根据最大值和期望值的不等式有 $\mathcal{B} ^*V^{\pi}\geqslant \mathcal{B} ^{\pi}V^{\pi}$ 。在应用策略改进时，对 $\pi$ 的策略评估应当已经收敛，所以此时 $\mathcal{B} ^{\pi}V^{\pi}=V^{\pi}$ ，从而 $\mathcal{B} ^{\pi '}V^{\pi}\geqslant V^{\pi}$ 。