《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 9.3.2 无折扣情形下的梯度推导

v3 链接

9.3.2 无折扣情形下的梯度推导

平均奖励 $\bar r_\pi$ 的定义对折扣和无折扣情况都有效。在折扣情况下的梯度是一个近似值，它在无折扣情况下的梯度更优雅。

因为无折扣奖励和 ${\mathbb E}[R_{t+1}+R_{t+2}+R_{t+3}+\cdots|S_t=s]$ 可能发散，因此以特别的方式定义状态价值和动作价值：

$v_\pi(s)\doteq{\mathbb E}[(R_{t+1}\textcolor{blue}{-\bar r_\pi})+(R_{t+2}\textcolor{blue}{-\bar r_\pi})+(R_{t+3}\textcolor{blue}{-\bar r_\pi})+\cdots|S_t=s]$

$q_\pi(s,a)\doteq{\mathbb E}[(R_{t+1}-\bar r_\pi)+(R_{t+2}-\bar r_\pi)+(R_{t+3}-\bar r_\pi)+\cdots|S_t=s,A_t=a]$

其中 $\bar r_\pi$ 是平均奖励，它是在给定策略 $\pi$ 下确定的。
在文献中， $v_\pi(s)$ 有不同的名称，如差异奖励[65]或偏差。可以验证，上面定义的状态值满足如下 Bellman-like 公式:

$v_\pi(s)=\sum\limits_a \pi(a|s,\theta)\Big[\sum\limits_r p(r|s,a)(r-\bar r_\pi)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\Big]~~~~~~~~~~(9.22)$

由于 $v_\pi(s)=\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)$ ，
则 $q_\pi(s,a)=\sum\limits_r p(r|s,a)(r-\bar r_\pi)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)$

式 (9.22) 的矩阵形式为 $v_\pi=r_\pi-\bar r_\pi{\bf 1}_n + P_\pi v_\pi~~~~~~~~~~(9.23)~~~~\textcolor{blue}{泊松公式}$

其中 ${\bf 1}_n=[1,\cdots,1]^T\in {\mathbb R}^n$

如何求解 $v_\pi$ 呢？

定理 9.4 ：泊松公式的解

令 $v_\pi^*=(I_n-P_\pi+{\bf 1}_n d_\pi^T)^{-1} r_\pi~~~~~~~~~~(9.24)$

$v_\pi^*$ 是式 (9.23) 中的泊松公式的解。

此外，泊松公式的任意解都具有以下形式 $v_\pi=v_\pi^*+c{\bf 1}_n$
其中 $c\in {\mathbb R}$

这个理论表明泊松公式的解可能不唯一。

Box 9.5: Proof of Theorem 9.4

证明分 3 步
1、证明式 (9.24) 中的 $v_\pi^*$ 是泊松公式的一个解。

在这里插入图片描述

令 $A\doteq I_n-P_\pi+{\bf 1}_nd_\pi^T$
根据式 (9.24)，有 $v_\pi^*=A^{-1}r_\pi$ 。 $A$ 是可逆的，将在第 3 步中证明。
将 $v_\pi^*=A^{-1}r_\pi$ 代入式 (9.23)，有

$A^{-1}r_\pi=r_\pi-{\bf 1}_n \textcolor{blue}{d_\pi^T r_\pi} + P_\pi A^{-1}r_\pi$

$(-A^{-1}+I_n-{\bf 1}_nd_\pi^T+P_\pi A^{-1})r_\pi=0$

$(-I_n+A-{\bf 1}_nd_\pi^TA+P_\pi )A^{-1}r_\pi=0~~~~~$ 将 $A^{-1}$ 提出来

上式括号里的项为 0。因为
$-I_n+A-{\bf 1}_nd_\pi^TA+P_\pi=-I_n+(I_n-P_\pi+{\bf 1}_nd_\pi^T)-{\bf 1}_nd_\pi^T(I_n-P_\pi+{\bf 1}_nd_\pi^T)+P_\pi=0~~~~~$ 将 $A\doteq I_n-P_\pi+{\bf 1}_nd_\pi^T$ 代入

因此 (9.24) 中的 $v_\pi^*$ 是泊松公式 (9.23) 的一个解。

第 2 步：解的一般表达式

将 $\bar r_\pi=d_\pi^T r_\pi$ 代入 (9.24)，得

$v_\pi=r_\pi-{\bf 1}_n d_\pi^Tr_\pi+P_\pi v_\pi~~~~~~~~~~(9.25)$

$(I_n-P_\pi)v_\pi=(I_n-{\bf 1}_n d_\pi^T)r_\pi~~~~~~~~~~(9.26)$

注意 $I_n- P_\pi$ 是奇异的，因为对任意 $\pi$ ，都有 $(I_n- P_\pi){\bf 1}_n=0$ 。注意 $P_\pi {\bf 1}_n={\bf 1}_n$
因此，(9.26) 的解不是唯一的，如果 $v_\pi^*$ 是一个解，那么 $v_\pi^*+x$ 也是任何 $\in \text{Null}(I_n - P_\pi)$ 的解。
当 $P_\pi$ 不可约时， $\text{Null}(I_n - P_\pi) {\bf 1}_n= \text{span}\{{\bf 1}_n\}$ 。
那么泊松方程的任何解都可以表示为 $v_\pi^*+ c{\bf 1}_n$ ，其中 $\in {\mathbb R}$ 。

第 3 步：证明 $A=I_n-P_\pi +{\bf 1}_nd_\pi^T$ 是可逆的。

由于 $v_\pi^*$ 涉及 $A^{-1}$ ，有必要证明 $A$ 是可逆的。

引理 9.3 A 可逆及其证明

Lemma 9.3. 矩阵 $I_n-P_\pi +{\bf 1}_nd_\pi^T$ 是可逆的，且逆矩阵为 $(I_n-P_\pi +{\bf 1}_nd_\pi^T)^{-1}=\sum\limits_{k=1}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)+I_n$

证明：
首先声明一些基本事实

令 $\rho(M)$ 为矩阵 $M$ 的谱半径。

如果 $\rho(M)< 1$ 则 $I - M$ 可逆。

当且仅当 $\lim\limits_{k\to \infty}M^k=0$ 时， $\rho(M)< 1$ 。
——————————
基于以上事实，接下来证明 $\lim\limits_{k\to\infty}(P_\pi-{\bf 1}_nd_\pi^T)^k\to 0$

$(P_\pi-{\bf 1}_nd_\pi^T)^k=P_\pi^k-{\bf 1}_nd_\pi^T,~~~~~k\geq 1~~~~~~~~~~(9.27)$

通过归纳证明 (9.27)

当 $k = 1$ ，等式成立。

当 $k = 2$ ，
$\begin{aligned}(P_\pi-{\bf 1}_nd_\pi^T)^2&=(P_\pi-{\bf 1}_nd_\pi^T)(P_\pi-{\bf 1}_nd_\pi^T)\\ &=P_\pi^2-P_\pi{\bf 1}_nd_\pi^T-{\bf 1}_nd_\pi^T P_\pi+{\bf 1}_nd_\pi^T{\bf 1}_nd_\pi^T\\ &=P_\pi^2-{\bf 1}_nd_\pi^T\end{aligned}$

其中最后一个等号成立是由于 $\textcolor{blue}{P_\pi {\bf 1}_n={\bf 1}_n}, ~~d_\pi^TP_\pi=d_\pi^T,~~\textcolor{blue}{d_\pi^T{\bf 1}_n=1}$

类似地， $k\geq3$
$\begin{aligned}(P_\pi-{\bf 1}_nd_\pi^T)^3&=(P_\pi-{\bf 1}_nd_\pi^T)^2(P_\pi-{\bf 1}_nd_\pi^T)\\ &=(P_\pi^2-{\bf 1}_nd_\pi^T)(P_\pi-{\bf 1}_nd_\pi^T)\\ &=P_\pi^3-{\bf 1}_nd_\pi^T-{\bf 1}_nd_\pi^T+{\bf 1}_nd_\pi^T\\ &=P_\pi^3-{\bf 1}_nd_\pi^T\end{aligned}$

因为 $d_\pi$ 是状态的平稳分布，有 $\lim\limits_{k\to\infty}P_\pi^k=d_\pi^T {\bf 1}_n$ ，则

$\lim\limits_{k\to \infty}(P_\pi-{\bf 1}_n d_\pi^T)^k=\lim\limits_{k\to \infty}P_\pi^k-d_\pi^T{\bf 1}_n=0$

因此，若是 $\rho(P_\pi -{\bf 1}_n d_\pi^T) < 1$ ，则 $I_n-(P_\pi -{\bf 1}_n d_\pi^T)$ 可逆。

其逆 $\begin{aligned}(I_n-(P_\pi -{\bf 1}_n d_\pi^T))^{-1}&=\sum\limits_{k=0}^\infty(P_\pi -{\bf 1}_nd_\pi^T)^k~~~~~~\textcolor{blue}{???}\\ &=I_n+\sum\limits_{k=\textcolor{blue}{1}}^\infty(P_\pi -{\bf 1}_nd_\pi^T)^k\\ &=I_n+\sum\limits_{k=1}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)~~~~~~~~~~~~~~\textcolor{blue}{代入~式~(9.27)}~~~~~~Lemma ~9.3 ~证毕\\ &=\sum\limits_{k=\textcolor{blue}{0}}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)+{\bf 1}_nd_\pi^T\end{aligned}$

引理 9.3 的证明受到 [66] 的启发。
然而，在 [66] 中给出的结果 $(I_n-P_\pi+{\bf 1}_nd_\pi^T)^{-1}=\sum\limits_{k=0}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)$ 是不准确的，因为 $\sum\limits_{k=0}^\infty (P_\pi^k-{\bf 1}_nd_\pi^T){\bf 1}_n=0$ ，则 $\sum\limits_{k=0}^\infty (P_\pi^k-{\bf 1}_nd_\pi^T)$ 是奇异的。【奇异矩阵指的是行列式为零的方阵】
引理 9.3 纠正了这个错误。

梯度的推导

尽管在无折扣情况下 $v_\pi$ 的值不是唯一的，如定理 9.4 所示，但 $\bar r_\pi$ 的值是唯一的。
特别地，从泊松方程可以得出

在这里插入图片描述

$\begin{aligned}\bar r_\pi{\bf 1}_n&=r_\pi+(P_\pi-I_n)v_\pi\\ &=r_\pi+(P_\pi-I_n)(v_\pi^*+c{\bf 1}_n)\\ &=r_\pi+(P_\pi-I_n)v_\pi^*\end{aligned}$

值得注意的是，待定值 $c$ 被消去了，因此 $\bar r_\pi$ 是唯一的。
因此，我们可以计算 $\bar r_\pi$ 未折扣情况下的梯度。
另外，因为 $v_\pi$ 不是唯一的，所以 $\bar v_\pi$ 也不是唯一的。
我们不研究未折扣情况下 $\bar v_\pi$ 的梯度。
对于感兴趣的读者，值得一提的是，我们可以添加更多的约束来唯一地从泊松方程解 $v_\pi$ 。
例如，假设存在循环状态，则可以确定该循环状态的状态值[65,Section II]，从而可以确定 $c$ 。
也有其他的方法来确定。例如，参见 [2] 中的式 (8.6.5)-(8.6.7)。

定理 9.5 无折扣情形下 $\bar r_\pi$ 的梯度

在无折扣情形下， $\bar r_\pi$ 的梯度为：
$\begin{aligned}\nabla_\theta \bar r_\pi&=\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)\\ &={\mathbb E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]~~~~~~~~~~(9.28)\end{aligned}$

其中 $S\sim d_\pi$ ， $A\sim \pi(S,\theta)$

严格成立，且 $S$ 符合平稳分布。

Box 9.6: Proof of Theorem 9.5

首先，有 $v_\pi(s)=\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)$

$\begin{aligned}\nabla_\theta v_\pi(s)&=\nabla_\theta\Big[\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)\Big]\\ &=\sum\limits_{a\in {\cal A}}\Big[\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)+\pi(a|s,\theta)\nabla_\theta q_\pi(s,a)\Big]\end{aligned}~~~~~~~~~~(9.29)$

其中动作价值 $\begin{aligned}q_\pi(s,a)&=\sum\limits_r p(r|s,a)(r-\bar r_\pi)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\\ &=r(s,a)-\bar r_\pi+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\end{aligned}$

最后一个等号中： $\sum\limits_r p(r|s,a)r=r(s,a),~~~\underbrace{\sum\limits_r p(r|s,a)}_{1}\bar r_\pi= r_\pi$

$\nabla_\theta q_\pi(s,a)=0-\nabla_\theta\bar r_\pi+\sum\limits_{s^\prime}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)$

代回式 (9.29)

$\begin{aligned}\nabla_\theta v_\pi(s)&=\sum\limits_{a\in {\cal A}}\Big[\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)+\pi(a|s,\theta)\Big(-\nabla_\theta\bar r_\pi+\sum\limits_{s^\prime}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)\Big)\Big]\\ &=\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)-\nabla_\theta\bar r_\pi+\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)\sum\limits_{s^\prime}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)~~~~~~~~~~(9.30)\end{aligned}$

令 $u(s)\doteq \sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)$

因为 $\sum\limits_{a\in{\cal A}}\pi(a|s,\theta)\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)=\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s)\nabla_\theta v_\pi(s^\prime)$

将式 (9.30) 写成矩阵形式：
$\underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\pi(s)\\ \vdots\\\end{bmatrix}}_{\nabla_\theta v_\pi \in{\mathbb R}^{mn}}=\underbrace{\begin{bmatrix}\vdots\\ u(s)\\ \vdots\\\end{bmatrix}}_{u\in{\mathbb R}^{mn}}-{\bf 1}_n\otimes \nabla_\theta \bar r_\pi+(P_\pi \otimes I_m) \underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\pi(s^\prime)\\ \vdots\\\end{bmatrix}}_{\nabla_\theta v_\pi \in{\mathbb R}^{mn}}$

简写为：

$\nabla_\theta v_\pi=u-{\bf 1}_n\otimes \nabla_\theta \bar r_\pi+(P_\pi\otimes I_m)\nabla_\theta v_\pi$

其中 $n=|\cal S|$ ， $m$ 为参数向量 $\theta$ 的维度。

${\bf 1}_n\otimes \nabla_\theta \bar r_\pi=u+(P_\pi\otimes I_m)\nabla_\theta v_\pi-\nabla_\theta v_\pi$

两边同乘 $d_\pi^T\otimes I_m$
$d_\pi^T\otimes I_m{\bf 1}_n\otimes \nabla_\theta \bar r_\pi =d_\pi^T\otimes I_mu+d_\pi^T\otimes I_m(P_\pi\otimes I_m)\nabla_\theta v_\pi-d_\pi^T\otimes I_m\nabla_\theta v_\pi$

$d_\pi^T{\bf 1}_n\otimes \nabla_\theta \bar r_\pi =d_\pi^T\otimes I_mu$

$\begin{aligned}\nabla_\theta \bar r_\pi &=d_\pi^T \otimes I_m u\\ &=\sum\limits_{s\in {\cal S}}d_\pi(s)u(s)~~~~~~~~\textcolor{blue}{参考式~(9.30)~的矩阵形式记法}\\ &=\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)\end{aligned}$