《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 -9.3.1

之前看了 2 次视频，公式有点多，还是没整理出来。
这个版本是以下步骤后的版本

基本把相关的核心论文过了一遍，代码整理了部分
PDF 资料整理 v3 链接
视频链接
习题策略梯度方法需要估计值

函数近似：状态/动作价值、策略

参数化的策略： $\pi(a|s,\theta)$ ，其中 $\theta\in{\mathbb R}^m$ 是一个参数向量

其它形式： $\pi_\theta(s,a)$ ， $\pi(a,s,\theta)$

在这里插入图片描述
策略梯度法的优点：它在处理大的状态/动作空间时更有效。它具有更强的泛化能力，因此在样本使用方面更有效。

9.1 策略表示：表格 ——> 函数

表示形式	表格	函数
如何定义最优策略？	如果策略可以最大化每个状态的价值，则将其定义为最优策略。	如果策略可以最大化某些标量指标，则将其定义为最优策略。
如何更新策略？	直接更改表中的条目	改变参数 $θ$
如何检索一个动作的概率?	查找表中的相应条目	在函数中输入 $(s, a)$ 来计算其概率(见图 9.2(a))。根据函数的结构，我们还可以输入一个状态，然后输出所有动作的概率(见图 9.2(b))。[见下图]

在这里插入图片描述

假设 $J(\theta)$ 是一个标量度量

$\theta_{t+1}=\theta_t+\alpha\nabla_\theta J(\theta_t)$

$\nabla_\theta J$ ： $J$ 关于 $\theta$ 的梯度
$t$ ：时间步
$\alpha$ ：优化学习率

接下来回答 3 个问题：

应该使用什么指标? (9.2 节)
如何计算指标的梯度? (9.3 节)
如何使用经验样本计算梯度? (9.4 节)

9.2 定义最优策略的指标

基于状态价值
基于即时奖励

指标 1：状态价值的加权平均

$\bar v_\pi=\sum\limits_{s\in{\cal S}}d(s)v_\pi(s)$

其中 $d (s)$ 为状态 $s$ 的权值。

满足对任意 $s\in {\cal S}$ ，均有 $d(s)\geq 0$ ，且 $\sum_{s\in{\cal S}}d(s)=1$
$d (s)$ ： $s$ 的概率分布，状态 $s$ 被选中的概率。

$\bar v_\pi={\mathbb E}_{S\in d}[v_\pi(S)]$

如何选择 $d (s)$ ?

情形 1： $d$ 与策略 $\pi$ 无关。

认为所有状态同等重要： $d_0(s)=\frac{1}{|\cal S|}$
只对特定的某个状态 $s_0$ 感兴趣。 (极端情况：代理总是从状态 $s_0$ 开始)。 $d_0(s_0)=1,~~~~~~d_0(s\neq s_0)=0$
〔 $\bar v_\pi=v_\pi(s_0)$ 〕

情形 2： $d$ 依赖于策略 $\pi$
$d_\pi$ ：策略 $\pi$ 下的平稳分布

$d_\pi^TP_\pi=d_\pi^T$

其中 $P_\pi$ 是状态转移概率矩阵

〔主要是计算关于 $\theta$ 的梯度时有区别。〕

Box 8.1：关于平稳分布

已整理的文档链接

平稳分布反映了马尔可夫过程在给定策略下的长期行为。

如果一个状态长期被频繁访问，那么它就更重要，应该得到更高的权重;
如果一个状态很少被访问，那么它的重要性很低，应该得到较低的权重。

$\bar v_\pi$ ：状态价值的权重平均

$\bar v_\pi$ 在文献中的另两种形式
————————
形式一： $J(\theta)={\mathbb E}\bigg[\sum\limits_{t=0}^\infty\gamma^tR_{t+1}\bigg]$

$\begin{aligned}{\mathbb E}\bigg[\sum\limits_{t=0}^\infty\gamma^tR_{t+1} \bigg]&=\textcolor{blue}{\sum\limits_{s\in{\cal S}}d(s)}{\mathbb E}\bigg[\sum\limits_{t=0}^\infty\gamma^tR_{t+1}\bigg|\textcolor{blue}{S_0=s} \bigg]\\ &=\sum\limits_{s\in{\cal S}}d(s)\textcolor{blue}{v_\pi(s)}\\ &=\bar v_\pi\end{aligned}$

————————
形式二：两个向量的内积
$v_\pi=[\cdots,v_\pi(s),\cdots]^T~~\in {\mathbb R}^{|\cal S|}$
$d=[\cdots,d(s),\cdots]^T~~\in {\mathbb R}^{|\cal S|}$

$\bar v_\pi=d^Tv_\pi$

在这里插入图片描述

指标 2：平均一步奖励

平均 one-step 奖励

$\begin{aligned}\bar r_\pi&\doteq \sum\limits_{s\in {\cal S}}d_\pi(s)r_\pi(s)\\ &={\mathbb E}_{S\sim d_\pi}[r_\pi(S)]\end{aligned}$

其中 $d_\pi$ 为平稳分布

$r_\pi(s)\doteq\sum\limits_{a\in{\cal A}}\pi(a|s,\theta)r(s,a)={\mathbb E}_{A\sim\pi(s,\theta)}[r(s,A)|s]~~~~~$ 即时奖励的期望

后面的 $A$ 和前面的 $a$ 的区别是？ ——> $a$ 来自状态 $s$ 的可选动作集合 $\cal A$ ， $A$ 抽样自 $\pi(s,\theta)$
——> 这样转换的目的是？ ——> 计算

$r(s,a)\doteq {\mathbb E}[R|s,a]=\sum_rrp(r|s,a)$

在这里插入图片描述

$\bar r_\pi$ 在文献中的另两种形式
————————
形式一： $J(\theta)=\lim\limits_{n\to\infty}\frac{1}{n}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}\bigg]~~~~~~~$ 平均奖励

$\begin{aligned}\lim\limits_{n\to\infty}\frac{1}{n}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}\bigg]&=\sum\limits_{s\in{\cal S}}d_\pi(s)r_\pi(s)\\ &=\bar r_\pi\end{aligned}~~~~~~$ Box 9.1：证明
————————
形式二：两个向量的内积
$r_\pi=[\cdots,r_\pi(s),\cdots]^T~~\in {\mathbb R}^{|\cal S|}$
$d_\pi=[\cdots,d_\pi(s),\cdots]^T~~\in {\mathbb R}^{|\cal S|}$

$\bar r_\pi=\sum\limits_{s\in{\cal S}}d_\pi(s)r_\pi(s)=d_\pi^Tr_\pi$

在这里插入图片描述

↓ 跑了无穷多步后，从哪里开始变得无关紧要。

在这里插入图片描述

〔 $\bar r_\pi$ ：是对即时奖励求平均，不求 return，因而也无需考虑折扣因子 $\gamma$ 。
则不管是折扣情形还是无折扣情形，式子均保持一致。〕

Box 9.1：证明式 (9.5)

在这里插入图片描述
证明：

对任意状态分布 $d$

$\begin{aligned}\lim\limits_{n\to \infty}\frac{1}{n}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}\bigg]&=\lim\limits_{n\to \infty}\frac{1}{n}\textcolor{blue}{\sum\limits_{s\in {\cal S}}d(s)}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}|\textcolor{blue}{S_0=s}\bigg]\\ &=\sum\limits_{s\in {\cal S}}d(s)\underbrace{\lim\limits_{n\to \infty}\frac{1}{n}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}|S_0=s\bigg]}_{观察发现若是能证明该式~=~\bar r_\pi，则证毕}\\ &=\sum\limits_{s\in {\cal S}}d(s)\bar r_\pi\\ &=\bar r_\pi\end{aligned}$

接下来，只需证明下式对任意起始状态 $s_0\in{\cal S}$ 成立。

$\lim\limits_{n\to \infty}\frac{1}{n}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}|S_0=s_0\bigg]=\bar r_\pi~~~~~~~~~~(9.6)$

$\begin{aligned}\lim\limits_{n\to \infty}\frac{1}{n}{\mathbb E}\bigg[\sum\limits_{t=0}^{n-1}R_{t+1}|S_0=s_0\bigg]&=\lim\limits_{n\to \infty}\frac{1}{n}\sum\limits_{t=0}^{n-1}\textcolor{blue}{{\mathbb E}}\big[R_{t+1}|S_0=s_0\big]\\ &=\lim\limits_{t\to\infty}{\mathbb E}[R_{t+1}|S_0=s_0]\end{aligned}$

Cesaro 均值〔Cesaro mean / Cesaro summation〕

如果 $\{a_k\}_{k=1}^\infty$ 是一个收敛序列，则 $\lim\limits_{k\to\infty}a_k$ 存在；
$\bigg\{\frac{1}{n}\sum\limits_{k=1}^n a_k\bigg\}_{n=1}^\infty$ 也是一个收敛数列，使得 $\lim\limits_{n\to\infty}\frac{1}{n}\sum\limits_{k=1}^n a_k=\lim\limits_{k\to\infty}a_k$

$\begin{aligned}{\mathbb E}[R_{t+1}|S_0=s_0]&=\sum\limits_{s\in{\cal S}}{\mathbb E}[R_{t+1}|S_t=s, S_0=s_0]p^{(t)}(s|s_0)\\ &=\sum\limits_{s\in{\cal S}}{\mathbb E}[R_{t+1}|S_t=s]p^{(t)}(s|s_0)~~~~~\textcolor{blue}{马尔可夫无记忆性}\\ &=\sum\limits_{s\in{\cal S}}\textcolor{blue}{r_\pi(s)}p^{(t)}(s|s_0)\end{aligned}$

其中 $p^{(t)}(s|s_0)$ 表示从 $s_0$ 转移到 $s$ 恰好经过 $t$ 个时间步的概率。

马尔可夫无记忆性：下一个时间步获得的奖励只取决于当前状态，而不取决于前一个状态。

根据平稳分布的定义，有 $\lim\limits_{t\to \infty}p^{(t)}(s|s_0)=d_\pi(s)$
因此，起始状态 $s_0$ 无影响，则

$\lim\limits_{t\to\infty}{\mathbb E}[R_{t+1}|S_0=s_0]=\lim\limits_{t\to\infty}\sum\limits_{s\in{\cal S}}r_\pi(s)p^{(t)}(s|s_0)=\sum\limits_{s\in{\cal S}}r_\pi(s)d_\pi(s)=\bar r_\pi$

得证。

Lemma 9.1：证明 $\bar r_\pi=(1-\gamma)\bar v_\pi$

引理 9.1 ( $\bar v_\pi(\theta)$ 和 $\bar r_\pi(\theta)$ 的等效性)：
当折扣因子 $\gamma \in (0,1)$ 时，有 $\bar r_\pi=(1-\gamma)\bar v_\pi$

〔 $\bar r_\pi$ ：近视，仅考虑即时奖励
$\bar v_\pi$ : 考虑全部时间步的总奖励〕

证明：

注意到 $\bar v_\pi(\theta)=d_\pi^Tv_\pi$ ， $\bar r_\pi(\theta)=d_\pi^Tr_\pi$
其中 $v_\pi$ 和 $r_\pi$ 满足贝尔曼公式 $v_\pi=r_\pi+\gamma P_\pi v_\pi$ ，对该式两边同乘 $d_\pi^T$ ，得

$d_\pi^Tv_\pi=d_\pi^Tr_\pi+\gamma d_\pi^T P_\pi v_\pi$

$\bar v_\pi=\bar r_\pi+\gamma \underbrace{d_\pi^T P_\pi}_{式 ~(8.10), ~=d_\pi^T } v_\pi=\bar r_\pi+\gamma d_\pi^T v_\pi=\bar r_\pi+\gamma \bar v_\pi$

整理即得 $\bar r_\pi=(1-\gamma)\bar v_\pi$ 。证毕。

9.3 指标的梯度

定理 9.1 (策略梯度理论)
$J(\theta)$ 的梯度为： $\nabla_\theta J(\theta)=\sum\limits_{s\in{\cal S}}\eta (s)\sum\limits_{a\in{\cal A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)~~~~~~~~~~(9.8)$

其中 $\eta$ 是状态分布
$\nabla_\theta \pi$ 是 $\pi$ 关于 $\theta$ 的梯度

另一种形式： $\nabla_\theta J(\theta)={\mathbb E}_{S\sim \eta, A\sim \pi(S,\theta)}\Big[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)\Big]~~~~~~~~~~(9.9)$

$\eta$ 在不同的场景可能不同。

在这里插入图片描述

⭐⭐⭐ 式(9.8) 可用式(9.9) 表示

$\begin{aligned}\nabla_\theta J(\theta)&=\sum\limits_{s\in{\cal S}}\eta (s)\sum\limits_{a\in{\cal A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)\\ &={\mathbb E}_{S\sim \eta}\bigg[\sum\limits_{a\in {\cal A}}\nabla _\theta \pi(a|S)q_\pi(S,a)\bigg]\end{aligned}$

转成期望，便于使用梯度下降之类的方法

此外 $\nabla_\theta \ln\pi(a|s,\theta)=\frac{\nabla_\theta \pi(a|s,\theta)}{\pi(a|s,\theta)}$
即有 $\nabla_\theta \pi(a|s,\theta)=\pi(a|s,\theta)\nabla_\theta \ln\pi(a|s,\theta)$
则原式
$\begin{aligned}\nabla_\theta J(\theta)&={\mathbb E}_{S\sim \eta}\bigg[\sum\limits_{a\in {\cal A}}\underbrace{\textcolor{blue}{\pi(a|S,\theta)\nabla_\theta \ln\pi(a|S,\theta)}}_{\nabla_\theta \pi(a|S,\theta)}q_\pi(S,a)\bigg]\\ &={\mathbb E}_{S\sim \eta,A\sim\pi(S,\theta)}\bigg[\nabla_\theta \ln\pi(A|S,\theta)q_\pi(S,A)\bigg]\end{aligned}$

$\pi(a|s,\theta)$ 必须为正，保证 $\ln \pi(a|s,\theta)$ 有效 ——> 使用 softmax 函数〔 $(-\infty, \infty) \to(0,1)$ 〕 $\pi(a|s,\theta)=\frac{e^{h(s,a,\theta)}}{\sum\limits_{a^\prime\in{\cal A}}e^{h(s,a^\prime,\theta)}},~~~a\in {\cal A}~~~~~~~~~~(9.12)$
式中 $h (s, a, θ)$ 是表示在状态 $s$ 时选择动作 $a$ 的偏好的函数。〔特征函数〕
式 (9.12) 中的策略对于任意 $\in {\cal S}$ ，满足 $\in (0,1)$ 和 $Σ_{a\in {\cal A}}\pi(a|s,θ) = 1$ ，该策略可以通过神经网络实现。网络的输入为 $s$ ，输出层为 softmax 层，因此网络对所有 $a$ 输出 $π (a ∣ s, θ)$ ，输出之和等于 1。如图 9.2(b) 所示。

在这里插入图片描述

9.3.1 在折扣情形下的梯度推导

状态价值： $v_\pi(s)={\mathbb E}[R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+\cdots|S_t=s]$
动作价值： $q_\pi(s,a)={\mathbb E}[R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+\cdots|S_t=s,A_t=a]$

$v_\pi(s)=\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)$ 且状态价值满足贝尔曼公式。
在这里插入图片描述

之前的引理 9.1 已经证明 $\bar r_\pi(\theta)=(1-\gamma)\bar v_\pi(\theta)$

Lemma 9.2 (Gradient of $v_\pi(s)$ ).
在折扣情形，对于任意 $s\in{\cal S}$ ，有

$\nabla _\theta v_\pi(s)=\sum\limits_{s^\prime\in{\cal S}}\text{Pr}_\pi(s^\prime|s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)~~~~~~~~~~(9.14)$

其中 $\text{Pr}_\pi(s^\prime|s)\doteq\sum\limits_{k=0}^\infty\gamma^k[P_\pi^k]_{ss^\prime}=[(I_n-\gamma P_\pi)^{-1}]_{ss^\prime}$ 是策略 $\pi$ 下从 $s$ 过渡到 $s^\prime$ 的折扣总概率。
这里， $[·]_{ss^\prime}$ 表示第 $s$ 行第 $s^\prime$ 列的条目， $[P_\pi^k]_{ss^\prime}$ 是在 $π$ 下恰好经过 $k$ 个时间步从 $s$ 过渡到 $s^{'}$ 的概率。

Lemma 9.2： (Gradient of $v_\pi(s)$ ) 的证明

Box 9.2: Proof of Lemma 9.2
对任意 $s\in {\cal S}$ ，有

$\begin{aligned}\nabla_\theta v_\pi(s)&=\nabla_\theta \bigg[\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)\bigg]\\ &=\sum\limits_{a\in {\cal A}}\bigg[\nabla_\theta \pi(a|s,\theta)·q_\pi(s,a)+\pi(a|s,\theta)\underbrace{\nabla_\theta q_\pi(s,a)}_{\textcolor{blue}{接下来求解这一项}}\bigg]~~~~~~~~~~(9.15)~~~\textcolor{blue}{求导法则}\end{aligned}$

其中动作价值 $q_\pi(s,a)=r(s,a)+\gamma\sum\limits_{s^\prime\in{\cal S}}p(s^\prime|s,a)v_\pi(s^\prime)$

因为 $r(s,a)=\sum\limits_r rp(r|s,a)$ 与 $\theta$ 无关，则

$\nabla_\theta q_\pi(s,a)=0 + \gamma \sum\limits_{s^\prime \in {\cal S}}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)$

原式
$\begin{aligned}\textcolor{blue}{\nabla_\theta v_\pi}(s)&=\sum\limits_{a\in {\cal A}}\bigg[\nabla_\theta \pi(a|s,\theta)·q_\pi(s,a)+\pi(a|s,\theta)\gamma \sum\limits_{s^\prime \in {\cal S}}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)\bigg]\\ &=\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)·q_\pi(s,a)+\gamma\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)\sum\limits_{s^\prime \in {\cal S}}p(s^\prime|s,a)\textcolor{blue}{\nabla_\theta v_\pi}(s^\prime)~~~~~~~~~~(9.16)~~~\textcolor{blue}{对每项分别求和}\end{aligned}$

令 $u(s)\doteq\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)$

因为 $\sum\limits_{a\in{\cal A}}\pi(a|s,\theta)\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)=\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s)\nabla_\theta v_\pi(s^\prime)=\sum\limits_{s^\prime\in {\cal S}}[P_\pi]_{ss^\prime}\nabla_\theta v_\pi(s^\prime)$

将式 (9.16) 写成矩阵形式：
$\underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\pi(s)\\ \vdots\\\end{bmatrix}}_{\nabla_\theta v_\pi \in{\mathbb R}^{mn}}=\underbrace{\begin{bmatrix}\vdots\\ u(s)\\ \vdots\\\end{bmatrix}}_{u\in{\mathbb R}^{mn}}+\gamma (P_\pi \otimes I_m) \underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\pi(s^\prime)\\ \vdots\\\end{bmatrix}}_{\nabla_\theta v_\pi \in{\mathbb R}^{mn}}$

简写为：

$\nabla_\theta v_\pi=u+\gamma (P_\pi\otimes I_m)\nabla_\theta v_\pi$

其中 $n=|\cal S|$ ， $m$ 为参数向量 $\theta$ 的维度。

整理上式

$\Big(I_{nm}-\gamma (P_\pi\otimes I_m)\Big)\nabla_\theta v_\pi=u$

$\begin{aligned}\nabla_\theta v_\pi&= (I_{nm}-\gamma P_\pi\otimes I_m)^{-1}u\\ &=(I_n\otimes I_m-\gamma P_\pi\otimes I_m)^{-1}u\\ &=\big[(I_n -\gamma P_\pi)^{-1}\otimes I_m\big]u\end{aligned}$

$\begin{aligned}\nabla_\theta v_\pi(s)&=\sum\limits_{s^\prime\in {\cal S}}\Big[(I_n -\gamma P_\pi)^{-1}\Big]_{ss^\prime}u(s^\prime)~~~~~\textcolor{blue}{注意矩阵形式与原形式的对应记法}\\ &=\sum\limits_{s^\prime\in {\cal S}}\Big[(I_n -\gamma P_\pi)^{-1}\Big]_{ss^\prime}\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)~~~~~~~~~~(9.18)\end{aligned}$

关于 $\Big[(I_n -\gamma P_\pi)^{-1}\Big]_{ss^\prime}$ 的概率解释

因为 $(I_n -\gamma P_\pi)^{-1}=I+\gamma P_\pi+\gamma^2 P_\pi^2+\cdots$

$\Big[(I_n -\gamma P_\pi)^{-1}\Big]_{ss^\prime}=[I]_{ss^\prime}+\gamma [P_\pi]_{ss^\prime}+\gamma^2[P_\pi^2]_{ss^\prime}+\cdots=\sum\limits_{k=1}^\infty\gamma^k[P_\pi^k]_{ss^\prime}$

注意， $[P_\pi^k]_{ss^\prime}$ 是恰好经过 $k$ 个时间步从 $s$ 过渡到 $s^{'}$ 的概率。
因此， $\Big[(I_n -\gamma P_\pi)^{-1}\Big]_{ss^\prime}$ 是使用任意步数从 $s$ 过渡到 $s^{'}$ 的折扣总概率。
通过定义 $\Big[(I_n -\gamma P_\pi)^{-1}\Big]_{ss^\prime}\doteq \text{Pr}_\pi(s'|s)$ ，式 (9.18) 变为 (9.14)。

定理 9.2：折扣情形下 $\bar v_\pi^0$ 的梯度

在折扣因子 $\gamma\in (0,1)$ 的情形下， $\bar v_\pi^0=d_0^Tv_\pi$ 的梯度为：

$\nabla_\theta \bar v_\pi^0={\mathbb E}\Big[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)\Big]$

其中 $S\sim \rho_\pi$ , $A\sim \pi(S,\theta)$

状态分布 $\rho_\pi(s)=\sum\limits_{s^\prime\in {\cal S}}d_0(s^\prime)\text{Pr}(s|s^\prime),~~~~~s\in{\cal S}~~~~~~~~~~(9.19)$

其中 $\text{Pr}(s|s^\prime)=\sum\limits_{k=0}^\infty\gamma^k [P_\pi^k]_{s^\prime s}=\Big[(I -\gamma P_\pi)^{-1}\Big]_{s^\prime s}$ 是在策略 $\pi$ 下从 $s^\prime$ 转移到 $s$ 的折扣概率。

Box 9.3: Proof of Theorem 9.2

由于 $d_0(s)$ 与策略 $\pi$ 无关，则

$\begin{aligned}\nabla_\theta\bar v_\pi^0=\nabla_\theta\sum\limits_{s\in {\cal S}}d_0(s)v_\pi(s)&=\sum\limits_{s\in{\cal S}}d_0(s)\textcolor{blue}{\nabla_\theta} v_\pi(s)\\ &=\sum\limits_{s\in{\cal S}}d_0(s)\underbrace{\sum\limits_{s^\prime\in{\cal S}}\text{Pr}_\pi(s^\prime|s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)}_{引理 ~9.2，式~9.14}\\ &=\sum\limits_{s^\prime\in{\cal S}}\Bigg(\sum\limits_{s\in{\cal S}}d_0(s)\text{Pr}_\pi(s^\prime|s)\Bigg)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)\\ &=\sum\limits_{s^\prime\in{\cal S}}\rho_\pi(s^\prime)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s^\prime,\theta)q_\pi(s^\prime,a)\\ &=\sum\limits_{s\in{\cal S}}\rho_\pi(s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)~~~~~~\textcolor{blue}{将~ s^\prime~ 换成~ s}\\ &=\sum\limits_{s\in{\cal S}}\rho_\pi(s)\sum\limits_{a\in {\cal A}} \textcolor{blue}{\pi(a|s,\theta)\nabla_\theta \ln \pi(a|s,\theta)}q_\pi(s,a)\\ &={\mathbb E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]\end{aligned}$

其中 $S\sim \rho_\pi$ ， $A\sim \pi(S,\theta)$

证毕。

定理 9.3 折扣情形下 $\bar r_\pi$ 和 $\bar v_\pi$ 的梯度

在折扣因子为 $\gamma\in (0,1)$ 的情形下， $\bar r_\pi$ 和 $\bar v_\pi$ 的梯度为：
$\begin{aligned}\nabla_\theta \bar r_\pi=(1-\gamma)\nabla_\theta \bar v_\pi&\approx\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)\\ &={\mathbb E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]\end{aligned}$

其中 $S\sim d_\pi$ ， $A\sim \pi(S,\theta)$

这里，当 $\gamma$ 更接近 1 时，近似更精确。

Box 9.4: Proof of Theorem 9.3

$\begin{aligned}\nabla_\theta \bar v_\pi&=\nabla_\theta\sum\limits_{s\in {\cal S}}d_\pi(s)v_\pi(s)\\ &=\sum\limits_{s\in {\cal S}}\nabla_\theta d_\pi(s)v_\pi(s)+\sum\limits_{s\in {\cal S}}d_\pi(s)\nabla_\theta v_\pi(s)~~~~~~~~~~(9.20)~~~~\textcolor{blue}{求导法则}\end{aligned}$
对第 2 项，将式 (9.17) 代入

$\begin{aligned}\sum\limits_{s\in {\cal S}}d_\pi(s)\nabla_\theta v_\pi(s)=(d_\pi^T\otimes I_m)\nabla_\theta v_\pi&=(d_\pi^T\otimes I_m)\big[(I_n-\gamma P_\pi)^{-1}\otimes I_m\big]u\\ &=\big[d_\pi^T(I_n-\gamma P_\pi)^{-1}\big]\otimes I_m u~~~~~~~~~~(9.21)\\ &=\frac{1}{1-\gamma}d_\pi^T\otimes I_m u\\ &=\frac{1}{1-\gamma}\sum\limits_{s\in {\cal S}}d_\pi(s)\underbrace{\sum\limits_{a\in {\cal A}}\nabla _\theta \pi(a|s,\theta)q_\pi(s,a)}_{u}\end{aligned}$

对于 $d_\pi^T(I_n-\gamma P_\pi)^{-1}=\frac{1}{1-\gamma}d^T_\pi$
两边同乘 $I_n-\gamma P_\pi$ ，得 $d_\pi^T=\frac{1}{1-\gamma}d^T_\pi(I_n-\gamma P_\pi)=\frac{1}{1-\gamma}(1-\gamma)d^T_\pi$

第一项：由于第 2 项包含 $\frac{1}{1-\gamma}$ ，当 $\gamma\to 1$ 时，第 2 项占据主导，因此

$\nabla_\theta \bar v_\pi\approx \frac{1}{1-\gamma}\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla _\theta \pi(a|s,\theta)q_\pi(s,a)$

$\begin{aligned}\nabla_\theta \bar r_\pi=(1-\gamma)\nabla_\theta \bar v_\pi&\approx\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla _\theta \pi(a|s,\theta)q_\pi(s,a)\\ &=\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)\nabla _\theta \ln \pi(a|s,\theta)q_\pi(s,a)\\ &={\mathbb E}[\nabla_\theta\ln \pi(A|S,\theta)q_\pi(S,A)]\end{aligned}$

上式的近似要求当 $\gamma→1$ 时，第一项不趋于无穷。