深度强化学习（九）（改进策略梯度）

微信图片_20240322175413.jpg

深度强化学习（九）（改进策略梯度）

一.带基线的策略梯度方法

Theorem:

设 $b$ 是任意的函数, $b$ 与 $A$ 无关。把 $b$ 作为动作价值函数 $Q_\pi(S, A)$ 的基线, 对策略梯度没有影响:
$\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})=\mathbb{E}_S\left[\mathbb{E}_{A \sim \pi(\cdot \mid S ; \boldsymbol{\theta})}\left[\left(Q_\pi(S, A)-b\right) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(A \mid S ; \boldsymbol{\theta})\right]\right] .$

proof:
$\begin{aligned} \Bbb E_{S}[\Bbb E_{A\sim\pi(\cdot\mid S;\boldsymbol \theta)}[b\cdot\nabla_{\boldsymbol \theta}\ln \pi(A\mid S;\boldsymbol \theta)]]&=\Bbb E_{A,S}[b\cdot \nabla_{\boldsymbol \theta}\ln \pi(A\mid S;\boldsymbol \theta)]\\ &=\sum_{A,S}b\cdot\nabla_{\boldsymbol \theta}\pi(a\mid s;\boldsymbol \theta)\frac{p(a,s)}{\pi(a\mid s;\boldsymbol \theta)}\\ &=\sum_{A,S}b\cdot\nabla_{\boldsymbol \theta}\pi(a\mid s;\boldsymbol \theta)\cdot p(s)\\ &=\sum_{S}[b\cdot p(s)\sum_{A}\nabla_{\boldsymbol \theta}\pi(a\mid s;\boldsymbol \theta)]\\ &=\sum_{S}[b\cdot p(s)\nabla_{\boldsymbol \theta}\sum_{A}\pi(a\mid s;\boldsymbol \theta)]\\ &=\sum_{S}[b\cdot p(s)\nabla_{\boldsymbol \theta}1]\\ &=0 \end{aligned}$
所以策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 可以近似为下面的随机梯度:
$\boldsymbol{g}_b(s, a ; \boldsymbol{\theta})=\left[Q_\pi(s, a)-b\right] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta})$
无论 $b$ 取何值， $\Bbb E_{A,S}[\boldsymbol g_{b}(s,a;\boldsymbol \theta)]$ 都是策略梯度的无篇估计，但是随着 $b$ 取值的变化，方差会出现变化。
$\begin{aligned} \Bbb{Var}&=\Bbb E_{A,S}[(\boldsymbol{g}_b(S, A ; \boldsymbol{\theta})-\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}))^2]\\ &=\Bbb E_{A,S}[\boldsymbol{g}_b(S, A ; \boldsymbol{\theta})^2]-[\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})]^2\\ &=\Bbb E_{A,S}[(Q_{\pi}(S,A)-b)^2\nabla_{\boldsymbol{\theta}}^2\ln \pi(A\mid S;\boldsymbol{\theta})]-[\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})]^2\\ \end{aligned}$

由于 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 是与 $b$ 无关的常数，所以仅需极小化 $\Bbb E_{A,S}[(Q_{\pi}(S,A)-b)^2\nabla_{\boldsymbol{\theta}}^2\ln \pi(A\mid S;\boldsymbol{\theta})]$
$\begin{aligned} \Bbb E_{A,S}[(Q_{\pi}(S,A)-b)^2\nabla_{\boldsymbol{\theta}}^2\ln \pi(A\mid S;\boldsymbol{\theta})]&=\Bbb E_{S}[\Bbb E_{A\sim \pi(A\mid S;\boldsymbol \theta)}[(Q_{\pi}(S,A)-b)^2\nabla_{\boldsymbol \theta}^2\ln\pi(A\mid S;\boldsymbol \theta)]]\\ &=\Bbb E_{S}[\Bbb E_{A\sim \frac{\nabla_{\boldsymbol \theta}^2\pi(A\mid S;\boldsymbol \theta)}{\pi(A\mid S;\boldsymbol \theta)}}[(Q_{\pi}(S,A)-b)^2]] \end{aligned}$
所以要最小化方差，令 $A\sim \frac{\nabla_{\boldsymbol \theta}^2\pi(A\mid S;\boldsymbol \theta)}{\pi(A\mid S;\boldsymbol \theta)}$ 为N-K密度，则
$\begin{aligned} b&=\Bbb E_{A\sim \frac{\nabla_{\boldsymbol \theta}^2\pi(A\mid S;\boldsymbol \theta)}{\pi(A\mid S;\boldsymbol \theta)}}[Q_{\pi}(S,A)]/\Bbb E_{A \sim \frac{\nabla_{\boldsymbol \theta}^2\pi(A\mid S;\boldsymbol \theta)}{\pi(A\mid S;\boldsymbol \theta)}}[]\\ &=\frac{\mathbb{E}_{A \sim \pi_\theta}\left[\nabla_\theta \log \pi_\theta(A \mid S)^T \nabla_\theta \log \pi(A \mid S) Q(S, A)\right]}{\mathbb{E}_{A \sim \pi_\theta}\left[\nabla_\theta \log \pi_\theta(A \mid S)^T \nabla_\theta \log \pi_\theta(A \mid S)\right]} \end{aligned}$

，我们使用 $b=\Bbb E_{A\sim \pi(A\mid S)}[Q_{\pi}(S,A)]=V_\pi(S)$ 作为近似代替。

我们使用状态价值 $V_\pi(s)$ 作基线，得到策略梯度的一个无偏估计：
$\boldsymbol{g}(s, a ; \boldsymbol{\theta})=\left[Q_\pi(s, a)-V_\pi(s)\right] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$

REINFORCE使用实际观测的回报 $u$ 来代替动作价值 $Q_\pi(s, a)$ 。此处我们同样用 $u$ 代替 $Q_\pi(s, a)$ 。此外, 我们还用一个神经网络 $\boldsymbol{w})$ 近似状态价值函数 $V_\pi(s)$ 。这样一来, $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 就被近似成了:
$\tilde{\boldsymbol{g}}(s, a ; \boldsymbol{\theta})=[u-v(s ; \boldsymbol{w})] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$

可以用 $\tilde{\boldsymbol{g}}(s, a ; \boldsymbol{\theta})$ 作为策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的近似, 更新策略网络参数:
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \tilde{\boldsymbol{g}}(s, a ; \boldsymbol{\theta})$
训练价值网络的方法是回归 (regression)。回忆一下, 状态价值是回报的期望：
$V_\pi\left(s_t\right)=\mathbb{E}\left[U_t \mid S_t=s_t\right],$

期望消掉了动作 $A_t, A_{t+1}, \cdots, A_n$ 和状态 $S_{t+1}, \cdots, S_n$ 训练价值网络的目的是让 $v\left(s_t ; \boldsymbol{w}\right)$ 拟合 $V_\pi\left(s_t\right)$ , 即拟合 $u_t$ 的期望。定义

损失失函数:
$L(\boldsymbol{w})=\frac{1}{2 n} \sum_{t=1}^n\left[v\left(s_t ; \boldsymbol{w}\right)-u_t\right]^2 .$

设 $\widehat{v}_t=v\left(s_t ; \boldsymbol{w}\right)$ 。损失函数的梯度是:
$\nabla_{\boldsymbol{w}} L(\boldsymbol{w})=\frac{1}{n} \sum_{t=1}^n\left(\widehat{v}_t-u_t\right) \cdot \nabla_{\boldsymbol{w}} v\left(s_t ; \boldsymbol{w}\right) .$

做一次梯度下降更新 $\boldsymbol{w}$ :
$\boldsymbol{w} \leftarrow \boldsymbol{w}-\alpha \cdot \nabla_{\boldsymbol{w}} L(\boldsymbol{w}) .$
接下来的训练过程与 $re in f orce$ 一样。

二.Advantage Actor-Critic (A2C)

训练价值网络：reinforce使用蒙特卡洛方法直接求出了所有 $u_t$ ,从而可以直接训练 $v_{\pi}(s)$ 而在 $a c t or - cr i t i c$ 中并未使用蒙特卡洛方法，我们依据贝尔曼方程进行自举训练。
$\begin{aligned} V_\pi\left(s_t\right)&=\mathbb{E}_{A_t, S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t\right]\\ &= \Bbb E_{A_t}[\Bbb E_{S_{t+1}}[R_{t}+\gamma \cdot V_{\pi}(S_{t+1})\mid S_t=s_t,A_t] \mid S_t=s_t] \end{aligned}$
从初始状态 $s_t$ 出发，依据策略 $\pi(A\mid S)$ 选取动作 $a_t$ ,再依据状态转移概率 $p(S_{t+1}\mid A_t,S_t)$ ,选中下一刻状态 $s_{t+1}$ ，得出 $r_{t}$ .

则 $y_t=r_t+v_{\pi}(s_{t+1};\boldsymbol{w})$

具体这样更新价值网络参数 $\boldsymbol{w}$ 。定义损失函数
$L(\boldsymbol{w}) \triangleq \frac{1}{2}\left[v\left(s_t ; \boldsymbol{w}\right)-\widehat{y_t}\right]^2 .$

设 $\widehat{v}_t \triangleq v\left(s_t ; \boldsymbol{w}\right)$ 。损失函数的梯度是:
$\nabla_{\boldsymbol{w}} L(\boldsymbol{w})=\underbrace{\left(\widehat{v}_t-\widehat{y}_t\right)}_{\text {TD 误差 } \delta_t} \cdot \nabla_{\boldsymbol{w}} v\left(s_t ; \boldsymbol{w}\right) .$
定义 TD 误差为 $\delta_t \triangleq \widehat{v}_t-\widehat{y}_t$ 。做一轮梯度下降更新 $\boldsymbol{w}:$
$\boldsymbol{w} \leftarrow \boldsymbol{w}-\alpha \cdot \delta_t \cdot \nabla_{\boldsymbol{w}} v\left(s_t ; \boldsymbol{w}\right) .$

训练策略网络：贝尔曼公式:
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right)\right] .$

把近似策略梯度 $\boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}\right)$ 中的 $Q_\pi\left(s_t, a_t\right)$ 替换成上面的期望, 得到:
$\begin{aligned} \boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}\right) & =\left[Q_\pi\left(s_t, a_t\right)-V_\pi\left(s_t\right)\right] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}\right) \\ & =\left[\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right)\right]-V_\pi\left(s_t\right)\right] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}\right) . \end{aligned}$

当智能体执行动作 $a_t$ 之后, 环境给出新的状态 $s_{t+1}$ 和奖励 $r_t$ ; 利用 $s_{t+1}$ 和 $r_t$ 对上面的期望做蒙特卡洛近似, 得到:
$\boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}\right) \approx\left[r_t+\gamma \cdot V_\pi\left(s_{t+1}\right)-V_\pi\left(s_t\right)\right] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}\right) .$

进一步把状态价值函数 $V_\pi(s)$ 替换成价值网络 $\boldsymbol{w})$ , 得到:
$\tilde{\boldsymbol{g}}\left(s_t, a_t ; \boldsymbol{\theta}\right) \triangleq[\underbrace{r_t+\gamma \cdot v\left(s_{t+1} ; \boldsymbol{w}\right)}_{\mathrm{TD} \text { 目标 } \hat{y}_t}-v\left(s_t ; \boldsymbol{w}\right)] \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}\right)$

前面定义了 TD 目标和 TD 误差：
$\widehat{y}_t \triangleq r_t+\gamma \cdot v\left(s_{t+1} ; \boldsymbol{w}\right) \quad \text { 和 } \quad \delta_t \triangleq v\left(s_t ; \boldsymbol{w}\right)-\widehat{y}_t .$

因此, 可以把 $\tilde{\boldsymbol{g}}$ 写成:
$\tilde{\boldsymbol{g}}\left(s_t, a_t ; \boldsymbol{\theta}\right) \triangleq-\delta_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}\right) .$
$\tilde{\boldsymbol{g}}$ 是 $\boldsymbol{g}$ 的近似，所以也是策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的近似。用 $\tilde{\boldsymbol{g}}$ 更新策略网络参数 $\boldsymbol{\theta}$ :
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \tilde{\boldsymbol{g}}\left(s_t, a_t ; \boldsymbol{\theta}\right) .$
训练流程。设当前策略网络参数是 $\boldsymbol{\theta}_{\text {now }}$ , 价值网络参数是 $\boldsymbol{w}_{\text {now }}$ 。执行下面的步骤, 将参数更新成 $\theta_{\text {new }}$ 和 $\boldsymbol{w}_{\text {new }}$ :

观测到当前状态 $s_t$ , 根据策略网络做决策: $a_t \sim \pi\left(\cdot \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)$ , 并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
让价值网络打分:
$\widehat{v}_t=v\left(s_t ; \boldsymbol{w}_{\text {now }}\right) \quad \text { 和 } \quad \widehat{v}_{t+1}=v\left(s_{t+1} ; \boldsymbol{w}_{\text {now }}\right)$
计算 TD 目标和 TD 误差:
$\widehat{y}_t=r_t+\gamma \cdot \widehat{v}_{t+1} \quad \text { 和 } \quad \delta_t=\widehat{v}_t-\widehat{y}_t .$
更新价值网络：
$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_t \cdot \nabla_{\boldsymbol{w}} v\left(s_t ; \boldsymbol{w}_{\text {now }}\right) .$
更新策略网络:
$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}-\beta \cdot \delta_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right) .$