【强化学习的数学原理】课程笔记--6（Actor-Critic方法）

系列笔记：
【强化学习的数学原理】课程笔记–1（基本概念，贝尔曼公式）
【强化学习的数学原理】课程笔记–2（贝尔曼最优公式，值迭代与策略迭代）
【强化学习的数学原理】课程笔记–3（蒙特卡洛方法）
【强化学习的数学原理】课程笔记–4（随机近似与随机梯度下降，时序差分方法）
【强化学习的数学原理】课程笔记–5（值函数近似，策略梯度方法）

Actor-Critic 方法

Actor-Critic 属于策略梯度（PG）方法，实际上是将 值函数近似 和 Policy gradient 方法进行了结合。具体来说，上一节介绍的 Policy gradient 迭代式是：
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha \nabla_{\theta} J(\theta_t)\\ &= \theta_t + \alpha E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) q_{\pi}(S,A)]\\ &\overset{随机梯度}{=} \theta_t + \alpha \nabla_{\theta} \ln \pi(a_t|s_t,\theta_t) q_t(s_t,a_t) \end{aligned}$

这里面求解 $\pi$ 就是 policy-based (Actor) ，然后求解 $\pi$ 需要知道 action value $q_t(s_t,a_t)$ ，这一步就是 value-based (Critic) 。在之前的章节中，介绍了两种计算 action value $q_t(s_t,a_t)$ 的方法：

蒙特卡洛方法：生成一个完整的 episode，使用 episode 中所有从 $s_t, a_t)$ 出发得到的 action value 的均值来估计 $q_t(s_t,a_t)$ ，即为上一节介绍的 REINFORCE 算法
时序差分方法：每走一步生成一个样本，就可以更新对应的 action value，走足够多步，也可也逐渐估计到比较准确的 $q_t(s_t,a_t)$ ，即为本节的 Actor-Critic 算法

QAC 算法

QAC 算法是一种比较简单的 Actor-Critic 方法，它在 update action value 时用的是时序差分方法中的 Sarsa 算法：

其中 value update 的公式：
$w_{t+1} = w_t + \alpha_t [r_{t+1} + \gamma q(s_{t+1},a_{t+1},w_t) - q(s_t,a_t,w_t)] \nabla_w q(s_t,a_t,w_t)$
是 Sarsa 的值函数形式，详细可见【强化学习的数学原理】课程笔记–5（值函数近似，策略梯度方法）

Advantage Actor-Critic 算法

Baseline invariance

这里先介绍一下 Baseline invariance，旨在引入一个 $b (s)$ ，使得加入这个偏置之后，不影响 $\nabla_{\theta} \ln \pi(A|S,\theta_t) q_{\pi}(S,A)$ 的期望，且会减小其方差。这里的含义是：在 Policy gradient 中，
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha \nabla_{\theta} J(\theta_t)\\ &= \theta_t + \alpha E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) q_{\pi}(S,A)]\\ &\overset{随机梯度}{=} \theta_t + \alpha \nabla_{\theta} \ln \pi(a_t|s_t,\theta_t) q_t(s_t,a_t) \end{aligned}$
我们用通过多次的单个样本迭代来拟合随机变量的期望，但如果 $\nabla_{\theta} \ln \pi(A|S,\theta_t) q_{\pi}(S,A)$ 的方差本身是比较大的（由于真实分布未知，不排除这种可能），那么在样本量不足够多时，对期望的估计有更大的可能是不准的。eg：见下图，当从方差大的分布中采样时，其离我们希望拟合的期望值 0 往往距离较远；而从小方差分布中采样，则基本都离期望值 0 很近了。

1.不影响期望

要证明
$E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) q_{\pi}(S,A)] = E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) (q_{\pi}(S,A) - b(S))]$
只需证：
$E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) b(S)] = 0$
这个过程比较trivial：
$\begin{aligned} E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) b(S)] &= \sum_s \eta(s) \sum_a \pi(a|s,\theta_t) \nabla_{\theta} \ln \pi(A|S,\theta_t) b(s)\\ &= \sum_s \eta(s) \sum_a \nabla_{\theta}\pi(A|S,\theta_t) b(s) \quad (由于 \nabla_{\theta} \ln \pi(A|S,\theta_t) = \frac{\nabla_{\theta}\pi(A|S,\theta_t)}{\pi(a|s,\theta_t)})\\ &=\sum_s \eta(s) b(s) \sum_a \nabla_{\theta}\pi(A|S,\theta_t)\\ &= \sum_s \eta(s) b(s) \nabla_{\theta} \sum_a \pi(A|S,\theta_t)\\ &= \sum_s \eta(s) b(s) \nabla_{\theta} 1 = 0 \end{aligned}$

1.减小方差

记 $\nabla_{\theta} \ln \pi(A|S,\theta_t) (q_{\pi}(S,A) - b(S))$

$\begin{aligned} \text{tr}[\text{var} (X)] &= \text{tr}[E[(X - E(X))^2]]\\ &= \text{tr}[E[ (X-E(X))(X-E(X))^T]]\\ &= \text{tr}[E[ XX^T - E(X)X^T - XE(X)^T + E(X)E(X)^T]]\\ &= E[X^TX - X^TE(X) - E(X)^T X + E(X)^TE(X) ] \quad (由于 \text{tr}(AB) = \text{tr}(BA))\\ &= E[X^TX] - E[X]^TE(X) - E(X)^TE(X) + E(X)^TE(X)\\ &= E[X^TX] - E[X]^TE(X) \end{aligned}$

由于 $E (X)$ 与 $b (S)$ 无关，因此要最小化 $\text{tr}[\text{var} (X)]$ ，只需要考虑最小化 $E[X^TX]$ ：
$\begin{aligned} \nabla_{b} E[X^TX] &= \nabla_{b}E[(\nabla_{\theta} \ln \pi)^T (\nabla_{\theta} \ln \pi) (q_{\pi}(S,A) - b(S))^2]\\ &= \nabla_{b}E[||\nabla_{\theta} \ln \pi||^2 (q_{\pi}(S,A) - b(S))^2]\\ &=\nabla_{b}\sum_s \eta(s) E_{A \sim \pi} [||\nabla_{\theta} \ln \pi||^2 (q_{\pi}(S,A) - b(S))^2]\\ &= -2 \sum_s \eta(s) E_{A \sim \pi} [||\nabla_{\theta} \ln \pi||^2 (q_{\pi}(S,A) - b(S))]\\ &= 0 \end{aligned}$

$\Rightarrow \qquad E_{A \sim \pi} [||\nabla_{\theta} \ln \pi||^2 (q_{\pi}(S,A) - b(S))] = 0 , \quad \forall s$
因此
$b^*(s) = \frac{E_{A \sim \pi} [||\nabla_{\theta} \ln \pi||^2 q_{\pi}]}{E_{A \sim \pi} [||\nabla_{\theta} \ln \pi||^2 ]}, \quad \forall s$

不过上式比较复杂，实践中常常使用 $b^*(s) = E_{A \sim \pi} [q_{\pi}(s,A)] = v_{\pi}(s) , \quad \forall s$ 也有还不错的效果。

Advantage Actor-Critic （A2C）算法就是将 $b (S)$ 取为 $b^*(s) = v_{\pi}(s)$ 时的算法，因此：
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) (q_{\pi}(S,A) - v_{\pi}(S))]\\ &\overset{.}{=} \theta_t + \alpha E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) \delta(S,A)]\\ &\overset{随机梯度}{=} \theta_t + \alpha \nabla_{\theta} \ln \pi(a_t|s_t,\theta_t) \delta(s_t,a_t) \end{aligned}$

这里 $\delta(S,A) = q_{\pi}(S,A) - v_{\pi}(S)$ 称为优势函数。这里的含义是，由于 $v_{\pi}(S) =E_{A \sim \pi} [q_{\pi}(s,A)]$ ，因此 $\delta(S,A)$ 越大，表示当前 action 的 value 比平均值来的更大，即更有优势。根据 $\delta(s_t,a_t)$ 的值来判断 $\theta_{t+1}$ 的改进方向也确实比单纯只用 $q_{\pi}(s_t,a_t)$ 更为精准，因为 action value 的相对大小比绝对大小更有意义。

这里由于 $q_{\pi}(s_t, a_t) = E [R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s_t, A_t = a_t]$
因此求解 $\delta(s_t,a_t) = q_{\pi}(s_t,a_t) - v_{\pi}(s_t) = E [R_{t+1} + \gamma v_{\pi}(S_{t+1}) - v_{\pi}(S_t) | S_t = s_t, A_t = a_t]$
转化求解 state value $v_{\pi}(s_t)$ ，根据【强化学习的数学原理】课程笔记–5（值函数近似，策略梯度方法），其值函数近似迭代为：
$w_{t+1} = w_t + \alpha_t ( r_{t+1} + \gamma v_t(s_{t+1}) - v(s_t,w_k))\nabla_w v(s_t,w_k) = w_t + \alpha_t \delta_t \nabla_w v(s_t,w_k)$

Off-policy Actor-Critic

不难发现之前学习的几个 Policy grandient 算法：REINFORCE, QAC 以及 A2C ，都是 on-policy 算法，因为其目标函数：
$E_{S \sim \eta , A \sim \pi}[\nabla_{\theta} \ln \pi(A|S,\theta_t) (q_{\pi}(S,A) - b(S))]$
在采样时，都要依赖策略 $\pi$ （因为 $\sim \pi$ ）。

在实际使用时，要想将这些 on-policy 算法转成 off-policy 的，需要用到一种技术叫 重要性采样（事实上，所有 on-policy 的强化学习算法都可以通过这个技术转成 off-policy 的，并且重要性采样这个技术也可以用于其他领域，当要估计的分布与数据采样的分布不同的情况）

重要性采样

重要性采样主要用于处理如下问题：

目标是估计 $E_{X \sim p_0}[X]$
但现在我们只有一批根据分布 $p_1$ 采到的样本 ${x_1, x_2, ...\}$ ，现在想用这些样本来估计 $E_{X \sim p_0}[X]$

由于
$E_{X \sim p_0}[X] = \sum_x p_0(x)x = \sum_x p_1(x) \frac{p_0(x)}{p_1(x)} x = E_{X \sim p_1}[f(X)]，\text{其中 } f(x) = \frac{p_0(x)}{p_1(x)} x$

根据 大数定理 （见【强化学习的数学原理】课程笔记–3（蒙特卡洛方法））， $\frac{1}{n} \sum_{i=1}^n f(x_i) = \frac{1}{n} \sum_{i=1}^n \frac{p_0(x_i)}{p_1(x_i)} x_i$
是 $E_{X \sim p_1}[f(X)]$ 的无偏估计。其中 $\frac{p_0(x_i)}{p_1(x_i)}$ 也称 重要性权重。一个直观的理解是：当 $p_0(x_i) > p_1(x_i)$ 时，说明 $p_1$ 分布中，采到样本 $x_i$ 的概率要小一些，那么为了拟合 $p_0$ 分布的采样情况，当采到一个 $x_i$ 时，要增加它的权重，才能更近似 $p_0$ 分布的采样效果。（实际使用中， $p_0$ 和 $p_1$ 分布是两个神经网络， $p_1$ 是一个已经训好的网络，而 $p_0$ 是我们要训的网络）

现在可以描述 Off-policy Actor-Critic 算法，【强化学习的数学原理】课程笔记–5（值函数近似，策略梯度方法）给出了 Policy Gradient 方法的目标函数：
$E[v_{\pi}(S)] = \sum_{s} d(s)v_{\pi}(s)$
其中 $d (s)$ 是平稳分布。这里我们记 $\beta$ 为 behavior policy，则 Off-policy 算法的目标函数变成：
$J(\theta) = E_{S \sim d_{\beta}}[v_{\pi}(S)] = \sum_{s} d_{\beta}(s)v_{\pi}(s)$

其梯度为：

$\nabla_{\theta} J(\theta) = E_{S \sim \rho, A \sim \beta}[\frac{\pi(A|S,\theta)}{\beta(A|S)} \nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)]$
其中 $\rho(s) = \sum_s' d_{\beta}(s') \sum_{k=0}^{\infin} \gamma^k [P_{\pi}^k]_{s's}$ 即所有从 $s^{'}$ 到 $s$ 的 trajectory 的 discounted probability 之和。

Proof：在【强化学习的数学原理】课程笔记–5（值函数近似，策略梯度方法）中已经证明：
$\nabla_{\theta} v_{\pi}(s) = \sum_{s'} \sum_{k=0}^{\infin} \gamma^k [P_{\pi}^k]_{ss'} \sum_a \nabla_{\theta} \pi(a|s',\theta) q_{\pi}(s',a)$
因此：
$\begin{aligned} \nabla_{\theta} J(\theta) &=\nabla_{\theta} \sum_{s} d_{\beta}(s)v_{\pi}(s) = \sum_{s} d_{\beta}(s) \nabla_{\theta} v_{\pi}(s)\\ &= \sum_{s} d_{\beta}(s) \sum_{s'} \sum_{k=0}^{\infin} \gamma^k [P_{\pi}^k]_{ss'} \sum_a \nabla_{\theta} \pi(a|s',\theta) q_{\pi}(s',a)\\ &= \sum_{s'} (\sum_{s} d_{\beta}(s) \sum_{k=0}^{\infin} \gamma^k [P_{\pi}^k]_{ss'}) \sum_a \nabla_{\theta} \pi(a|s',\theta) q_{\pi}(s',a)\\ &= \sum_{s'} \rho(s') \sum_a \nabla_{\theta} \pi(a|s',\theta) q_{\pi}(s',a)\\ &= E_{S \sim \rho}[\sum_a \nabla_{\theta} \pi(a|S,\theta) q_{\pi}(S,a)]\\ &= E_{S \sim \rho}[\sum_a \beta(a|S) \frac{ \pi(a|S,\theta)}{\beta(a|S)} \frac{\nabla_{\theta} \pi(a|S,\theta)}{\pi(a|S,\theta)} q_{\pi}(S,a)]\\ &= E_{S \sim \rho}[\sum_a \beta(a|S) \frac{ \pi(a|S,\theta)}{\beta(a|S)} \nabla_{\theta} \ln \pi(a|S,\theta) q_{\pi}(S,a)]\\ &= E_{S \sim \rho, A \sim \beta}[\frac{\pi(A|S,\theta)}{\beta(A|S)} \nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)] \end{aligned}$

综上，Off-policy Actor-Critic 算法的迭代式为（考虑 Baseline invariance）：

$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha E_{S \sim \rho , A \sim \beta}[\frac{\pi(A|S,\theta)}{\beta(A|S)} \nabla_{\theta} \ln \pi(A|S,\theta_t) (q_{\pi}(S,A) - v_{\pi}(S))]\\ &\overset{.}{=} \theta_t + \alpha E_{S \sim \rho , A \sim \beta}[\frac{\pi(A|S,\theta)}{\beta(A|S)}\nabla_{\theta} \ln \pi(A|S,\theta_t) \delta(S,A)]\\ &\overset{随机梯度}{=} \theta_t + \alpha \frac{\pi(a_t|s_t,\theta_t) }{\beta(a_t|s_t)} \nabla_{\theta} \ln \pi(a_t|s_t,\theta_t) \delta(s_t,a_t) \end{aligned}$

其算法为：

Deterministic Policy Gradient (DPG)

【强化学习的数学原理】课程笔记–5（值函数近似，策略梯度方法）中推导了 statistical policy 的目标函数梯度的统一形式：

$\nabla_{\theta} J(\theta) = \sum_s \eta(s) \sum_a \nabla_{\theta} \pi(a|s,\theta) q_{\pi}(s,a)$
上式的一个等价形式： $\nabla_{\theta} J(\theta) = E _{S \sim \eta, A \sim \pi(S,\theta)} [\nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)]$

类似的，Deterministic policy $\mu$ 是贪婪策略，因此
$\mu(a|s) = \begin{cases} 1, \quad a = \argmax_{a \in A} q(s,a)\\ 0, \quad a \neq \argmax_{a \in A} q(s,a) \end{cases}$

其对应的目标函数梯度的统一形式为：

$\begin{aligned} \nabla_{\theta} J(\theta) &= \sum_s \eta(s) \nabla_{\theta} \mu(s) \nabla_{a}q_{\mu}(s,a=\mu(s))\\ &= E _{S \sim \eta} [\nabla_{\theta} \mu(s) \nabla_{a}q_{\mu}(s,a=\mu(s))] \end{aligned}$

具体证明见强化学习的数学原理

综上，Deterministic Actor-Critic 算法的迭代式为（考虑 Baseline invariance）：

$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha E _{S \sim \eta} [\nabla_{\theta} \mu(s) \nabla_{a}q_{\mu}(s,a=\mu(s))]\\ &\overset{随机梯度}{=} \theta_t + \alpha \nabla_{\theta} \mu(s_t) \nabla_{a}q_{\mu}(s_t,a=\mu(s_t)) \end{aligned}$

由于采样时无需依赖 policy $\mu$ ，因此 Deterministic Actor-Critic 很自然是 off-policy 的。

这里利用了对 action value $q(s_t,a_t)$ 的值函数估计：
$w_{t+1} = w_t + \alpha_t [r_{t+1} + \gamma q(s_{t+1},\mu(s_{t+1},\theta_t),w_t) - q(s_t,a_t,w_t)] \nabla_w q(s_t,a_t,w_t)$

注意这里的样本虽然是用到了 $\{s_t, a_t, r_{t+1}, s_{t+1}, \hat a_{t+1}\}$ ，但其中 $\hat a_{t+1}$ ，其实是由当前 target policy $\mu(s_{t+1},\theta_t)$ 取得的，而不是采样来的。下一步的样本 $s_{t+1}, a_{t+1})$ 才是再根据 behavior policy 采样得到的。