李宏毅深度强化学习导论—

李宏毅深度强化学习导论——策略梯度

news2025/4/17 9:30:57

引言

这是李宏毅老师深度强化学习视频的学习笔记，主要介绍策略梯度的概念，在上篇文章的末尾从交叉熵开始引入策略梯度。

如何控制你的智能体

在这里插入图片描述
上篇文章末尾我们提到了两个问题：

如何定义这些分数 $A$ ，即定义奖励机制；
如何采样这些状态和动作对；

版本0

在这里插入图片描述
我们先来看一个最简单，但不正确的版本。

首先要收集状态-动作对，其实很简单，需要先有一个智能体，这个智能体很傻也没关系，让它去和环境互动，记录互动过程中看到的状态和产生的动作，就可以收集这些状态-动作对。通常我们做多个episode，就可以收集到很多数据，如上图蓝框所示。

这里说这个智能体很傻也没关系，指的是刚开始我们可以随机初始化这个智能体(神经网络)。

收集到这些数据后，我们就可以评价每个动作的好坏，评价就是看智能体在某个状态下执行的动作所得到的分数有多少，这个分数(就是奖励)可正可负可零，正的越多表示这个动作越好，负的越多表示这个动作越不好。

这样我们可以把分数 $A$ 和奖励 $R$ 关联起来： $A_i=r_i$ 。
如果智能体在看到 $s_1$ 执行动作 $a_1$ 后得到的奖励 $r_1$ 是正的，就代表这是一个好的动作，以后尽可能执行这个动作。
如果智能体在看到 $s_2$ 后执行动作 $a_2$ 得到的奖励 $r_2$ 是负的，就代表是一个坏的动作，以后不要执行这个动作。

⚠️ 这里说尽可能是为了增加随机性(探索性)，可能执行 $a_1$ 虽然好，但不是最好的；还有可能先执行一个负奖励的动作，但后面可以得到正奖励超大的很多的动作(下一个版本会看到)。因此通常在训练时会引入一个随机性来探索更多的可能性。

这并不是一个很好的版本，因为通过这种方法训练出来的智能体非常短视，没有长期规划，每次只会执行当前状态下奖励最高的动作。但是当前采取的每个动作会影响接下来互动的发展。
在这里插入图片描述
比如在看到 $s_1$ 采取 $a_1$ 会得到奖励 $r_1$ ，但是会影响环境产生 $s_2$ ，从而影响了奖励 $r_2$ 。

举个例子，闯红灯是不好的(奖励-1)，但如果车上有需急救病人，那么闯红灯可以更快地到达医院(奖励+100)，那么这种情况下应该更灵活一点。

实际上智能体在和环境互动时还可能存在奖励延(Reward delay)问题，例如上面说的最大的奖励+100，智能体要学习牺牲短期奖励(瞬时奖励)来获取更多的长期奖励。

如果我们使用版本0来玩外星人入侵游戏，因为只有开火凯能获得正奖励，那么版本0会训练一个只会开火的无情机器，但不会躲弹的话很快就可以开下一把。

版本1

在这里插入图片描述

所以我们评价动作 $a_1$ 有多好，不应该只看 $r_1$ ，而是要看 $r_1$ 和后续所有的奖励总和 $G_1=r_1+r_2+r_3+\cdots + r_N$ 。然后我们令 $A_1=G_1$ 。

以此类推，评价动作 $a_2$ 有多好，要通过 $G_2=r_2+r_3+\cdots + r_N$ 来看。

这里的 $G$ 称为累积奖励(cumulated reward)：
$G_t = \sum_{n=t}^N r_n$

这个版本就可以解决智能体短视的问题，假设 $a_1$ 是向右，没有立即的奖励，但是向右恰好躲掉了外星人的子弹，那么就可以存活的更久，也就会有更多的机会开火，最后得到的累积奖励更高。

但是版本1也有点问题，就是把后续所有的奖励和当前的奖励同等看待(默认前面的权重全为1)，虽然我们做了 $a_1$ ，最后得到了 $r_N$ ，是有一定的影响，但不应该这么高吧，更多的应该是和执行动作 $a_N$ 有关。

版本2

在这里插入图片描述
所以我们引入一个折扣因子 $\gamma < 1$ 来表示后续影响持续衰退这件事情。
以执行动作 $a_1$ 为例，瞬时奖励 $r_1$ 前的系数还是设为1，因此此时受该动作影响最大。但后续的奖励我们累乘这个因子：
$G_1^\prime = r_1 + \gamma r_2 + \gamma^2 r_3 + \cdots$
即使距离动作 $a_1$ 越远， $\gamma$ 项乘的就越多。
得到了累积奖励的衰退版本：
$G_t^\prime = \sum_{n=t} ^N \gamma ^{n-t} r_n$

这个版本已经很好了，但是还有一个小问题。

版本3

在这里插入图片描述
奖励的好与坏其实应该是相对的，假设是一个非常解压的游戏，没有负奖励，类似场景中有非常多的金币，没有陷阱和阻碍，只要碰到金币就能拿到超过10的奖励，没有碰到也有10的奖励。那么相对来说，奖励10就是不好的。

所以我们可以引入一个偏置(baseline，这里通常翻译成偏置而不是基准)b，让奖励有正有负。
如上图所示，我们让每个 $G^\prime - b$ 。

听起来不错，但又引入了一个新的问题，我们要如何设定这个偏置大小呢？

下面正式进入策略梯度，它也包含了这个问题的解决。

策略梯度

在这里插入图片描述
我们先来看下策略梯度(Policy Gradient)的算法。

首先随机初始化Actor网络(表示执行动作的智能体网络，下文都用Actor表示)，假设此时初始化参数为 $\theta^0$ ；
进入训练迭代，假设迭代 $T$ 次，每次迭代记为 $i$ ：
- 使用上次迭代的Actor( $\theta^{i-1}$ )去与环境互动；
- 得到状态-动作对数据： $\{s_1,a_1\},\{s_2,a_2\},\cdots,\{s_N,a_N\}$ ；
- 评价这些动作的好坏：计算 $A_1,A_2,\cdots,A_N$ ；
- 定义损失 $L$ (该步以及下一步和梯度下降类似)；
- 更新网络参数： $\theta^i \leftarrow \theta^{i-1} -\eta \nabla L$ ；