【RL】强化学习理论基础介绍

文章目录

- 背景
- 理论基础
- - 价值函数
- 核心强化学习算法
- - 深度 Q-网络
  - Dueling 网络结构
  - 策略梯度
  - Actor-Critic 算法
- 总结

英文版

背景

强化学习（Reinforcement Learning, RL）是机器学习中一个强大且快速发展的分支，受行为心理学的启发。它主要研究智能体如何在环境中采取行动，以最大化某种累积奖励的概念。与监督学习不同，监督学习中的学习智能体是给定输入-输出对，而强化学习则强调通过交互进行学习。

理论基础

强化学习（RL）问题旨在通过与环境 $\mathcal{E}$ 的交互，在多个离散时间步中实现学习以达到某个目标。在每个时间步 $t$ ，智能体接收环境状态空间 $\mathcal{S}$ 中的一个状态 ${s}_{t}$ ，并根据策略 $\pi({a}_{t}|{s}_{t})$ 选择一个动作 $a_t \in \mathcal {A}(s_t)$ ，其中 $\mathcal{A}(s_t)$ 是状态 $s_t$ 下可用动作的集合。策略表示为条件概率 $\pi(a|s)$ ，即当前状态为 $s$ 时智能体采取动作 $a$ 的概率。这是从状态和动作到采取某动作概率的映射。之后，智能体会收到一个标量奖励 ${r}_{t}$ 并将转移存储在智能体的记忆中作为经验。这一过程持续进行，直到智能体达到终止状态。智能体的目标是学习一个策略 $\pi }^{ \ast }$ ，使期望折扣回报 $}_{ t }=\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } }$ 最大化，其中折扣因子 $\gamma \in (0,1]$ 用于权衡即时奖励和未来奖励的重要性。

满足马尔可夫性质的强化学习任务可以描述为马尔可夫决策过程（MDPs），其定义为一个五元组 $(\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\gamma)$ ，其中 $\mathcal{R}$ 是奖励函数 $\mathcal{R}(s,a)$ ， $\mathcal{P}$ 是状态转移概率 $\mathcal{P}({s}_{t+1}|{s}_{t},{a}_{t})$ 。马尔可夫性质表明，在给定当前状态的情况下，未来状态与过去状态条件独立。因此，在强化学习任务中，决策和价值被假定为仅是当前状态的函数。马尔可夫性质可以定义为 $p({ s }_{ t+1 }|{ s }_{ 1 },{ a }_{ 1 },...,{ s }_{ t },{ a }_{ t }) = p({ s }_{ t+1 }|{ s }_{ t },{ a }_{ t })$ ，这意味着在给定当前状态的情况下，未来状态与过去状态条件独立。满足马尔可夫性质的强化学习任务可以描述为马尔可夫决策过程，其定义为五元组 $(\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\gamma)$ ，其中 $\mathcal{R}$ 是奖励函数 $\mathcal{R}(s,a)$ ， $\mathcal{P}$ 是状态转移概率 $\mathcal{P}({s}_{t+1}|{s}_{t},{a}_{t})$ 。在一个情节任务中，每个情节长度结束后状态会重置，一个情节中的状态、动作和奖励序列构成了策略的轨迹或展开。

价值函数

价值函数是强化学习系统的核心组件，它构建了一个函数逼近器，用于估计任一状态的长期奖励。它估计智能体处于给定状态（或在给定状态下采取给定动作）时的好坏程度（预期回报）。通过这种方式，函数逼近器利用状态空间的结构来有效地学习观察到的状态的价值，并推广到类似的、未见过的状态的价值。一个典型的价值函数形式可以定义为：

$}^{ \pi }(s)=\mathbb{ E }[R|s,\pi ]= \mathbb{E}[\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } }|s,\pi]$

通常我们将 $}^{ \pi }(s)$ 称为状态价值函数，它衡量在状态 $s$ 开始并遵循策略 $\pi$ 时的预期折扣回报。当动作遵循最优策略 ${\pi}^{\ast}$ 时，状态价值函数可以达到最优：

$}^{ \ast }(s)=\max _{ \pi }{ { V }^{ \pi }(s) } \quad \forall s\in \mathcal{ S }$

除了衡量状态的价值之外，还有一个用于衡量动作选择质量的指标，称为状态-动作价值或质量函数 ${Q}^{\pi}(s,a)$ 。它定义了在给定状态 $s$ 下选择动作 $a$ 并随后遵循策略 $\pi$ 的价值。

$}^{ \pi }(s,a)=\mathbb{ E }[R|s,a,\pi ]= \mathbb{E}[\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } }|s,a,\pi]$

状态-动作价值与状态价值 $V^{\pi}$ 类似，不同之处在于提供了初始动作 $a$ ，并且策略 $\pi$ 仅从随后的状态开始执行。最优状态-动作价值函数表示为：

$}^{ \ast }(s,a)=\max _{ \pi }{ { Q }^{ \pi }(s,a) } \quad \forall s\in \mathcal{ S } , \forall a\in \mathcal{ A }$

$}^{ \ast }(s,a)$ 给出了状态 $s$ 和动作 $a$ 的最大状态-动作价值，这是任何策略可以达到的值。

这个动作价值函数满足递归性质，这是强化学习设置中价值函数的一个基本属性，它表达了状态值与其后继状态之间的关系：

${Q}^{\pi}(s,a)=\mathbb{E}_{{s}^{\prime}}[r+\gamma\mathbb{E}_{{a}^{\prime}\sim{\pi}({s}^{\prime})}[{Q}^{\ast}({s}^{\prime},{a}^{\prime})]|s,a,\pi]$

与生成绝对状态-动作值 $Q^{\pi}$ 不同，优势函数表示相对状态-动作值，衡量动作是否比策略的默认行为更好或更差。通常，学习某个动作产生更高奖励比学习采取特定动作的实际回报更容易。优势函数通过以下简单关系表达动作的相对优势：

$}^{ \pi }(s,a)={ Q }^{ \pi }(s,a)-{ V }^{ \pi }(s)$

许多成功的基于值的强化学习算法依赖于优势更新的思想。

核心强化学习算法

深度 Q-网络

深度强化学习（DRL）应用深度神经网络来表示强化学习方法中的价值函数。DRL算法在多个挑战性任务领域取得了超人类表现，这归功于深度学习强大的函数逼近和表示学习能力。DQN算法在Atari系列游戏中通过像素输入达到了人类水平的表现。它使用神经网络 $Q(s,a;\theta)$ 参数化质量函数 $Q$ ，从而逼近 $Q$ 值。DQN算法的两个主要技术，即使用目标网络和经验回放，可以稳定和有效地学习价值函数。在每次迭代中，网络的参数更新通过最小化以下损失函数来实现：

${L}_{i}({\theta}_{i})=\mathbb{E}_{s,a,r,{s}^{\prime}}[({y}_{i}^{DQN}-Q(s,a;{\theta}_{i}))^{2}]$

其中

${y}_{i}^{DQN}=r+\gamma \underset {{a}^{\prime}}{max}Q({s}^{\prime},{a}^{\prime};{\theta}^{-})$

在其中， ${\theta}^{-}$ 是目标网络的参数。第一稳定方法是固定目标网络的参数，而不是基于其自身快速波动的 $Q$ 值估计来计算TD误差。第二个方法是经验回放，它使用缓冲区存储一定大小的转换 ${s}_{t},{a}_{t},{s}_{t+1},{r}_{t+1})$ ，可以进行离策略训练，并增强数据采样的效率。

在DQN算法引发这一领域之后，价值基础的强化学习设置经历了一系列改进。为了减少DQN中被高估的 $Q$ 值，van Hasselt等人提出了双重DQN算法。Wang等人提出了一种对抗Q网络架构，用于分别估计状态值函数 $V (s)$ 和相关的优势函数 $A (s, a)$ 。Tamar等人提出了一种价值迭代网络，能有效地学习规划，并在许多强化学习任务中实现更好的泛化。Schaul等人开发了建立在双重DQN之上的PER方法，它使经验回放过程比统一重播所有转换更加高效和有效。

Dueling 网络结构

与标准的单序列 $Q$ 网络设计不同，对抗网络结构包括两个序列（流）的网络（A网络和V网络），分别学习动作优势函数和状态值函数。这种构造将价值函数和优势函数解耦，并结合这两个流来产生状态-动作值函数的估计，使用特殊的聚合模块。这两个流共享一个公共的特征提取层（或较低层）。深度 $Q$ 网络专注于估计每个状态-动作对的价值。然而，对抗网络的想法是分别估计与动作无关的状态函数和依赖于动作的优势函数，因为在强化学习环境中，并非所有状态都与特定动作相关，有许多状态是与动作无关的，在这些状态下，智能体不需要改变动作来适应新的状态。因此，估计这些状态-动作对的值是无意义且低效的。对抗网络首次由Wang等人提出，通过这一改变，训练效率比单一流 $Q$ 网络大大提高。根据Wang的工作，对抗网络在离散动作空间任务中取得了新的技术成果。简而言之，对抗网络生成的 $Q$ 值对性能提升比深度 $Q$ 网络在强化学习任务中更有优势。

策略梯度

上述方法间接地通过估计值函数学习策略 $\pi(s)$ 。这些基于值的方法在处理离散动作领域的问题时非常有效。然而，当处理具有连续动作空间的问题，如物理控制任务时，基于值的方法不能直接应用，并且很难确保结果的收敛性，因为它依赖于每个动作的 $Q$ 值。将基于值的算法（如DQN）应用于连续域的一个显而易见的方法是将动作空间离散化为若干固定动作。然而，这种方法有许多缺点和局限性，如可能丢失关于动作域结构的重要信息。

在基于策略的方法中不存在这种担忧，因为策略网络直接输出智能体的动作，而无需估计动作值函数。它们直接参数化控制策略 $\pi(a|s;\theta)$ 并更新参数 $\theta$ 来优化累积奖励，因此，基于策略的方法比基于值的方法更适用于连续控制问题，如机器人控制任务。

策略梯度（PG）是一种吸引人的基于策略的算法，它优化参数化策略 ${\pi}_{\theta}(a|s)=\mathbb{P}[a|s;\theta]$ ，按照策略参数的期望累积奖励梯度 ${\nabla}_{\theta}J({\pi}_{\theta})$ 进行优化。策略梯度方法在高维或连续动作空间中非常有效，并且可以学习到随机策略。在强化学习任务中，智能体的目标是找到最大化目标函数 $J(\pi)$ 的参数 $\theta$ 。一个典型的性能目标是平均奖励函数： $J(\pi)=\mathbb{E}[R|{\pi}_{\theta}]$ 。策略梯度定理提供了关于策略 $\pi$ 参数 $\theta$ 的梯度：

${\nabla}_{\theta}J({\pi}_{\theta})=\int _{\mathcal{S}}^{ }{{\rho}^{\pi} }\int_{\mathcal{A}}^{ }{{\nabla}_{\theta}}{\pi}_{\theta}(a|s){Q}^{ \pi}(s,a)dads \\ \quad\quad\quad\quad=\mathbb{E}_{s\sim{\rho}^{\pi},a\sim {\pi}^{\theta}}[{\nabla}_{\theta} log{\pi}^{\theta}(a|s){Q}^{\pi}(s,a)]$

其中， ${\rho}^{\pi}(s)$ 是状态分布。未知部分 ${Q}^{\pi}(s,a)$ 通常通过使用实际回报 $}_{ t }=\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } }$ 作为每个 ${Q}^{\pi}(s_t,a_t)$ 的近似来估计。基于这个定理，Silver等人提出了确定性策略梯度（DPG）算法用于梯度估计，它比通常的随机策略梯度方法更有效。O’Donoghue等人提到了一种结合PGQL的新技术，并讨论了在强化学习环境中实现这一技术的实际方法。

Actor-Critic 算法

常规的策略梯度方法由于梯度估计的方差较大，通常表现出收敛缓慢的特点。演员-评论家方法通过引入评论家网络来估计当前策略的值，试图通过这种方式减少方差，并利用这些估计值来更新演员策略参数，以提升性能。

动作选择策略称为演员 ${\pi}_{\theta}:\mathcal{S}\rightarrow \mathcal{A}$ ，它在不需要对值函数进行优化的情况下做出决策，将状态表示映射到动作选择概率上。值函数称为评论家 ${Q}_{\phi}^{\pi}: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$ ，它估计预期回报以减少方差并加速学习，将状态映射到预期的累积未来奖励上。

演员和评论家是两个独立的网络，共享相同的观察。在每个步骤中，演员网络选择的动作也是评论家网络的输入因子。在策略改进过程中，评论家网络通过DQN估计当前策略的状态-动作值，然后演员网络根据这些估计值更新其策略以改进 $Q$ 值。相比于以前的纯策略梯度方法，使用评论家网络来评估当前策略更有助于收敛和稳定性。状态-动作值评估越好，学习性能的方差就越低。在评论家网络中进行更好的策略评估是重要且有帮助的。

基于策略梯度的演员-评论家算法在许多现实应用中非常有用，因为它们可以使用低方差的梯度估计来寻找最优策略。Lillicrap等人提出了DDPG算法，将演员-评论家方法与DQN的见解结合起来，解决了模拟物理任务，并广泛应用于许多机器人控制任务。该算法使用两个神经网络：演员网络学习确定性策略，评论家网络逼近当前策略的Q函数。

总结

强化学习（RL）代表了机器学习领域的一个强大范式，灵感来自行为心理学，使得智能体能够在复杂环境中做出决策，以最大化累积奖励。作为马尔可夫决策过程（MDP）形式化，RL任务涉及状态、动作、奖励和转移概率。例如，深度 Q 网络（DQN）等算法利用深度神经网络高效逼近 Q 值，从而在离散动作空间中促进决策制定。

基于价值的RL方法，例如DQN，通过估计状态-动作值来优化策略。演员-评论家方法改进了传统的策略梯度方法，引入评论家网络来估计值函数，从而减少方差并增强学习稳定性。这些进展通过像深度确定性策略梯度（DDPG）这样的算法扩展到连续动作空间，结合了确定性策略和 Q 函数逼近。

策略梯度方法直接基于预期奖励的梯度估计优化策略，在连续动作空间中表现出色。对于提高训练效率的一个重要贡献是 dueling 网络结构，它分离了状态值和优势函数，重视依赖于动作的优势。

总体而言，强化学习通过价值估计、策略优化以及在机器人学和游戏玩法等多样领域的应用中的创新不断发展。神经网络架构和学习算法的进步持续推动着强化学习研究和应用的进步。近年来的趋势包括将 RL 适应连续动作空间，与自然语言处理和计算机视觉等领域融合，提高采样效率和训练稳定性。未来的方向包括通过跨学科合作提升 RL 在解决现实挑战中的适用性，并解决部署中的伦理考量。