强化学习入门笔记(Reinforcement Learning,RL) 强推！

由于本人的近期研究方向涉及到强化学习，本科时已经学习过了，但是感觉还是有些概念和算法没有学懂学透，所以想重新系统性的学习一下，记录了整个学习过程，而且对当时没有理解不是特别深刻的内容有了一些更加深刻的理解，所以希望把学习的过程记录下来，也帮助其他的初学者能够快速入门强化学习。并且为了加深理解，会涉及一些公式。

（ps:第二遍学习了，知识真的越学越新，如果第一遍没有读懂，可能过一遍，等应用学习一段时间，可以返回来再看，真的有不同的理解），希望这份笔记能给你带来帮助。）记录一下时间：

第一次撰写时间：20241111

强化学习（Reinforcement Learning)

一.总体概念

首先从大致上理解一下强化学习。传统的机器学习可以大致分为：有监督学习、无监督学习、强化学习。

有监督学习 是从外部监督者提供的带标签的训练集中学习。
非监督学习 是从为标注的数据集中找到隐含结构的学习过程，例如K-means算法
强化学习更偏重于智能体与环境之间的交互。一个智能体（agent）在一个特定的环境（environment)中最大化它所能获得的奖励。通过感知所处的环境的状态（state）作出行动（action），与环境交互之后进行状态转移并得到对应的奖赏（reward），最终得到累积回报（return）。而这的方式被叫做强化学习或RL（Reinforcement Learning)。而RL学习的范式非常类似于人类学习知识的过程，也正因如此，RL被视为实现AGI重要途径。

二.强化学习特点：

试错学习：强化学习一般没有直接的指导信息，Agent 要以不断与 Environment 进行交互，通过试错的方式来获得最佳策略(Policy)。
延迟回报：强化学习的指导信息很少，而且往往是在事后（最后一个状态(State)）才给出的。比如围棋中只有到了最后才能知道胜负。

三.相关术语

根据上述对于强化学习的描述，可以注意到对应的术语包括environment， state，action，reward，return，以下将详细介绍对应的概念。

环境（environment）是一个外部系统，智能体处于这个系统中，能够感知到这个系统并且能够基于感知到的状态作出一定的动作，并且环境根据作出的动作给智能体一个奖赏。
状态（state）：状态是对环境的当前状态的完整描述，不会隐藏环境的信息。所有的状态构成了状态空间（state space）
行动（action）：智能体处于当前环境状态下作出一个动作。所有可以执行的动作构成了动作空间（action space），其中包括离散动作空间（例如：前后左右四个动作）和连续的状态空间（例如：智能体的旋转角度，360度都可以）。
奖励（reward）：是由环境所给的一个反馈信号，该信号表明了智能体在某一步采取动作的表现，如果表现的很好，对应的reward大一点，否则就小一点。
回报（return）：智能体从当前状态一直到最终状态所获的累积奖励

（这里注意区别return和reward）

四.强化学习问题的基本设定：

根据上述的描述，已经对强化学习有了基本的概念，接下来让我们用形式化的数学语言来更好的表示强化学习问题：
强化学习可以用一个四元组表示，如下：

<A, S, R, P>
Action space : A 
State space : S
Reward: R : S × A × S → R
Transition : P :S × A → S

说明：<A,S,R,P>是强化学习的形式化表达。其中A代表智能体的动作空间（包括离散的状态空间和连续的状态空间）；S表示状态空间；R是奖赏，可以看出来是一个函数映射的形式，表示智能体处在状态s,执行了某一个动作a，与环境交互后转换到了s‘，得到的奖赏（Reward）为r。所以， $(s ， a ， s^{'}) \to r$ ;P表示状态转移函数，下一个状态完完全取决于环境。
根据上述的说明，此处也引出几个重要的概念,并详细介绍，对后续理解算法具有重要作用：

策略（Policy）
策略是智能体用于决定下一步之行什么动作的规则。具体是指Agent在状态s时，所要作出的action的选择，一般定义为 $\pi$ ，是强化学习中的核心问题。可以视为智能体在感知到环境s后动作a到一个映射。这个策略可以是确定性的，即在当前状态下只会选择一个确定的动作（ $\pi(s)$ ,其中a为智能体处于状态s下用策略 $\pi$ 所选择的动作a)；也可以是随机的（不确定的），这个时候 $\pi$ 不再是一个确定的动作，而是当前所能选择的动作的一个概率分布（例如当前状态下智能体可以执行4个上下左右动作，在当前的策略下，对应的概率为上：0.6；下：0.1；左：0.1；右：0.2，并且概率总和为1），以上的确定策略和随机策略可以用数学表示为：
$\sum{\pi(a|s)}=1$ $\pi(s):S→A$
状态转移（State Transition）
智能体在环境中作出某种交互（动作）之后，将会转移到下一个状态，这种状态的转移取决于环境本身，而且这种转移也可以分为随机性和确定性转移。确定性转移表示根据当前状态和作出的动作只能转移到唯一的状态。而随机性转移则是由于环境的不确定性，导致可能下一个状态的转移是概率性的，可以用状态概率密度函数表示：
$p (s^{'} ∣ s, a) = P (S^{'} = s^{'} ∣ S = s, A = a)$
大多数情况下，对于智能体来说，环境是未知的，并且环境也可能发生变化，而上述的函数描述了在当前环境和行动下，衡量系统状态向某一个状态转移的概率是多少。
回报（Return）

回报也可以被称为累积奖赏，cumulated future reward，一般表示为U，定义为
$U_t = R_t+R_{t+1}+....R_T$ 其中 $R_t$ 代表每一步动作的奖赏reward，而对于智能体来说，就是最大化Return，一定是累积奖赏。
未来的奖励不如现在等值的奖励那么好（比如一年后给100块不如现在就给），所以 $R_{t+1}$ 的权重要比 $R_{t}$ 的小。
在实际表示中，加入了折扣回报率用来表示折扣回报，如下：
$U_t = R_t+\gamma R_{t+1}+\gamma ^2R_{t+2}+...$ 其中 $\gamma$ 表示折扣率。

4.价值函数（Value-based function）
举例来说，在象棋游戏中，定义赢得游戏得1分，其他动作得0分，状态是棋盘上棋子的位置。仅从1分和0分这两个数值并不能知道智能体在游戏过程中到底下得怎么样。例如：象棋中在某一步中吃了对方的车，这步的reward会很大，但是由于这一步导致被将军，所以对于最终的目标来说，这一步也并不好。
为了对在整个游戏过程中对状态（当前的棋面对最后来说怎么样）进行评估，从而引入价值函数使用期望对未来的收益进行预测，一方面不必等待未来的收益实际发生就可以获知当前状态的好坏，另一方面通过期望汇总了未来各种可能的收益情况。使用价值函数可以很方便地评价不同策略的好坏。

注意价值函数和奖赏的区别

为了更加严谨，用数学表述：
Reward 定义的是评判一次交互中的立即的（immediate sense）回报好坏。而Value function则定义的是从长期看action平均回报的好坏。一个状态s的value是其长期期望Reward的高低。定义 $V_\pi(s)$ 是策略状态s长期期望收益，Q_\pi(s,a)是策略在状态s下，采取动作a的长期期望收益。
定义 $G_t$ 为长期回报期望（Return）
$G_t = \sum_{n=0}^N \gamma^nr_{t+n}$ 状态s的价值函数V为：
$V_\pi(s) = E_\pi[G_t|S_t=s]$
在状态s下采取动作a的动作价值函数Q为：
$Q_\pi(s,a) = E_\pi[G_t|S_t=s,A_t=a]$
在强化学习中，价值函数和Q函数之间存在一定的关系，可以通过转换公式相互表达。主要的转换方式如下：
从 Q 函数转换到状态价值函数

对于确定性策略
如果我们选取的是一个贪婪策略，即在状态
𝑠中选择能最大化 Q 值的动作，则价值函数可以表示为： $V_s=max_aQ(s,a)$ 该公式适用于寻找最优策略时（即在状态 s 中采取最佳动作的情况下）。
对于随机策略
如果策略 π(a∣s) 是随机的，即每个动作 𝑎 在状态 s 的概率不相同，那么价值函数可以表示为 Q 函数的期望： $V_s=\sum_i\pi(a_i|s)*Q(s,a_i)$ 这里，价值函数 𝑉(𝑠)是在策略 𝜋下，对所有动作加权的 Q 值之和。这个转换公式表示的是在随机策略下，期望的长期回报。
从价值函数转换到 Q 函数
假设我们知道执行动作 𝑎会从状态 𝑠 转移到下一个状态 𝑠′，那么 Q 函数可以表示为： $r+\gamma V(s')|s,a]$ 在此情况下，Q 函数表示在状态 𝑠下采取动作 𝑎后获得的即时奖励 𝑟加上未来回报的折现值。而这个就是非常有名的Bellman等式

五.算法分类

按照环境是否已知划分：免模型学习（Model-Free） vs 有模型学习（Model-Based）

Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有policy optimization和Q-learning。
Model-Based是去学习和理解环境，学会用一个模型来模拟环境，通过模拟的环境来得到反馈。Model-Based相当于比Model-Free多了模拟环境这个环节，通过模拟环境预判接下来会发生的所有情况，然后选择最佳的情况。

一般情况下，环境都是不可知的，无法对环境进行建模，只能被动接受环境的反馈

按照学习方式划分：在线策略（On-Policy） vs 离线策略（Off-Policy）

On-Policy是指agent必须本人在场，并且一定是本人边玩边学习。典型的算法为Sarsa。
Off-Policy是指agent可以选择自己玩，也可以选择看着别人玩，通过看别人玩来学习别人的行为准则，离线学习同样是从过往的经验中学习，但是这些过往的经历没必要是自己的经历，任何人的经历都能被学习，也没有必要是边玩边学习，玩和学习的时间可以不同步。典型的方法是Q-learning，以及Deep-Q-Network。

按照学习目标划分：基于策略（Policy-Based）和基于价值（Value-Based）。

Policy-Based的方法直接输出下一步动作的概率，根据概率来选取动作。但不一定概率最高就会选择该动作，还是会从整体进行考虑。适用于非连续和连续的动作。常见的方法有Policy gradients。
Value-Based的方法输出的是动作的价值，选择价值最高的动作。适用于非连续的动作。常见的方法有Q-learning、Deep Q Network和Sarsa。
更为厉害的方法是二者的结合：Actor-Critic，Actor根据概率做出动作，Critic根据动作给出价值，从而加速学习过程，常见的有A2C，A3C，DDPG等。