DQN算法

教程链接

DataWhale强化学习课程JoyRL

https://johnjim0816.com/joyrl-book/#/ch7/main

DQN算法

DQN(Deep Q-Network) 主要创新点在于将Q-learning算法中的Q表记录动作价值函数转为引入深度神经网络来近似动作价值函数 $Q (s, a)$ ,从而能够处理连续状态情况，即较高维度的状态空间。

因此，在Q表中我们描述状态空间的时候一般用的是状态个数，而在神经网络中我们用的是状态维度。

当然，神经网络也存在缺点，即虽然它的输入可以是连续的，但是输出只能是离散的，即只能适用于离散的动作空间。如果要处理连续的动作空间，需要考虑策略梯度方法。

本质上来说强化学习和深度学习解决的问题是完全不同的，前者用于解决序列决策问题，后者用于解决静态问题例如回归、分类、识别等等。

经验回放

状态转移元组 $s_t, a_t, s_{t+1}, r_{t + 1})$ 强化学习是与环境实时交互得到样本然后进行训练的，这个样本一般包括当前的状态 $s_t$ 、当前动作 $a_t$ 、下一时刻的状态 $s_{t+1}$ 、奖励 $r_{t+1}$ 以及终止状态的标志 $d o n e$ .

这样做存在的问题？

在 Q-learning 算法中，每次交互得到一个样本之后，就立马拿去更新模型了。首先每次用单个样本去迭代网络参数很容易导致训练的不稳定，从而影响模型的收敛。
每次迭代的样本都是从环境中实时交互得到的，这样的样本是有关联的，而梯度下降法是基于一个假设的，即训练集中的样本是独立同分布的。
直接将 Q-learning 算法训练的方式来更新 DQN 的模型相当于是最原始的梯度下降方式，距离目前最成熟的小批量梯度下降方式还有一定的差距。

因此DQN的训练过程中，会把每次通过环境交互的样本存储在一个经验回放中，然后每次从经验吃中随机抽取一批样本来训练网络。

首先每次迭代的样本都是从经验池中随机抽取的，因此每次迭代的样本都是独立同分布的，这样就满足了梯度下降法的假设。其次，经验池中的样本是从环境中实时交互得到的，因此每次迭代的样本都是相互关联的，这样的方式相当于是把每次迭代的样本都进行了一个打乱的操作，这样也能够有效地避免训练的不稳定性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目标网络

其次为了保障训练的稳定，避免Q值的估计发散。考虑使用一个每隔若干步才更新的目标网络。目标网络和当前网络结构都是相同的，都用于近似 Q值，在实践中每隔若干步才把每步更新的当前网络参数复制给目标网络。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

练习题

相比于 $Q - l e a r nin g$ 算法， $D QN$ 算法做了哪些改进？

DQN使用了深度神经网络来近似动作价值函数，解决了Q-learning使用表格存储Q值使得状态空间过大或者状态连续的问题。

为什么要在 $D QN$ 算法中引入 $\varepsilon-\text{greedy}$ 策略？

引入策略是为了平衡探索与利用的过程，如果智能体只进行利用，那么它可能会陷入局部最优，而忽略了更好的动作或状态；如果智能体只进行探索，那么它可能会浪费时间和资源，而无法收敛到最优的策略。因此，智能体需要在探索和利用之间进行权衡，以达到最佳的学习效果。

$D QN$ 算法为什么要多加一个目标网络？

目标网络的引入是为了增加DQN算法的稳定性和收敛性。DQN算法的核心是用深度神经网络来近似Q函数，即状态-动作值函数。如果我们只用一个神经网络来计算估计值和目标值，那么每次更新参数后，目标值也会随之改变，这样就会导致目标值不稳定，甚至发生震荡，从而影响神经网络的收敛。考虑使用一个每隔若干步才更新的目标网络。目标网络和当前网络结构都是相同的，都用于近似 Q值。

经验回放的作用？

深度神经网络训练要求数据符合独立同分布，经验回放的作用是消除智能体收集经验时相邻的两个四元组之间的相关性，使得每次从数组里面随机抽取的四元组都是独立的，从而提高DQN的训练效果。

DQN算法进阶

介绍一些基于DQN算法的进阶算法，例如 $Do u b l eD QN 、 D u e l in g D QN$ 这些从网络模型层面改进以及 $PER D QN$ 从经验回放的角度改进。

Double DQN算法。

主要贡献在于通过引入两个网络用于解决Q值过估计问题.

$KaTeX parse error: \tag works only in display equations$

其中 $y_t = r_t+\gamma\max _{a}Q_{\hat{\theta}}(s_{t+1},a_{t+1})$ 是估计值，这个意思就是直接拿目标网络中各个动作对应的最大的 Q值来当作估计值，这样一来就会存在过估计的问题。

因此， $Do u b l eD QN$ 的思路就是现在当前网络中找出最大Q值对应的动作，然后再将这个动作代入到目标网络中计算Q值。

$KaTeX parse error: \tag works only in display equations$

然后将这个找出来的动作代入到目标网络里面去计算目标的 Q 值，进而计算估计值，

$KaTeX parse error: \tag works only in display equations$

这样做相当于是把动作选择和动作评估这两个过程分离开来，从而减轻了过估计问题。即Double DQN 算法中大臣会根据自己的判断将自己认为最优的情报汇报给皇帝，做到了情报的精简与较高质量。

Dueling DQN算法

Dueling DQN算法是通过优化神经网络的结构来优化算法的。DQN算法使用的网络架构是一个全连接网络，包含一个输入层、隐藏层以及输出层。DuelingDQN则是在输出层之前分流出价值层(估计每个状态的价值)与优势层(用于估计每个动作带来的优势)。

[外链图片转存中…(img-COZ6YXfc-1700835492466)]

去掉这里的价值层即优势层就是普通的 Q 网络了，另外会对优势层做一个中心化处理，即减掉均值。

PER DQN算法

PER DQN算法进一步优化经验回放的设计从而提高模型的收敛能力与鲁棒性。会在采样过程中赋予经验回放中样本的优先级。优先级的依据来自于TD误差。广义的定义是值函数（包括状态价值函数和动作价值函数）的估计值与实际值之差，在 DQN 算法中就是目标网络计算的 Q值和策略网络（当前网络）计算的 Q值之差，也就是 DQN 网络中损失函数的主要构成部分。

TD误差越大，损失函数的值也越大，对于反向传播的作用也就越大。 这样一来如果 TD 误差较大的样本更容易被采到的话，那么算法也会更加容易收敛。

练习题

DQN算法为什么会产生Q值的过估计问题?

DQN是直接拿目标网络中各个动作对应的最大的 Q值来当作估计值。但目标值仍然依赖于神经网络的输出，而神经网络的输出可能存在偏差和误差。特别是，当我们用**maxa′Q(s′,a′)**来选择下一个状态的最优动作时，我们可能会选择一个Q值被高估的动作，而不是真正的最优动作。这样，我们就会用一个高估的Q值来更新当前状态的Q值，从而导致Q值的过估计

同样是提高探索，Noisy DQN与 $\varepsilon-\text{greedy}$ 策略有什么区别

Noisy DQN是在神经网络的权重上添加参数化的噪音，从而使Q函数的输出具有随机性，而ε-greedy策略是在选择动作时以一定的概率随机选择一个动作，而不是最优的动作。同时Noisy DQN的探索是基于权重的，可以影响所有的动作的选择，而ε-greedy策略的探索是基于动作的，只影响单个的动作的选择。因此，Noisy DQN的探索更具有全局性和多样性，而ε-greedy策略的探索更具有局部性和随机性。
sy DQN的探索是基于权重的，可以影响所有的动作的选择，而ε-greedy策略的探索是基于动作的，只影响单个的动作的选择。因此，Noisy DQN的探索更具有全局性和多样性，而ε-greedy策略的探索更具有局部性和随机性。