DQN(Deep Q - Network)原理举例说明
1. 基本概念回顾
DQN 结合了深度学习和 Q - learning 算法,用深度神经网络来近似 Q 值函数,解决传统 Q - learning 在处理高维状态空间时的局限性。Q 值表示在某个状态下采取某个动作所能获得的期望累积奖励。
以下是DQN和A3C的原理对比举例说明:
DQN(深度Q网络)
- 原理:用深度神经网络近似Q函数,通过经验回放和目标网络优化策略
- 举例:玩Flappy Bird游戏时:
- 输入当前画面(管道间距、小鸟位置等)
- 网络输出"跳跃"和"不跳跃"的Q值(预估奖励)
- 选择Q值高的动作执行(如判断当前高度该跳就跳)
- 记录动作结果(成功/失败)存入经验池
- 随机抽取历史经验训练网络,逐步修正Q值估计
A3C(异步优势Actor-Critic)
<
![信奥赛CSP-J复赛集训(模拟算法专题)(6):P6352 [COCI 2007/2008 #3] CETIRI](https://i-blog.csdnimg.cn/direct/0f9b2d5cf4804886bce26e607a6f113c.png#pic_center)














![[数据分享第七弹]全球洪水相关数据集](https://i-blog.csdnimg.cn/img_convert/8294456b9219181cd8dc79fb60b85e75.png)


