DQN(Deep Q - Network)原理举例说明
1. 基本概念回顾
DQN 结合了深度学习和 Q - learning 算法,用深度神经网络来近似 Q 值函数,解决传统 Q - learning 在处理高维状态空间时的局限性。Q 值表示在某个状态下采取某个动作所能获得的期望累积奖励。
以下是DQN和A3C的原理对比举例说明:
DQN(深度Q网络)
- 原理:用深度神经网络近似Q函数,通过经验回放和目标网络优化策略
- 举例:玩Flappy Bird游戏时:
- 输入当前画面(管道间距、小鸟位置等)
- 网络输出"跳跃"和"不跳跃"的Q值(预估奖励)
- 选择Q值高的动作执行(如判断当前高度该跳就跳)
- 记录动作结果(成功/失败)存入经验池
- 随机抽取历史经验训练网络,逐步修正Q值估计
A3C(异步优势Actor-Critic)
<