上一章介绍了 Q 学习的表格形式和神经网络形式(即 DQN)。 TD 算法是一大类算法的总称。上一章用的 Q 学习是一种 TD 算法, Q 学习的目的是学习最优动作价值函数 Q ⋆ Q_⋆ Q⋆ 本章介绍 SARSA,它也是一种 TD 算法, SARSA 的目的是学习动作价值函数 Q π ( s , a ) Q_π(s,a) Qπ(s,a)。 5.1表格形式的SARSA 5.1.1推导表格形式的 SARSA 学习算法 5.2神经网络形式的SARSA 5.3多步TD目标 5.4蒙特卡洛与自举