近年来,深度强化学习成为关注的热点。在自动驾驶、棋牌游戏、分子重排和机器人等领域,计算机程序能够通过强化学习,理解以前被视为超级困难的问题,取得了令人瞩目的成果。在围棋比赛中,AlphaGo接连战胜樊麾、李世石和柯洁等人类冠军。深度强化学习从生物学和心理学领域的研究中受到启发。生物学激发了人工神经网络和深度学习的出现,而心理学研究人和动物如何学习,如何通过正负刺激来强化目标行为。了解了强化学习如何指导机器人行走时,我们不禁联想到儿童如何在玩中学习。动物行为和大脑结构可作为新的科学和工程蓝图。计算机似乎真正具备了人类的某些行为特征,深度强化学习技术成为实现AI梦想的核心。
Aske Plaat是荷兰莱顿大学的数据科学教授,兼任莱顿高级计算机科学研究所(LIACS)主任。Aske是莱顿数据科学中心(LCDS)的联合创始人,发起了跨学科研究项目“社会、人工智能与生命科学”(SAILS)。Aske的研究领域包括强化学习、可扩展的组合推理算法、游戏和自学习系统。
本书的目标是全面介绍深度强化学习这个领域。它是为人工智能专业的研究生,以及想要更好地了解深度强化学习方法和挑战的研究人员和从业者编写的。我们假设读者具备计算机科学和人工智能方面的本科水平,并对这些内容有基本的了解;本书使用的编程语言是 Python。
我们将描述深度强化学习的基础、算法和应用。本书将涵盖构成该领域基础的已建立的无模型和有模型方法。由于该技术发展迅速,本书还将涵盖更高级的主题:深度多智能体强化学习、深度分层强化学习和深度元学习。教育界也十分重视深度强化学习的研究进展。许多大学开设了深度强化学习课程。本书恰到好处地介绍了深度强化学习领域的技术细节,可作为AI研究生课程的教材。本书讲解全面,涵盖深度Q-learning的基本算法,乃至多智能体强化学习和元学习等高级主题。