REINFORCEMENT LEARNING THROUGH ACTIVE INFERENCE

摘要

强化学习（RL）的核心原则是智能体寻求最大化累积奖励之和。相比之下，主动推理，认知和计算神经科学中的一个新兴框架，提出代理人采取行动，以最大限度地提高有偏见的生成模型的证据。在这里，我们说明了来自主动推理的想法如何通过（i）提供探索和利用的内在平衡，以及（ii）提供更灵活的奖励概念来增强传统的RL方法。受主动推理的启发，我们开发并实现了一个新的决策目标，我们称之为预期未来的自由能。我们证明了所得到的算法成功地平衡了探索和利用，同时在几个具有挑战性的RL基准测试中实现了稳健的性能，具有稀疏，形状良好，没有奖励。

1.介绍

生物和人工智能都必须学会在未知的环境中做出适应性的决定。在强化学习（RL）领域，代理人的目标是学习一种策略，使期望回报的总和最大化（萨顿等人，（1998年）。该方法在诸如模拟游戏的领域中已经证明了令人印象深刻的结果（Mnih等人，2015年;银等人，2017年）、机器人（Polydoros和Nalpanditis，2017年; Nagabandi等人，2019）和工业应用（Meyes等人，（2017年版）。
相反，主动推理（Friston等人，二〇一六年;二〇一五年;二〇一二年; 2009年）–一个来自认知和计算神经科学的新兴框架–认为，代理人选择行为是为了最大限度地为偏向于代理人偏好的模型提供证据。该框架扩展了贝叶斯感知和学习的有影响力的理论（Knill & Pouget，2004; L Griffiths等人，2008）以结合概率决策，并且配备有生物学上合理的过程理论（Friston等人，2017年a），这一点得到了相当多的实证支持（Friston和Kiebel，2009年）。
虽然主动推理和RL有着不同的学科基础，但两种框架都在学习适应性行为问题上找到了相似的解决方案。例如，两个框架都强调了学习概率模型、进行推理和有效规划的重要性。这就引出了一个很自然的问题：主动推理的洞察力能为新的RL算法的发展提供信息吗？
从概念上讲，主动推理可以通过几种方式提供信息，并潜在地增强RL领域。首先，主动推理表明，代理人体现了他们所预测环境的生成性模型，并寻求最大化这一模型的证据。在这种情况下，奖励被认为是先验概率，而成功是根据首选结果和预期结果之间的差异来衡量的。将偏好制定为先验概率使在指定代理人目标时具有更大的灵活性(Friston等人，2012年；Friston，2019a)，为学习偏好提供了一种原则性(即贝叶斯)方法(Sajid等人，2019年)，并与最近的神经生理学数据相一致，表明了奖励表示的分布性质(Dabney等人，2020年)。其次，将报酬最大化重新表述为最大化模型证据，自然将勘探和开采都包含在一个目标之下，从而消除了在现有目标上添加特别探索性术语的必要性。此外，正如我们将展示的那样，主动推理包含了一些已经建立的RL形式，表明了一个潜在的统一框架，用于不确定情况下的自适应决策。
事实证明，将这些概念性见解转化为RL的实际好处具有挑战性。目前主动推理的实现一般限于离散状态空间和玩具问题(Friston等人，2015；2017b；c)(尽管见(Tschantz等人，2019a；Millidge，2019；Catal等人，2019))。因此，还不可能评估主动推理在具有挑战性的环境中的有效性；因此，主动推理在RL社区中尚未被广泛采用。
在本文中，我们在决策的背景下考虑主动推理。我们提出并实现了一个新的主动推理目标函数–预期未来的自由能–并表明这个量为已经建立的RL目标提供了一个容易处理的界限。我们在一组具有挑战性的连续控制任务上对该算法的性能进行了评估。我们在稀疏、形状良好和没有奖励的环境中表现出了很强的性能，证明了我们的算法能够有效地平衡探索和利用。总之，我们的结果表明，主动推理是对现有RL方法的一种有前途的补充。

2.主动推理

主动推理和RL都可以在部分观察到的马尔可夫决策过程POMDP(Murphy，1982)的背景下提出。在每个时间步长t，环境st的真实状态根据随机转移动力学st∼p(st|st−1，at−1)而演变，其中∈rda表示代理的动作。代理不一定能够访问环境的真实状态，而是可以接收根据ot∈p(ot|st)生成的∼RDO的观测。在这种情况下，代理必须根据关于环境的真实状态的信念st∈Rds来操作。最后，环境根据RT∼p(Rt|st)2生成奖励RT。
RL的目标是学习一种最大化预期奖励总和 E[∞t=0γtrt]的策略(Sutton等人，1998年)。相比之下，主动推理的目标是最大化代理的生成模型 pΦ(o，S，θ)的贝叶斯模型证据，其中θ∈Θ表示模型参数。
至关重要的是，主动推理允许代理人的生成模型偏向有利的事件状态(Friston，2019b)。换句话说，该模型将概率分配给观察空间中既有可能又有利于代理成功的部分。我们使用符号pΦ(·)表示编码代理偏好的任意分布。
给定一个生成模型，代理可以通过对任意分布Q(S，θ)进行编码并最小化变分自由能F=DkLQ(S，θ)pΦ(o，S，θ))来执行近似贝叶斯推理。当观测值o已知时，F可以通过标准变分方法最小化(Bishop，2006；Buckley et al.，2017)，导致Q(S，θ)趋向真正的后验p(S，θ|o)。注意，将模型参数θ视为随机变量将学习投射为推理过程(Blundell等人，2015年)。
在当前上下文中，代理还维护对策略π={a0，…，at}的信念，这些策略本身就是随机变量。然后，通过识别最小化F的Q(π)来实现策略选择，从而将策略选择塑造为一个近似推理的过程(Friston等人，2015年)。虽然标准自由能泛函F通常是针对单个时间点t定义的，但π指的是变量的时间序列。因此，我们增加自由能泛函F以包含未来变量，从而得到预期的未来F˜的自由能。这个量衡量了对未来变量的一系列信念和代理人有偏见的生成模型之间的KL背离。
现在的目标是推断Q(π)以最小化F˜。我们证明，最终的方案自然包括探索和开发，因此暗示了推理、学习和决策之间的深层关系。

3.未来的自由能

设xt：T表示随时间变化的变量序列，xt：T = {xt，…，xT}的值。我们希望最小化预期未来F的自由能，其定义为：
在这里插入图片描述
其中q（ot：T，st：T，θ，π）表示智能体对未来变量的信念，pΦ（ot：T，st：T，θ）表示智能体的有偏生成模型。注意，关于未来变量的信念包括关于未来观测的信念，ot：T，它是未知的，因此被视为随机变量3。
为了找到使F最小的q（π），我们注意到（见附录C）：
在这里插入图片描述
因此，当q（π）= σ（-~ Fπ）时，预期未来的自由能最小化，或者换句话说，当政策最小化F ~ π时，政策更有可能。

3.1 EXPLORATION & EXPLOITATION.

为了直观地说明最小化F < $π 需要什么，我们将智能体的生成模型分解为 p Φ （ o 0 ： T ， s 0 ： T ， θ ） = p （ s 0 ： T ， θ ∣ o 0 ： T ） p Φ （ o 0 ： T ），这意味着模型只在其信念上对观察有偏差。为了保持与 R L 术语的一致性，我们将 “ 奖励 ” r 视为单独的观察模态，使得 p Φ （ o t ： T ）指定首选奖励的分布。我们在附录 E 中描述了 p Φ （ o t ： T ）的实现。以类似的方式， q （ o t ： T ∣ s t ： T ， θ ， π ）指定给定策略时对未来奖励的信念。给定这种分解，可以直接表明 - <$ Fπ分解为预期的信息增益项和外部项（参见附录B）4：
在这里插入图片描述
最大化等式4有两个功能性结果。首先，它最大化预期的信息增益，这量化了智能体期望从执行某些策略中获得的信息量。由于智能体保持对环境状态和模型参数的信念，这个术语促进了状态和参数空间的探索。
第二，它最小化的外在条件-这是一个代理人的（policyconditioned）信念之间的KL分歧对未来的观察和他们的首选意见。在当前的背景下，它衡量代理期望从策略中获得的奖励与代理期望的奖励之间的KL分歧。总而言之，选择政策以最大限度地减少F_（max）会在勘探和开采之间产生自然平衡。

3.2 RELATIONSHIP TO PROBABILISTIC RL

近年来，有几种尝试在概率推理方面形式化RL(Levine，2018)，例如KL-Control(Rawlik，2013)、控制即推理(Kappen等人，2012年)和状态-边缘匹配(Lee等人，2019年)。在许多这些方法中，RL目标被广泛地概念化为最小化DKLp(O0：T|π)pΦ(O0：T)5。
在附录D中，我们证明了预期的未来F˜的自由能为该目标提供了一个易于处理的界限：
在这里插入图片描述
这些结果表明，主动推理和现有的概率RL方法之间有很深的同源性。

4.IMPLEMENTATION

在这一部分中，我们描述了所提出的目标函数在基于模型的RL的上下文中的有效实现。为了选择动作，我们在每个时间步优化Q(π)，并执行最可能的策略指定的第一个动作。这需要(I)评估对未来变量Q(st：t，ot：t，θ|π)的信心的方法，(Ii)评估Fπ的有效方法，以及(Iii)优化Q(π)的方法，使得Q(π)=σ(−Fπ)
评估对未来的信念我们将对未来的信念分解并评估为：
在这里插入图片描述
这里我们将生成模型分解为p（oτ，sτ，θ| π）= p（oτ| sτ，π）p（sτ| sτ−1，θ，π）p（θ）.我们描述了可能性p（oτ）的实现和学习|sτ，π），跃迁模型p（sτ| sτ−1，θ，π）和参数先验p（θ）。
计算F < $π 注意 - <$ Fπ =< $t + H τ = t - <$ Fπτ，其中H是规划范围。给定关于未来变量的信念，单个时间点的预期未来的自由能可以有效地计算为（参见附录G）：
在这里插入图片描述
在当前的论文中，代理观察环境st的真实状态，使得唯一的部分可观察性是在奖励rt中。因此，方程7的第二项是多余的，因为状态没有不确定性。第一（外在）项可以解析计算（见附录E）。我们在附录G中描述了我们对最后一项（参数信息增益）的近似。
优化策略分布我们选择将q（π）参数化为对角高斯分布。我们使用CEM算法（Rubinstein，1997）来优化q（π）的参数，使得q（π）<$−Fπ。虽然这种解决方案无法捕捉到−Fπ的确切形状，但智能体只需要确定景观的峰值即可制定最优策略。
在算法1中提供了用于推断q（π）的完整算法。
在这里插入图片描述

5.EXPERIMENTS

为了确定我们的算法是否成功地平衡了探索和利用，我们调查了它在(I)形状良好的奖励、(Ii)极稀疏的奖励和(Iii)完全没有奖励的域中的性能。我们总共使用四个任务。对于稀少的奖励，我们使用山车和杯赛捕捉环境，在这种环境中，代理商只有在目标实现时才能获得奖励。对于形状良好的奖励，我们使用具有挑战性的半猎豹环境，同时使用奔跑和翻转任务。对于没有奖励的域名，我们使用蚂蚁迷宫环境，在那里没有奖励，成功是通过迷宫覆盖的百分比来衡量的(有关所有环境的详细信息，请参见附录H)。
对于稀疏回报的环境，我们将我们的算法与两条基线进行比较，(I)只基于外部项选择策略的奖励算法(即忽略参数信息增益)，以及(Ii)通过最大化转变模型的输出方差来寻找不确定转变的方差算法(见附录E)。请注意，方差代理还增加了外部项，以进行比较。对于具有良好形状奖励的环境，我们将我们的算法与100集后由最先进的无模型RL算法获得的最大奖励进行了比较，软演员评论家(SAC)Haarnoja等人。(2018)，它通过寻求政策分布的最大熵来鼓励探索。最后，对于没有奖励的环境，我们将我们的算法与随机基线进行比较，后者随机执行操作。
山车实验如图1a所示，我们将每集获得的总奖励绘制在25集上，其中每集最多有200个时间步长。这些结果表明，我们的算法快速探索并一致地达到目标，在一次试验中获得了最优性能。相比之下，基准算法平均无法成功探索并获得良好的性能。我们通过绘制有探索和没有探索的状态空间覆盖率来定性地证实这一结果(图2B)。我们的算法在CUP捕获环境中的性能与基准相当(图1B)。我们假设这是因为，虽然奖励结构在技术上是稀疏的，但它足够简单，可以通过随机动作达到目标，因此我们的方法提供的定向探索提供的好处很少
在这里插入图片描述
图1：（A）山地车：稀疏奖励山地车任务每集后的平均回报。我们的算法在单次试验中达到最佳性能。(B)Cup Catch：在稀疏奖励的Cup Catch任务中，每集之后的平均回报。在这里，算法之间的结果是相似的，所有代理在大约20集内达到渐近性能。（C & D）Half Cheetah：在形状良好的Half Cheetah环境中，分别针对跑步和翻转任务，每集之后的平均回报。我们将我们的结果与SAC在100集学习后的平均性能进行比较，证明我们的算法可以在不需要直接探索的环境中成功执行。每条线是5个种子的平均值，填充区域显示+/-标准差。
图1C和D表明，在挑战性的半猎豹任务上，我们的算法在100次发作后的性能明显优于最新的无模型算法。因此，我们的算法证明了在具有良好形状奖励的环境中的鲁棒性能，并且相对于SAC，在样本效率方面提供了相当大的改进。
最后用实例验证了此算法在没有奖励的环境中也能很好地执行，而只有探索的目标.图2B示出了我们的算法的探索速率实质上高于蚂蚁迷宫环境中的随机基线的速率，从而导致迷宫的更大部分被覆盖。这一结果表明，通过最小化预期未来的自由能所提供的定向探索在没有回报结构的环境中证明是有益的。
综上所述，这些结果表明，我们提出的算法–自然地平衡了探索和利用–可以成功地掌握具有各种奖励结构的挑战性领域。
在这里插入图片描述
图二：（A & B）Mountain Car状态空间覆盖：我们绘制了两个代理访问的状态空间中的点-一个最小化预期未来的自由能（FEEF），另一个最大化奖励。这些情节来自20集，显示FEEF代理几乎搜索了整个状态空间，而奖励代理仅限于通过随机动作到达的区域。©蚂蚁迷宫覆盖率：我们绘制了35次事件后迷宫覆盖率的曲线，比较了FEEF试剂与随机作用的试剂。这些结果是4粒种子的平均值。

6.DISCUSSION

尽管起源于不同的知识传统，但主动推理和强化学习都解决了未知环境中自适应决策的基本问题。利用这种概念上的重叠，我们已经应用了一个积极的推理角度的奖励最大化目标的强化学习，重铸为最小化期望和预期的未来之间的分歧。我们得出了一个新的目标，自然地平衡探索和利用，并在基于模型的RL上下文中实例化这个目标。我们的算法在各种已知对RL具有挑战性的环境中表现出强大的性能和灵活性。此外，我们已经表明，我们的算法适用于一组不同的奖励结构。相反，通过使用RL的工具实现主动推理，例如使用神经网络、深度集成和复杂的规划算法（CEM）进行摊销推理，我们已经证明了主动推理可以扩展到具有连续状态和动作空间的高维任务。
虽然我们的研究结果突出了主动推理和RL之间的现有重叠，我们最终重申两个方面的主动推理，可能是实用的RL。首先，将偏好表示为观察结果的分布允许在建模和学习非标量和非单调奖励函数时具有更大的灵活性。在复杂的非平稳环境中学习自然主义任务时，这可能是有益的。第二，内在价值和外在价值都是单一目标（预期未来的自由能量）的互补组成部分，这一事实可能为解决探索-开发困境提供了新的途径。我们的方法也承认有前途的方向，为今后的工作。这些包括研究不同分布对奖励的影响，将方法扩展到在时间和空间上分层的模型（Friston等人，2018; Pezzulo等人，2018年），并调查了与概率控制的替代公式的深层联系。