主要思想

这篇文章主要关注于如何加强对于新任务的探索性。

动机：
以往探索策略在很大程度上是任务无关的，因为它们旨在提供良好的探索，而不利用任务本身的特定结构。然而，与现实世界交互的智能代理可能需要学习许多任务，而不仅仅是一个任务，在这种情况下，可以使用先前的任务来通知如何执行新任务中的探索。

首先，同样的策略必须表示高度探索性的行为，并非常快速地适应最佳行为，这对于动作分布的典型时不变表示来说变得非常困难。

其次，许多当前的元RL方法旨在学习整个“学习算法”，如RNN。它们通过RNN的单次前向传递快速适应，但与从头学习相比，这大大限制了它们的渐近性能，因为与标准RL方法不同，RNN通常不对应于收敛的迭代优化过程。

方法：
我们的目标是通过设计一种元RL算法来解决这两个挑战，该算法通过遵循策略梯度来适应新任务，同时还将学习到的结构化随机性注入潜在空间，以实现有效的探索。我们的算法，我们称之为带结构噪声的模型不可知探索（MAESN），使用先验经验来初始化策略，并学习潜在的探索空间，从中可以对时间上连贯的结构化行为进行采样，从而产生随机的、由先验知识告知的、比随机噪声更有效的探索策略。重要的是，明确训练政策和潜在空间，以快速适应具有政策梯度的新任务。由于自适应是通过遵循策略梯度来执行的，我们的方法至少实现了与从头开始学习相同的渐近性能（并且通常表现得更好），而结构化随机性允许随机化但有任务意识的探索。

具体实现

元学习框架

MAESN将结构随机性与MAML相结合。MAESN是一种基于梯度的元学习算法，它不仅通过扰动动作，而且通过学习的潜在空间引入随机性。策略和潜在空间都经过元学习训练，以快速适应新任务。当在元测试时间解决新任务时，从每个试验的潜在空间中生成不同的样本，提供结构化和时间相关的随机性。然后通过策略梯度更新使潜在变量的分布适应任务。

带有隐层状态的策略

这里引入了隐层状态以加强探索。具体而言就是对于每一个任务 $\tau_{i}$ 生成一组均值与方差( $\mu_{i}, \sigma_{i}$ )。通过对于每一个任务的均值与方差进行采样可以得到一个隐层状态变量 $z_{i}$ 。这里 $z_{i}$ 是对于每个任务生成一次的。通过将 $z_{i}$ 加入到状态输入的方式，等价于对于每个任务加入了一个噪声以增强探索，而一个任务的隐状态噪声来自于同一组分布，这样增强了任务间的认知与探索。

隐状态示意图如下：
在这里插入图片描述
而这里要求( $\mu_{i}, \sigma_{i}$ )是可导的，因此这里使用了VE中的方法。 $\mu + \epsilon * \sigma$ ，其中 $\epsilon$ 是随机的，这样可以对于( $\mu_{i}, \sigma_{i}$ )求梯度。