论文阅读_世界模型

英文名称: World Models
中文名称: 世界模型
链接: https://arxiv.org/abs/1803.10122
示例: https://worldmodels.github.io/
作者: David Ha, J¨urgen Schmidhuber
机构: Google Brain, NNAISENSE, Swiss AI Lab, IDSIA (USI & SUPSI)
日期: 27 Mar 2018
引用次数: 1033

1 读后感

不同于之前简单的强化学习方法，这篇论文将模型分为三部分：视觉 V、记忆 M 和控制 C。视觉部分 V 将视觉信息压缩到潜空间，记忆部分 M 学习物理空间的变化规律，控制部分 C 则使用强化学习模型来学习智能体的最佳动作。

这相当于将模型拆分为大脑的不同功能区域。复杂的世界信息保留在 V 和 M 中，同时确保强化学习部分 C 足够小，以便快速训练。V 和 M 可以分别看作对空间和时间的建模。

文中还讨论了梦境和海马回放。由于有了时序预测模型 M，我们可以在没有现实输入的情况下通过 M 计算出后续状态，从而生成一个想象中的环境。还可以利用梦中产生的数据来训练控制模型，并通过调节梦的真实程度来构造更复杂的训练环境，以提升模型的性能。

文章发表于 2018 年，当时还没有太多可用的深度强化学习库。现在，我们可以利用更新的强化学习库和硬件以更快、更精确的方式建模。然而，我认为 V+M+C 的结构仍然适用。如果将智能体（Agent）视为一个人，他们的视觉能力 V 和对时间变化的预测能力 M 是通用的；而强化学习控制器 C 则针对具体目标，如赛车或打球。因此，在实际应用中，可能会采用一个 V、一个 M 和多个 C 的结构。这也要求 C 足够小，同时将通用知识提取到 V 和 M 中。

事实上，真实世界（模型输入）与我们理解的世界（M 输出）之间存在很大差异。

图 4：代理由三个紧密协作的组件组成：视觉（V）、内存（M）和控制器（C）

2 摘要

目标：建立世界模型，学习压缩空间内的时空表示。通过使用从世界模型中提取的特征作为智能体的输入，训练智能体完成具体任务。

方法：以无监督的方式快速训练一个非常紧凑和简单的策略，可以解决具体问题。甚至可以完全在它自己的幻觉梦境中训练智能体，并将其中产生的世界模型，应用到实际环境中。

结论：通过训练代理，表明使用文中的世界模型可以提高对世界的表征能力。

3 Agent 模型

文中提出了一个受自身认知系统启发的简单模型。该模型包括视觉感知组件 V，能够将所见内容压缩为较小的表征空间；记忆组件 M，能够根据历史信息预测未来行为；以及决策组件 C，根据视觉和记忆组件的表示来确定行动。这个模型通过将输入信息处理和决策制定进行分离，可以实现更高效的智能体行为。

3.1 VAE (V) 模型

变分自编码器 VAE 将每个时间步的视觉层面将图像压缩到隐空间 z。

图 5：变分自编码器（VAE）的流程图。

3.2 MDN-RNN (M) 模型

在时序层面使用 RNN 来预测未来。由于许多复杂环境本质上是随机的，因此训练 RNN 输出概率密度函数 p(z)，而不是确定性预测 z。简而言之，即预测下一步潜向量 z 的概率分布。

图 6：具有混合密度网络输出层的 RNN。MDN 输出高斯分布混合的参数 p(z)，用于对下一个潜在向量的预测进行采样 z 。

P(zt+1|at,zt,ℎt) ，其中 at 是 time t 采取的动作， ℎt 是 RNN 在 time t 的隐藏状态。根据温度参数来控制模型的不确定性。

3.3 控制器 (C) 模型

控制器（C）模型负责确定在环境推进过程中代理能够获得的预期累积奖励最大化的行动过程。为了使 C 更简单且更小，它与 V 和 M 分开训练，因此智能体的大部分复杂性留在世界模型（V 和 M）中。

C 是一个简单的单层线性模型，它将 z 映射到每个时间步的操作 a。

3.4 结合 V、M 和 C

图 8：Agent 模型流程图。原始观测值经过 V 处理得到潜在向量 z。C 的输入是这个潜在向量 z，与 M 的隐藏状态 ℎ 在每个时间步长上连接。然后，C 使用输出 a 控制动作向量，并对环境产生影响。接着，M 使用当前的状态 z 和动作 a 更新自己的隐藏状态，生成下一个时间步 t+1 上要使用的 ℎ。

V 和 M 使用深度学习方法进行训练；并选择了协方差矩阵适应进化策略（CMA-ES）来优化 C 的参数，它适用于解空间中具有多达几千个参数的情况。通过在一台拥有多个 CPU 核心的单机上并行运行多个环境实例来训练模型 C 的参数。