Less is More: Generating Grounded Navigation Instructions from Landmarks

摘要

我们研究根据室内路线捕获的 360° 图像自动生成导航指令。现有的生成器视觉基础较差，导致它们依赖语言先验并对物体产生幻觉。我们的 MARKY-MT5 系统通过关注视觉地标来解决这个问题；它包括第一级地标检测器和第二级生成器——多模式、多语言、多任务编码器-解码器。为了训练它，我们在 Room-across-Room (RxR) 数据集之上引导接地地标注释。使用文本解析器、RxR 姿势轨迹的弱监督以及在 1.8b 图像上训练的多语言图像文本编码器，我们识别了 971k 英语、印地语和泰卢固语地标描述，并将它们定位到全景图中的特定区域。在 Room-to-Room 中，人类寻路器按照 MARKYMT5 的指令获得了 71% 的成功率 (SR)，略低于遵循人类指令的 75% SR，并且远高于其他生成器的 SR。对 RxR 更长、多样化路径的评估在三种语言上获得了 6164% 的 SR。在新环境中生成如此高质量的导航指令是迈向对话式导航工具的一步，并且可以促进指令跟随代理的大规模训练。

介绍

寻路——导航到目的地——是一项日常任务。我们研究自动生成有效引导人们的导航指令。使用基本方向和街道名称的基于模板的语言生成器通常用于户外测绘应用，一些更灵活的生成方法依赖于包含地图、道路和地标信息的数据库[16,50,51]。相比之下，室内寻路指令需要以自我为中心的运动指导和对视觉环境（例如值得注意的物体）的参考。

用于生成室内寻路指令的系统假设可以访问预先存在的平面图和地标数据库[41]，但最近的工作试图直接从视觉输入生成新颖的指令[21,38,59]。实现这一目标的进展将使导航辅助工具成为对话式的而不是基于地图的，并且它可以为训练遵循指令的机器人提供几乎无限的高质量合成导航指令。描述导航路径也是人类机器人通信的一项关键能力，让机器人能够回答诸如“你去了哪里？”等问题。或者我应该在哪里见到你？

我们寻求直接从视觉表示和穿越路径的动作生成准确、流畅的多种语言的导航指令。之前的工作假设指令生成器的输入是在路径上每隔一段时间捕获的 360° 全景（以下称为全景）图像序列，通常使用 Matterport3D 环境对来自 Room-to-Room (R2R) [5] 的指令进行训练 [ 9]。事实证明，这些模型的指令作为视觉和语言导航（VLN）代理的附加训练数据很有价值[21]。然而，人们很难跟随它们[66]：在未见过的环境中，Speaker-Follower [21] 的 R2R 人类寻路成功率为 36%，EnvDrop [59] 的成功率为 42%。生成的文本在风格上是正确的，但经常引用不存在的对象并混淆空间术语，例如左和右。

面向视觉的指令生成器面临的挑战是处理不相关的视觉输入。在许多其他图像到文本生成任务（例如图像字幕）中，输入中的许多视觉信息都反映在输出文本中。生成导航指令时情况并非如此。人类注释者查看的环境不到 30% [35]，并且指令仅引用了他们查看的对象的一小部分。这使得学习视觉输入和文本输出之间的精确映射变得更加困难。相反，获取更多信息可能会降低性能[14]，因为模型很乐意学习虚假相关性，从而在推理过程中引起幻觉。

为了解决这个问题，我们利用 Room-across-Room (RxR) 数据集 [35] 中的时空基础。 RxR 注释器不是编写指令，而是在遍历路径时说话。因此，每条 RxR 指令都带有姿势轨迹，将所说的（以及后来转录的）单词与注释者所看到的内容对齐。我们使用这些姿势轨迹和指令来派生一个新的silver注释数据集，其中包含视觉地标上的边界框及其多语言描述（英语、印地语和泰卢固语）。具体来说，我们使用文本解析器引导地标注释来识别指令中的地标短语。然后，我们使用强大的图像文本共嵌入模型 [31] 结合姿势轨迹的弱监督来将环境中的这些地标接地。

在 R2R 路径上的人类寻路实验中，使用silver地标（来自整个环境的视觉输入的子集）进行训练的 MARKY-MT5 几乎消除了模型生成的指令与人类编写的指令之间的差距 – 实现了 71% 的成功率 (SR)相比之下，人工指令为 75%，之前的模型为 42%，我们在完整 360° 全景上训练的模型为 58%。在为生成器选择视觉输入时，少即是多。在更具挑战性的 RxR 路径上，人类寻路者使用 MARKY-MT5 获得 62% 的 SR，而使用人类指令获得 78%。我们发布了silver地标数据和 MARKY-MT5 生成的超过一百万条导航指令，作为训练 VLN 代理的数据增强。