Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation

news2024/12/24 15:34:44

题目:用于视觉语言导航的层次化跨模态智能体

摘要

1. 问题背景和现有方法

  • VLN任务:这是一种复杂的任务,要求智能体基于视觉输入和自然语言指令进行导航。

  • 现有方法的局限性:之前的工作大多将这个问题表示为离散的导航图,智能体的动作空间是有限的、离散的。

2. 新提出的设置

  • Robo-VLN:这篇论文提出了一种新的任务环境,名为Robo-VLN。该设置更加复杂,因为智能体不再局限于离散的导航图,而是在连续的三维重建环境中进行操作。这个新环境更接近现实中的导航问题。

  • Robo-VLN的挑战

    • 轨迹长度更长

    • 动作空间是连续的

    • 存在障碍物等现实问题

3. 基准和问题

  • 研究者提供了一个基于现有VLN方法的基准测试,发现它们在Robo-VLN任务中效果较差。这表明,传统方法在面对更加复杂和连续的环境时,适应性较弱。

4. 新方法

  • 分层决策:研究者提出了一种新的智能体模型,即分层的高层与低层策略来解决这一问题。

  • HCM智能体:这个模型通过层次化的决策过程,模块化的训练方式,以及将推理与模仿学习的过程分开,能够更有效地处理Robo-VLN任务。

5. 实验结果

  • 通过大量的实验,研究者证明了他们提出的HCM智能体在各项关键指标上优于现有基准,设立了新的Robo-VLN任务的基准。

总结:

这篇论文的核心贡献在于:

  • 提出了一个更接近现实世界的视觉与语言导航任务(Robo-VLN),增加了问题的复杂性。

  • 通过分层决策、模块化训练和推理与模仿的解耦,提出了HCM智能体,解决了之前方法在连续环境中的不足。

引言

1. 背景与动机

  • 个人助理机器人:该研究旨在推动个人助理机器人能够无缝执行人类指令,尤其是在现实环境中。深度学习和深度强化学习的进展为这一领域带来了可能性,但仍有很多挑战需要克服。

  • 现有工作与模拟环境:由于现实环境中收集数据的难度,很多研究使用了类似Matterport3D和Gibson等模拟环境来训练智能体。这些环境允许研究人员通过视觉和语言输入训练自主导航智能体。

  • VLN任务的定义:VLN任务要求智能体仅依靠视觉输入和语言指令进行导航,且没有预先提供的全球地图。

2. 现有方法的局限性

  • 离散动作空间的假设:之前的工作大多将导航问题简化为离散的导航图,这些工作假设智能体在已知的拓扑结构中能进行完美的定位,并且没有障碍物。这些假设与现实世界中的问题有很大差距,特别是在连续控制和复杂环境感知方面。

3. Robo-VLN的提出

  • Robo-VLN任务:本文的第一个贡献是提出了一种更复杂的、基于连续控制的VLN任务。该任务不再依赖离散的导航图,而是要求智能体在连续的三维环境中执行任务。这使得问题更贴近现实,增加了轨迹长度和任务复杂性。

  • Robo-VLN的挑战:研究表明,之前为离散环境设计的模型在这种连续控制的长轨迹任务中表现较差,表明现有方法不能很好地适应这种复杂环境。

4. 层次化方法的提出

  • 层次化分解:为了应对连续控制环境中的VLN任务,研究者提出了一种分层决策模型。

  • 分层决策模型的关键能力

    1. 推理与模仿的解耦:通过高层策略和低层策略的分工,高层策略负责将语言指令与视觉输入匹配,推理已完成的指令,并进行任务的子目标推理;低层策略则模仿控制器的反馈,基于视觉状态和子目标进行具体行动。

    2. 模块化训练:通过将推理与控制分离,复杂的长时间任务被分解为短时间的子任务。每个模块有自己独立的目标,采用端到端的训练方式,且层次之间的通信仅限于子目标信息。

5. 贡献总结

  • 突破离散假设:这是首个将VLN任务表述为连续控制问题的工作,抛弃了导航图和离散动作空间的假设。

  • 提出层次化的HCM智能体:通过分层决策和模块化训练,该智能体能够更有效地处理跨模态任务,尤其是长时间和复杂环境中的任务。

  • 性能提升:通过与现有方法的对比,研究表明提出的方法在Robo-VLN任务中设立了新的基准,相对于未见环境的验证数据集,绝对成功率提升了13%。

ROBO-VLN

任务定义

1. Robo-VLN的引入

  • Robo-VLN任务:该任务是现有视觉与语言导航(VLN)任务的一种扩展,采用连续控制的形式,目的是更加接近现实世界中的导航挑战。与以往基于导航图或离散的VLN任务相比,Robo-VLN增加了轨迹长度、视觉帧数以及动作的多样性。

  • 任务特点

    • 平均每条轨迹的步数增加了4.5倍,意味着需要智能体执行更长时间的决策。

    • 提供了大约350万帧的视觉输入,极大地增加了感知任务的复杂性。

    • 具有更加平衡的高层次动作分布,意味着智能体在导航时需要处理更广泛的控制和决策。

  • 成功标准:任务的成功标准为:

    1. 智能体与目标之间的距离小于3米的阈值,且执行了停止动作

    2. 智能体与目标之间的距离小于3米的阈值,其角速度减少到某一阈值以下来停止

连续VLN环境的构建

层次跨模态智能体

High-Level 策略

多模态交叉注意力编码器

多模态注意力解码器

Low-Level 策略

训练细节

数据集细节

1. 模拟器和数据集

  • Habitat模拟器:实验是在Habitat模拟器上进行的。Habitat是一种用于强化学习和导航任务的高效模拟环境,能够在高保真3D环境中进行快速模拟。

  • Robo-VLN数据集:Robo-VLN数据集是基于Matterport3D数据集构建的。Matterport3D数据集包含了90个环境,这些环境通过大约10,000个高分辨率RGB-D全景图像进行捕捉。Robo-VLN数据集提供了3,177条轨迹,每条轨迹与来自R2R数据集的人工注释指令相对应。

    • 数据集规模:Robo-VLN数据集中总共有9,533对专家指令和轨迹,平均每条轨迹的步数为326步,相比之下,VLN-CE数据集的平均轨迹步数为55.8,R2R数据集为5步。

    • 数据集划分:数据集分为三个部分:训练集、验证集(已见环境)和验证集(未见环境)。

2. 评估指标

实验采用了一系列标准的评估指标来衡量模型的性能:

  • 成功率 (Success Rate, SR):衡量智能体是否到达了目标位置。

  • 路径长度加权成功率 (Success weighted by Path Length, SPL):不仅考虑成功率,还将路径长度纳入考量,强调智能体在最短路径内到达目标的能力。

  • 归一化动态时间规整 (Normalized Dynamic Time Warping, NDTW):比较智能体的轨迹与地面真值轨迹的相似度,注重智能体是否遵循了地面真值的完整路径。

  • 轨迹长度 (Trajectory Length, TL):智能体在导航中的实际路径长度。

  • 导航误差 (Navigation Error, NE):智能体最终停止的位置与目标点的距离。

主要评价指标

  • SPLNDTW 被认为是主要的对比指标。SPL更侧重于智能体是否成功到达目标,而NDTW更关注智能体是否跟随了地面真值路径。

3. 实现细节

  • 特征提取

    • ResNet-50:使用在ImageNet上预训练的ResNet-50模型从RGB图像中提取空间特征。

    • DDPPO预训练ConvNet:使用在大规模点目标导航任务上预训练的卷积神经网络(ConvNet)从深度图像中提取特征。

  • Transformer模块:Transformer模块的配置如下:

    • 隐藏层大小 H=256H = 256H=256

    • Transformer头的数量 nh=4n_h = 4nh​=4

    • 前馈层的大小 FF=1024FF = 1024FF=1024

  • 截断反向传播 (Truncated Backpropagation Through Time, TBPTT):由于Robo-VLN任务涉及长时间序列,模型训练时采用了截断反向传播来提高训练效率。截断长度为100步,用于训练注意力解码器。

  • 训练

    • 网络训练了20个epoch,使用“早停法”(early stopping)来根据验证集上的表现终止训练。

实验

1. 平坦基线模型 (Flat Baselines)

研究者提出了一套平坦基线模型,用于与他们的分层模型进行比较。这些基线模型与VLN-CE中的基线类似,但有一些适应性变化:

  • Seq2Seq:一种编码器-解码器结构,通过教师强制(teacher-forcing)训练。

  • Progress Monitor (PM):基于Seq2Seq模型,增加了一个用于进度监控的辅助损失。

  • Cross-Modal Attention (CMA):一种基于跨模态注意力的模型,类似于RCM。

  • 输出变化:这些基线模型的输出从离散的动作空间(向前、左转、右转、停止)转变为预测连续的线速度、角速度和停止动作。

2. 与平坦基线模型的比较

研究者的分层策略模型(HCM)在Robo-VLN任务中取得了明显优于平坦基线模型的性能:

  • 验证未见环境中的表现:HCM模型的成功率(SR)为46%,路径长度加权成功率(SPL)为40%,相比最佳基线模型分别提高了13%和10%。

  • 长远影响:这些结果表明,HCM的分层结构在处理长时间、跨模态的路径跟踪任务时表现更优越。

3. 消融实验

消融实验用于验证不同设计选择对HCM模型的影响,结果总结如下:

  • 视觉信息的重要性:去除视觉输入后,模型的表现与随机智能体相近(SPL和SR均为0.07),这表明视觉输入在真实模拟环境中的重要性。

  • RGB和深度融合的时机:将RGB和深度信息在跨注意力层之前融合的架构表现不如单独对齐RGB和深度与语言指令的架构,这表明在视觉模态上进行分开对齐的有效性。

  • 层次结构的重要性:去除层次结构的实验表明,尽管提供了辅助子目标监督,平坦模型的性能仍低于分层模型(如SR从46%降到40%,SPL从40%降到34%)。这证明了层次化策略在任务中的关键作用。

4. 层次结构的影响

  • 层次结构的来源:HCM模型通过分层决策,将复杂的任务分解为高层次的子目标预测和低层次的速度控制预测。实验结果显示,即使在给予辅助监督的情况下,平坦的模型也无法达到分层模型的表现。这表明分离推理和模仿的做法有助于学习有效的单独策略。

5. 定性比较

  • 定性分析:研究者对比了分层智能体和平坦智能体的表现,结果显示分层智能体能够成功预测低层次的速度命令,并在511步内成功到达目标。而平坦智能体则在导航中多次碰到障碍物,最终在1000步内仍未能到达目标。

6. 总结

  • 分层策略优势:通过消融实验和定性分析,研究者证明了分层策略的优势。分层结构不仅能有效处理长时间的任务,还能够将复杂的跨模态推理任务拆解为易于处理的子任务。

  • 与基线模型的比较:HCM模型在长时间、连续控制的任务中表现显著优于基线模型,尤其是在处理跨模态信息和长时间依赖时,分层策略的设计至关重要。

这种分层策略使得Robo-VLN任务中的智能体在面对复杂导航任务时能够更有效地做出决策,成功率和路径跟踪能力都有显著提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2197233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

『网络游戏』登陆启动框架【05】

将上一章的加载界面隐藏 1.游戏启动逻辑 创建脚本GameRoot.cs (该脚本为游戏入口,作用初始化游戏) 创建脚本:ResSvc.cs () 创建脚本:LoginSys.cs () 编写脚本&a…

解析Vue源码中是如何进行模版编译的

模版编译 联系前文,讲了虚拟DOM的patch过程,而虚拟DOM的前提是先有VNode,那么VNode又是从哪里来的?接下来讲的模版编译便是:把用户写的模版进行编译,就会产生VNode。 在日常开发中,我们把写在…

Qt-目录和文件

1. 目录和文件 1.1 目录操作 QDir 类用来处理目录 常用方法: QDir(QString path) : 实例化 absolutePath() : 获取目录绝对路径 dirName() : 获取目录相对路径 exists(dirPath) : 判断目录是否存在 mkdir(QString dirPath) : 创建目录 rmdir(QStr…

经典5级流水线概述

抽象化的流水线结构: 流水线的基本概念 多个任务重叠(并发/并行)执行,但使用不同的资源流水线技术提高整个系统的吞吐率,不能缩短单个任务的执行时间其潜在的加速比=流水线的级数 流水线正常工作的基本条件…

使用YOLO11实例分割模型进行人物分割【附完整源码】

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

开放式蓝牙耳机哪个品牌好用?五大口碑最好开放式耳机力荐!

长时间佩戴传统入耳式耳机有时可能会影响耳道健康,鉴于此,转而选择不入耳设计的开放式耳机就成了不少人的新倾向,它们有助于减少细菌滋生和耳道闷热的烦恼。为了帮助大家找到合适的选项,下面我将列举一些市面上口碑不错的开放式耳…

跨境电商怎么搭建网络环境?

跨境电商搭建网络环境是一项复杂但至关重要的任务,它涉及到多个层面的技术和服务。以下是构建高效、安全、可扩展的跨境电商网络环境的一些建议: 1. 选择合适的云服务提供商 可靠性与稳定性:选择知名且有良好口碑的云服务提供商,确…

MySql复习知识及扩展内容

DDL操作库和表 -- todo ------------操作库---------------------------------- -- 创建库 create database if not exists day10 charset utf8; create database if not exists day11 char set gbk; -- 使用库 use day10; -- 查询库 show databases ; -- 删除库 drop databas…

mybatisplus整合springboot3出错(springboot多模块开发)

1.mybatisplus版本太低或者maven导入没用如下的 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-spring-boot3-starter</artifactId><version>3.5.5</version></dependency>2.maven导入冲突了&#xf…

千万不要再用varchar类型来存ip地址了!

对于一个ip地址&#xff0c;比如“192.168.0.110”&#xff0c;由于存在“.”号&#xff0c;所以大部分人都会用varchar类型的字段来进行存储&#xff0c;但是大家有没有想过&#xff0c;对于这样一个字符串&#xff0c;每个字符占用一个字节&#xff0c;那么就需要占用13个字节…

使用ChatGPT高级学术应用SciSpace的技术快速精准的搜索文献论文

在学术研究领域,文献综述是非常重要的一个部分。它不仅是对已有研究的梳理和总结,更是对新研究方向的探索和定位。面对浩瀚的学术文献海洋,传统的检索方法往往显得力不从心,既耗时又低效。 随着ChatGPT技术的突破,我们终于可以摆脱这一束缚,迎来一种全新的、高效的文献检…

程序员 -买房历险记

快生日了&#xff0c;自己又又 涨了一岁 买房 真不是 一件简单的事。 一. 买房 三大核心问题 1.一手/二手 房 2.哪个城市买 3.哪个地方买 我调研的是 三四线城市&#xff08;俺的老家&#xff09; 二. 买房需要 花多少&#xff08;看得到/看不到&#xff09; 比如 4000元…

SEO(搜索引擎优化)指南

SEO&#xff08;Search Engine Optimization&#xff09;是通过优化网站内容、结构和外部链接&#xff0c;提升网页在搜索引擎结果中的排名&#xff0c;从而增加网站流量的过程。SEO 涉及多个层面&#xff0c;包括技术 SEO、内容优化、外部链接建设等。以下是 SEO 的核心优化策…

HTML图形

HTML图形 1. HTML5 Canvas2.HTML5 内联 SVG3.HTML 5 Canvas vs. SVG 1. HTML5 Canvas HTML5 的 canvas 元素使用 JavaScript 在网页上绘制图像。画布是一个矩形区域&#xff0c;您可以控制其每一像素。canvas 拥有多种绘制路径、矩形、圆形、字符以及添加图像的方法。 1、创建…

『网络游戏』窗口基类【06】

创建脚本&#xff1a;WindowRoot.cs 编写脚本&#xff1a; 修改脚本&#xff1a;LoginWnd.cs 修改脚本&#xff1a;LoadingWnd.cs 修改脚本&#xff1a;ResSvc.cs 修改脚本&#xff1a;LoginSys.cs 运行项目 - 功能不变 本章结束

springboot整合mybatis案例

springboot通过整合mybatis来实现数据的呈现。 一、springInitializer创建项目 注意&#xff1a;不选择也可以&#xff0c;创建项目后在pom.xml配置文件中引入依赖 <!-- mybatis起步依赖--><dependency><groupId>org.mybatis</groupId><art…

帕金森患者必看:十大忌口食物清单,守护健康从饮食做起!

一、高脂肪肉类 忌口理由&#xff1a;高脂肪肉类如肥肉、五花肉等&#xff0c;含有大量饱和脂肪&#xff0c;长期摄入会增加心血管疾病风险&#xff0c;而心血管疾病是帕金森病患者常见的并发症之一。建议选择瘦肉、鱼类等低脂高蛋白的食物。 二、腌制及加工食品 忌口理由&a…

pnpm在monorepo架构下不能引用其他模块的问题

一、研究背景 monorepo架构项目目录结构&#xff1a; - common- index.ts- ... - main- index.ts- ... - web- vue-demo- ... pnpm在monorepo架构下使用以下命令 pnpm -F main add common # or pnpm --filter main add common 并不能在main/index.ts中使用common/index.ts…

23.第二阶段x86游戏实战2-背包遍历(OD卡死解决办法,背包数量基址)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 本次游戏没法给 内容参考于&#xff1a;微尘网络安全 本人写的内容纯属胡编乱造&#xff0c;全都是合成造假&#xff0c;仅仅只是为了娱乐&#xff0c;请不要…

数字教学知识库:教师备课的好帮手

在信息技术飞速发展的今天&#xff0c;教育领域正经历着前所未有的变革。其中&#xff0c;数字教学知识库的兴起&#xff0c;为教师备课提供了强有力的支持&#xff0c;成为了他们不可或缺的好帮手。本文将探讨数字教学知识库的定义、特点、构建方式以及其在教师备课中的应用&a…