IJCAI-2024 | 具身导航的花样Prompts!VLN-MP:利用多模态Prompts增强视觉语言导航能力

news2025/1/23 21:23:27

  • 作者: Haodong Hong1,2 , Sen Wang1∗ , Zi Huang1 , Qi Wu3 and Jiajun Liu2,1

  • 单位:昆士兰大学,澳大利亚科学与工业研究组织,阿德莱德大学

  • 论文标题:Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts

  • 论文链接:https://arxiv.org/pdf/2406.02208

  • 代码链接:https://github.com/honghd16/VLN-MP

主要贡献

  • 论文引入了VLN-MP任务,借助视觉与语言Prompts的融合来提升导航性能,弥补了现有VLN任务仅凭文本指令的不足。

  • 多模态Prompts设置方面,设计了三种不同的图像Prompts配置——Aligned、Related和Terminal,以契合多样化的导航场景,从而增强了模型的适应性和灵活性。

  • 构建了一个全新的VLN-MP测试基准,涵盖数据生成流程、四个新数据集以及一个创新的MPF模块,有力推动了VLN-MP研究的深入发展。

  • 利用ControlNet生成了新的多模态指令数据,增强了数据集的多样性和模型的泛化能力。

  • 在R2R、RxR、REVERIE、CVDN四个VLN基准数据集上开展了广泛实验,充分证明了在多模态Prompts助力下导航性能的显著提升。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中结合自然语言和图像指令Prompts,以解决现有VLN任务主要依赖文本指令导致的歧义性和知识迁移限制问题。

研究难点:

该问题的研究难点包括:

  • 如何处理不同数量的图像Prompts以及这些Prompts与文本的相关性;

  • 如何在保持向后兼容性的同时,提升导航性能;

  • 如何有效地将多模态指令与现有的VLN模型集成。

相关工作:

  • 视觉语言导航
    • VLN任务要求智能体在模拟环境中(如Matterport3D)根据自然语言指令导航到目标位置。

    • 自Room-to-Room (R2R)数据集引入以来,研究者们开发了许多任务和数据集来应对不同的挑战和场景。

    • 然而,这些工作都局限于仅使用文本指令,而本文提出的VLN-MP任务是第一个促进在VLN中使用多模态指令的范式。

  • VLN中的地标
    • 之前的研究强调了地标在导航中的重要性,并在导航智能体中广泛应用。地标用于构建导航图、分解指令和轨迹以及生成指令等。

    • 本文的工作与它们在两个关键方面有所不同:首先,虽然它们旨在产生新的文本指令,但本文强调多模态指令作为导航的Prompts;其次,与它们严格的地标图像质量和数量要求不同,本文的工作允许地标图像质量和数量有更广泛的范围。

  • 多模态Prompts
    • 多模态Prompts因其比单模态更高的表达能力和统一的输入接口而受到关注。

    • 尽管多模态Prompts在其他领域取得了成功,但在VLN任务中很少被研究。本文通过引入多模态Prompts,填补了这一空白,并展示了其在VLN任务中的重要性和应用潜力。

VLN-MP任务

该任务通过在导航指令中结合视觉信号和自然语言来增强传统的视觉语言导航(VLN)任务。

任务定义

  • 在传统的VLN任务中,智能体需要根据自然语言指令 导航至目标目的地,其中 是指令中的单词数。

  • 智能体在每个时间步 通过全景表示观察其周围环境,包括36个视角 ,每个视角包含RGB图像 和当前节点 的方向细节(头部朝向角度 和俯仰角度 )。

  • 智能体根据策略 决定动作 ,选择与目标节点对齐的最佳视角进行导航。

多模态指令

  • 在现实世界中,图像常作为指令的一部分,提供重要的补充信息。然而,当前的VLN任务忽略了这一点,并限制了智能体利用图像Prompts提高性能的能力。

  • 为了克服这些问题,论文提出了VLN-MP任务,通过在指令中插入图像来考虑多模态指令。假设我们为指令中的每个短语提供 张图像 ,每个短语 表示为 ,其中 表示从位置 到 的单词。

  • 通过将图像插入对应的短语旁边,文本指令 转换为多模态形式 :

  • 智能体接收 作为导航指导,其他方面与传统的VLN相同。

图像Prompts设置

  • 由于获取图像的难度不同,智能体可能接收到不同数量和质量的不同Prompts图像。为了使智能体适应这些变化,论文提出了三种不同的设置:Aligned、Related和Terminal。

  • Aligned:提供精确且丰富的Prompts,要求每张图像与短语描述的视图对齐,并且图像数量足够覆盖整个指令。

  • Related:放宽了对齐的要求,只要求图像与短语相关,以促进指令理解而不需要完美对齐。

  • Terminal:仅提供一个图像,描绘目标位置周围的视图,帮助智能体定位停止位置并完成以目标为中心的任务。

测试基准

包括数据生成流程、四个新数据集以及多模态Prompts融合(MPF)模块的设计和实现。

VLN-MP 数据生成流程

  • 为了将文本指令转换为多模态形式,论文利用大型预训练模型,可以高效地应用于现有的VLN数据集,无需额外的训练。

  • 提取(Extraction):首先从指令中提取地标短语。论文使用GPT-4模型来执行这项任务,以提高提取的准确性。

  • 检测(Detection):使用地标短语检测环境中的潜在实体。根据指令类型,选择不同的模型(如GroundingDINO或GLIP)进行零样本检测。

  • 对齐(Alignment):从多个候选图像中选择最适合每个短语的图像。对于Aligned设置,使用Kendall秩相关系数来衡量序列对齐性,并结合检测分数和边界框大小来选择最佳图像。

  • 增强(Augmentation):使用ControlNet生成基于地标图像线段的新图像,以增加数据多样性并提高模型的泛化能力。

VLN-MP 数据集

  • 论文将数据生成流程应用于四个典型的VLN数据集:R2R、RxR、REVERIE和CVDN,生成相应的多模态版数据集,分别标记为“-MP”。

  • R2R-MP:从R2R数据集中生成17,328条多模态指令,平均每个指令有4.15个地标。

  • RxR-MP:从RxR数据集中生成100,923条多模态指令,Aligned设置平均有7.17个地标。

  • REVERIE-MP:直接使用REVERIE的边界框注释生成15,410条多模态指令,每个指令包含一个视觉Prompts。

  • CVDN-MP:从CVDN中生成6,031条多模态指令,每个指令包含一个视觉Prompts和一个替代的扩展指令。

多模态Prompts融合模块(MPF)

  • 为了有效利用多模态指令,论文提出了一种新的MPF模块。该模块包括一个视觉分支来单独处理视觉Prompts,并与处理语言Prompts的文本分支并行。

  • 视觉Prompts首先通过图像编码器提取特征,然后与文本token合并,进一步整合多层Transformer以合成最终的多模态指令。

  • 该模块的关键在于两次应用位置编码:第一次用于分别标记图像和文本的序列,第二次用于匹配这两种类型的token,确保模型能够识别短语及其对应图像之间的关系。

实验设置

数据集

  • 实验在四个VLN-MP数据集上进行:R2R-MP、RxR-MP、REVERIE-MP和CVDN-MP。这些数据集是从原始VLN数据集中生成的,包含文本和视觉Prompts。

  • 原始数据集分为四个部分:train、val-seen、val-unseen和test-unseen。

  • 由于test-unseen的真实路径未发布,多模态版本只包含前三者用于训练和评估。

基线模型

  • 使用HAMT和DUET作为基线模型,这两种模型是VLN任务中的主流架构。

  • HAMT使用Transformer网络编码指令、视觉观察和历史信息进行动作预测。

  • DUET在HAMT的基础上扩展,通过构建实时拓扑图实现全局动作决策。

评估指标

  • 成功率(Success Rate, SR):智能体在目标3米内停止的比例。

  • 路径长度加权成功率(Success rate weighted by Path Length, SPL):SR通过最短路径与预测路径长度的比率进行归一化。

  • 归一化动态时间规整(normalized Dynamic Time Warping, nDTW):通过计算参考路径与预测路径之间的相似性来衡量指令一致性。

  • 目标进度(Goal Progress, GP):用于CVDN,测量完成轨迹长度与到目标的剩余距离之间的平均差异。

实现细节

  • 使用OpenAI的GPT-4和GLIP-L及GroundingDINO-T模型进行地标检测。

  • 对于非英语语言,使用Google翻译服务将其翻译成英语。

  • 每个视觉Prompts生成五个新图像进行数据增强。

结果与分析

数据集评估

  1. 短语评估

    • 论文比较了从R2R-MP提取的短语与Marky-mT5和GELR2R数据集的短语。

    • 主要使用Fuzzy Matching和ROGUE-L评分方法来评估短语的相似性。

    • 结果显示,R2R-MP的短语与GELR2R数据集的相似性很高,特别是在模糊匹配中达到了95%的精确率,表明其短语提取的有效性。

  2. 图像评估

    • 论文使用CLIP模型来评估RxR-MP数据集中的图像与地标短语的对齐情况。

    • 结果显示,RxR-MP的平均得分高于Marky-mT5,表明其图像与地标短语的对齐更准确。

    • 进一步分析表明,RxR-MP的图像在大多数情况下更受青睐,显示出更强的对齐效果。

  3. 视角匹配

    • 论文计算了R2R-MP中地标图像的视角匹配准确率,并与GELR2R的地面真实数据进行比较。

    • 结果显示,R2R-MP中有近70%的地标短语正确识别了对应的视角,且91%的视角相邻,表明方法的优越性。

导航表现

  1. RxR-MP数据集

    • 表格展示了不同模型在RxR-MP数据集上的导航性能。

    • HAMT+MPF模型在引入多模态Prompts后,性能显著提升,尤其是在seen场景中。

    • 结果表明,模型在适应不同的视觉Prompts方面表现良好,并且在增加视觉Prompts的数量和相关性时,性能有所提高。

  2. CVDN-MP数据集

    • 论文研究了在提供必要信息的视觉Prompts情况下的导航情况。

    • 结果显示,使用多模态Prompts的模型在目标进度(GP)指标上表现更好,表明视觉Prompts在目标导向任务中的重要性。

    • 结果还显示,视觉Prompts比单一模态Prompts更直观有效。

消融实验

  1. 增强数据比例

    • 评估了ControlNet生成的增强数据与原始数据的比例对性能的影响。

    • 结果显示,随着增强数据比例的增加,seen场景的性能逐渐下降,但在unseen场景中,性能先提高后下降。

    • 这表明适量的增强数据可以减少过拟合并提高对新环境的适应性,但过多的增强数据可能导致Prompts与观察之间的差异,从而混淆智能体。

  2. 位置编码

    • 研究了不同位置编码对MPF模块性能的影响。结果显示,视觉位置编码(VPE)和多模态位置编码(MPE)都有助于处理多模态指令。

    • 结合这两种位置编码可以获得最佳性能,支持它们在模型中的作用。

预探索设置

  • 研究了在预探索设置下,智能体在熟悉环境后再进行导航的情况。

  • 结果表明,VLN-MP允许现有模型在这种设置下应用,并且在不增加额外训练的情况下提高性能。

  • 结果显示,预探索设置显著提高了RxR数据集中的导航性能,尤其是在seen和unseen场景中,成功率(SR)分别提高了6.9%和2.5%。

总结

本文提出了VLN-MP任务,通过将视觉Prompts集成到文本指令中,增强了智能体的导航能力。VLN-MP不仅保持了向后兼容性,还展示了在不同数量的视觉Prompts和相关性下的适应性。

建立了第一个VLN-MP基准,包括将文本指令转换为多模态形式的流程、四个不同下游任务的数据集和高效处理多模态指令的新颖MPF模块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2281093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言程序设计十大排序—冒泡排序

文章目录 1.概念✅2.冒泡排序🎈3.代码实现✅3.1 直接写✨3.2 函数✨ 4.总结✅ 1.概念✅ 排序是数据处理的基本操作之一,每次算法竞赛都很多题目用到排序。排序算法是计算机科学中基础且常用的算法,排序后的数据更易于处理和查找。在计算机发展…

docker 安装 redis 详解

在平常的开发工作中,我们经常会用到 redis,那么 docker 下应该如何安装 redis 呢?简单来说:第一步:拉取redis镜像;第二步:设置 redis.conf 配置文件;第三步:编写 docker-…

人工智能之深度学习_[4]-神经网络入门

文章目录 神经网络基础1 神经网络1.1 神经网络概念1.1.1 什么是神经网络1.1.2 如何构建神经网络1.1.3 神经网络内部状态值和激活值 1.2 激活函数1.2.1 网络非线性因素理解1.2.2 常见激活函数1.2.2.1 Sigmoid 激活函数1.2.2.2 Tanh 激活函数1.2.2.3 ReLU 激活函数1.2.2.4 SoftMa…

FPGA中场战事

2023年10月3日,英特尔宣布由桑德拉里维拉(Sandra Rivera)担任“分拆”后独立运营的可编程事业部首席执行官。 从数据中心和人工智能(DCAI)部门总经理,转身为执掌该业务的CEO,对她取得像AMD掌门人苏姿丰博士类似的成功,无疑抱以厚望。 十年前,英特尔花费167亿美元真金白银…

李沐vscode配置+github管理+FFmpeg视频搬运+百度API添加翻译字幕

终端输入nvidia-smi查看cuda版本 我的是12.5,在网上没有找到12.5的torch,就安装12.1的。torch,torchvision,torchaudio版本以及python版本要对应 参考:https://blog.csdn.net/FengHanI/article/details/135116114 创…

Android系统开发(六):从Linux到Android:模块化开发,GKI内核的硬核科普

引言: 今天我们聊聊Android生态中最“硬核”的话题:通用内核镜像(GKI)与内核模块接口(KMI)。这是内核碎片化终结者的秘密武器,解决了内核和供应商模块之间无尽的兼容性问题。为什么重要&#x…

K8S如何让worker使用kubectl命令(RBAC方法)

背景 目前集群规划如下 kubeadm安装集群master节点默认能使用kubectl命令,worker则不能使用。这是因为worker节点没授权。当然,你可以通过以下方式授权 mkdir .kube scp master1:/root/.kube/config .kube/但这样无疑给了worker节点非常大的权限&#…

【Excel】【VBA】Reaction超限点筛选与散点图可视化

【Excel】【VBA】Reaction超限点筛选与散点图可视化 功能概述 这段代码实现了以下功能: 从SAFE输出的结果worksheet通过datalink获取更新数据从指定工作表中读取数据检测超过阈值的数据点生成结果表格并添加格式化创建可视化散点图显示执行时间 流程图 #mermaid-…

[Computer Vision]实验三:图像拼接

目录 一、实验内容 二、实验过程及结果 2.1 单应性变换 2.2 RANSAC算法 三、实验小结 一、实验内容 理解单应性变换中各种变换的原理(自由度),并实现图像平移、旋转、仿射变换等操作,输出对应的单应性矩阵。利用RANSAC算法优…

微信小程序使用picker根据接口给的省市区的数据实现省市区三级联动或者省市区街道等多级联动

接口数据如上图 省市区多级联动&#xff0c;都是使用的一个接口通过传参父类的code。返回我们想要的数据 比如获取省就直接不要参数。市就把省得code传给接口&#xff0c;区就把市的code作为参数。 <picker mode"multiSelector" :range"mulSelect1" …

自动化01

测试用例的万能公式&#xff1a;功能测试界面测试性能测试易用性测试安全性测试兼容性测试 自动化的主要目的就是用来进行回归测试 新产品--第一个版本 (具备丰富的功能)&#xff0c;将产品的整体进行测试&#xff0c;人工创造一个自动化测试用例&#xff0c;在n个版本的时候…

JS宏进阶:正则表达式的使用

正则表达式&#xff0c;对于任何一门编程语言来说&#xff0c;都是一种非常强大的工具&#xff0c;主要用于搜索、编辑或操作文本和数据。因此&#xff0c;在JS中&#xff0c;也存在相应的对象new RegExp( )&#xff0c;在本章中&#xff0c;将详细介绍正则表达式在JS宏中的运用…

深度学习笔记——循环神经网络RNN

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。 文章目录 文本特征提取的方法1. 基础方法1.1 词袋模型&#xff08;Bag of Words, BOW&#xff09;工作原…

Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合

读书笔记&#xff1a;卓越强迫症强大恐惧症&#xff0c;在亲子家庭、职场关系里尤其是纵向关系模型里&#xff0c;这两种状态很容易无缝衔接。尤其父母对子女、领导对下属&#xff0c;都有望子成龙、强将无弱兵的期望&#xff0c;然而在你的面前&#xff0c;他们才是永远强大的…

SpringBoot读取yml配置文件一组对象数据初始化

1. yml的短横杠语法2. yml数组元素读取并初始化3. 测试结果 1. yml的短横杠语法 - 短横杠加空格&#xff0c;可以表示数组元素&#xff0c;如下配置 表示有名为apps的一组数据&#xff0c;数组的元素对象包含有corpId、corpSecret、appCode三个字段像server.port没有 - 表示的…

基于JAVA的校园二手商品交易平台的设计与开发

摘 要&#xff1a;政府政策引导与社会观念的转变使得国内大学生的创业意识逐渐提高&#xff0c;很多高校大学生开始自主创业。目前我国各大高校暂且还没有较为成型的针对校内学生创业者的校园网络服务平台。本文首先主要是介绍了关于java语言以及web开发的相关技术&#xff0c;…

深度学习核函数

一、核函数的基本概念 核函数在机器学习中具有重要应用价值&#xff0c;常用于支持向量机&#xff08;SVM&#xff09;等算法中。 核函数是面试中经常被考到的知识点&#xff0c;对于找工作和实际数据转换都有重要作用。 二、数据建模与核函数的作用 数据越多&#xff0c;可…

数据结构(三) 排序/并查集/图

目录 1. 排序 2.并查集 3.图 1.排序: 1.1 概念: 排序就是将数据按照某种规则进行排列, 具有某种顺序. 分为内排序和外排序. 内排序就是: 将数据放在内存中的排序; 外排序是: 数据太多无法在内存中排序的. 1.2 插入排序: 插入排序包含: 直接插入排序和希尔排序. (1) 直接插入…

ECCV 2024,全新激活函数!

激活函数对深度神经网络的成功可太重要了&#xff0c;它可以提升学习复杂关系的能力&#xff0c;减少过拟合&#xff0c;增强模型性能&#xff0c;与它相关的研究一直是重中之重。最近&#xff0c;这方向有了不少新突破。 ECCV 2024上的这篇&#xff0c;提出了一种可训练的高表…

小米Vela操作系统开源:AIoT时代的全新引擎

小米近日正式开源了其物联网嵌入式软件平台——Vela操作系统&#xff0c;并将其命名为OpenVela。这一举动在AIoT&#xff08;人工智能物联网&#xff09;领域掀起了不小的波澜&#xff0c;也为开发者们提供了一个强大的AI代码生成器和开发平台。OpenVela项目源代码已托管至GitH…