MM-2024 | 智能体遇山开路,遇水架桥! ObVLN:突破障碍,受阻环境中的视觉语言导航

news2025/1/5 4:34:05

  • 作者:Haodong Hong, Sen Wang, Zi Huang

  • 单位:昆士兰大学

  • 论文链接:Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments (https://dl.acm.org/doi/pdf/10.1145/3664647.3681640)

  • 代码链接:https://github.com/honghd16/ObstructedVLN

主要贡献

  • 提出R2R-UNO数据集,首次将指令-现实不匹配问题引入VLN任务,通过在R2R数据集中修改导航图和视觉观测,生成了多样化的障碍物,反映了真实世界导航的复杂性。

  • 提出ObVLN方法,包括课程训练策略和虚拟图构建机制,帮助智能体有效适应障碍物环境。

  • 在R2R-UNO数据集上,ObVLN方法相比现有方法在障碍物环境中的成功率提高了23%,达到了67%的成功率,显著提升了智能体的适应性。

  • 在R2R、REVERIE和R2R-UNO数据集上进行了广泛的实验,证明了在VLN研究中引入R2R-UNO的重要性,并展示了ObVLN在原始和无障碍环境中的良好表现。

研究背景

研究问题

当前的VLN任务通常假设指令与固定的预定义导航图完全一致,忽略了实际导航图中可能存在的障碍物,这会导致在室内和室外环境中导航失败。

论文主要解决视觉语言导航(VLN)在实际环境中遇到的指令与现实的匹配问题。

研究难点

该问题的研究难点包括:

  • 如何有效地在现有的VLN环境中引入障碍物,使得指令与现实环境不匹配;

  • 如何在训练过程中使智能体适应这种不匹配,从而提高其在实际导航中的鲁棒性。

相关工作

  • 数据集:介绍了用于VLN的数据集,如Matterport3D和HM3D,并介绍了通过合成指令、额外环境和预测场景来缓解数据稀缺问题的方法。ScaleVLN通过合成高质量的指令-轨迹对来提高智能体性能。

  • 环境变化:讨论了修改VLN环境的多种方法,这些方法可以分为基于视觉的调整和基于图的调整。VLN-CE放弃基于图的导航范式,允许智能体在连续环境中自由移动以增强任务真实性。

  • 障碍物避让:介绍了几种在视觉导航中处理障碍物的方法,如ETP-Nav和SafeVLN,但这些方法与本文的工作不同,因为它们专注于评估障碍物的属性以避免它们,而不是处理导航图的变化。

  • 对象插入:回顾了计算机视觉中对象插入的研究历史,从早期的剪切粘贴策略到使用神经网络的图像合成。在导航领域,THDA和Envedit分别使用3D扫描和语义图像合成来增强训练数据。

研究方法

问题设定

在VLN中,智能体需要遵循自然语言指令在模拟环境中导航。环境通常是一个预定义的无向导航图,智能体在每个时间步感知一个全景视图,并决定一个动作来移动到相邻节点。

然而,现实世界的导航图可能会发生变化,例如由于障碍物的存在,导致指令与现实不符,智能体必须找到替代路径。

R2R-UNO数据集

提出了R2R-UNO数据集,通过在R2R数据集的导航图和视觉观察中进行修改,引入了各种类型的路径障碍,以生成指令与现实的不一致性问题。

  1. 图的变化

    • 定义了在R2R数据集中路径上的冗余边,并根据这些边的组合创建了不同的阻塞集合(Block-x),其中x表示阻塞边的数量。

    • 对于每个路径,识别出所有冗余边,并为每组冗余边的组合计算替代路径,以确保即使某些边被阻塞,智能体仍然可以到达目的地。

    • 为了避免生成过长的路径,设置了新路径长度的限制。

  2. 视觉变化

    • 为了与图的变化保持一致,引入了两个新模块:对象插入模块和过滤模块。

    • 对象插入模块使用稳定的扩散修复模型来在全景视图中插入物体,从而在视觉上模拟障碍物的存在。

    • 过滤模块通过使用CLIP模型评估每个视图-物体对的兼容性分数,从多个生成的候选视图中选择高质量的修复结果。

  3. 对象插入过程

    • 描述了如何在节点的全景视图中定位另一个节点,并计算像素坐标以生成掩码。

    • 使用修复模型生成修复后的视图,并通过过滤模块选择最佳的修复结果。

    • 最后,将更新后的视图传播到相邻视图,以保持全景视图的一致性。

  4. 多视图一致性

    • 仅在节点连接的冗余边上执行2D修复可能会导致多视图不一致性。

    • 尽管如此,这种不一致性在他们的任务中对智能体性能的影响较小,因为指令与现实的不匹配主要是由图的变化定义的。

ObVLN

现有的VLN方法在完美指令假设下表现良好,但缺乏适应图变化的基本导航功能,这在现实世界的导航中至关重要。

论文提出ObVLN(Obstructed VLN),帮助智能体从无障碍环境平滑过渡到障碍环境。

  1. R2R-UNO验证:通过在R2R-UNO数据集上进行零样本评估,发现即使是表现最好的模型,在遇到单个阻塞边时成功率也会显著下降。

  2. ObVLN方法:为了解决这个问题,提出了ObVLN方法,它结合了课程学习策略和图构建机制,帮助智能体更好地适应阻塞环境。

  3. 课程学习策略:该方法通过逐步增加阻塞环境的样本比例,使智能体能够在原始和阻塞环境中都能保持良好的性能。

  4. 图构建机制:引入虚拟节点来代表因阻塞而不可达的节点,促进智能体寻找替代路线并提高探索效率。

实验设计

数据集

实验主要在R2R和R2R-UNO数据集上进行:

  • R2R数据集包括10,800个全景视图,分为训练集、验证集(可见和不可见)和测试集。

  • R2R-UNO数据集通过在R2R路径中引入障碍物生成,包含三种不同的障碍物设置(Block-1、Block-2、Block-3)。

评估指标

评估指标包括:

  • 轨迹长度(TL),

  • 导航误差(NE),

  • 成功率(SR),

  • 路径长度加权成功率(SPL)。

实现细节

使用stable-diffusion-v1.5-inpainting模型进行对象插入,CLIP ViT-L/14评估文本图像对。

采用HAMT和DUET进行导航训练,优化器为AdamW,学习率为1e-5,批量大小为8,训练100K次。

训练设置

比较了三种不同的训练设置:

  • 基本设置(仅使用R2R数据集),

  • +OE设置(结合R2R和R2R-UNO数据集),

  • +ObVLN设置(使用ObVLN方法在R2R和R2R-UNO数据集上训练)。

主要结果

性能提升

  • 结果显示,结合两种类型数据的模型在R2R-UNO数据集上的导航性能显著优于仅在R2R上训练的模型。

  • 尽管结合数据的训练设置提高了在阻塞场景中的性能,但也导致了在R2R数据集上的性能下降。

  • 论文指出这是因为智能体在阻塞环境中过度优化,倾向于在没有障碍物的情况下也采取绕行策略。

ObVLN的优势

  • 对于HAMT模型,ObVLN在所有四个R2R和R2R-UNO数据集上都取得了最佳结果。

  • 对于DUET模型,尽管在R2R上的SPL略有下降,但在R2R-UNO的所有三个数据集上都取得了最先进的结果。

消融研究

消融研究表明,对象插入模块和过滤模块对提高智能体在障碍环境中的导航性能至关重要。

此外,逐步增加障碍物环境样本比例的采样策略也优于其他策略。

定性分析

展示了R2R-UNO中的一些受阻环境,并与原始视图进行了比较。

结果表明,ObVLN方法能够成功地将各种对象插入到原始视图的特定位置,创建出现实且上下文和谐的障碍物。

总结

论文通过引入障碍物到VLN环境中,解决了指令与现实匹配问题。

提出的R2R-UNO数据集和ObVLN方法有效地提高了智能体在障碍环境中的导航能力。

研究表明,解决完美指令假设对于VLN在实际应用中的鲁棒性和适应性至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2269804.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1Panel自建RustDesk服务器方案实现Windows远程macOS

文章目录 缘起RustDesk 基本信息实现原理中继服务器的配置建议 中继服务器自建指南准备服务器安装1Panel安装和配置 RustDesk 中继服务防火墙配置和安全组配置查看key下载&安装&配置客户端设置永久密码测试连接 macOS安装客户端提示finder写入失败hbbs和hbbr说明**hbbs…

Tube Qualify弯管测量系统在汽车管路三维检测中的应用

从使用量上来说,汽车行业是使用弯管零件数量最大的单一行业。在汽车的燃油,空调,排气,转向,制动等系统中都少不了管路。汽车管件形状复杂,且由于安装空间限制,汽车管件拥有不同弯曲半径&#xf…

Excel文件恢复教程:快速找回丢失数据!

Excel文件恢复位置在哪里? Excel是微软开发的电子表格软件,它为处理数据和组织工作提供了便捷。虽然数据丢失的问题在数字时代已经司空见惯,但对于某些用户来说,恢复未保存/删除/丢失的Excel文件可能会很困难,更不用说…

R语言入门笔记:第一节,快速了解R语言——文件与基础操作

关于 R 语言的简单介绍 上一期 R 语言入门笔记里面我简单介绍了 R 语言的安装和使用方法,以及各项避免踩坑的注意事项。我想把这个系列的笔记持续写下去。 这份笔记只是我的 R 语言入门学习笔记,而不是一套 R 语言教程。换句话说:这份笔记不…

16、【ubuntu】【gitlab】【补充】服务器断电后,重启服务器,gitlab无法访问

背景 接wiki 【服务器断电后,重启服务器,gitlab无法访问】https://blog.csdn.net/nobigdeal00/article/details/144280761 最近不小心把服务器重启,每次重启后,都会出现gitlab无法访问 分析 查看系统正在运行的任务 adminpcad…

汇编环境搭建

学习视频 将MASM所在目录 指定为C盘

两种分类代码:独热编码与标签编码

目录 一、说明 二、理解分类数据 2.1 分类数据的类型:名义数据与序数数据 2.2 为什么需要编码 三、什么是独热编码? 3.1 工作原理:独热编码背后的机制 3.2 应用:独热编码的优势 四、什么是标签编码? 4.1 工作原理&…

二、SQL语言,《数据库系统概念》,原书第7版

文章目录 一、概览SQL语言1.1 SQL 语言概述1.1.1 SQL语言的提出和发展1.1.2 SQL 语言的功能概述 1.2 利用SQL语言建立数据库1.2.1 示例1.2.2 SQL-DDL1.2.2.1 CREATE DATABASE1.2.2.2 CREATE TABLE 1.2.3 SQL-DML1.2.3.1 INSERT INTO 1.3 用SQL 语言进行简单查询1.3.1 单表查询 …

异常与中断(下)

文章目录 一、中断的硬件框架1.1 中断路径上的3个部件1.2 STM32F103的GPIO中断1.2.1 GPIO控制器1.2.2 EXTI1.2.3 NVIC1.2.4 CPU1. PRIMASK2. FAULTMASK3. BASEPRI 1.3 STM32MP157的GPIO中断1.3.1 GPIO控制器1.3.2 EXTI1. 设置EXTImux2. 设置Event Trigger3. 设置Masking4. 查看…

「Mac畅玩鸿蒙与硬件48」UI互动应用篇25 - 简易购物车功能实现

本篇教程将带你实现一个简易购物车功能。通过使用接口定义商品结构,我们将创建一个动态购物车,支持商品的添加、移除以及实时总价计算。 关键词 UI互动应用接口定义购物车功能动态计算商品管理列表操作 一、功能说明 简易购物车功能包含以下交互&#…

STM32学习之EXTI外部中断(以对外式红外传感器 / 旋转编码器为例)

中断:在主程序运行过程中,出现了特定的中断触发条件(中断源),使得CPU暂停当前正在运行的程序,转而去处理中断程序处理完成后又返回原来被暂停的位置继续运行 中断优先级:当有多个中断源同时申请中断时,CPU会根据中断源的轻重缓急…

如何使用 ChatGPT Prompts 写学术论文?

第 1 部分:学术写作之旅:使用 ChatGPT Prompts 进行学术写作的结构化指南 踏上学术写作过程的结构化旅程,每个 ChatGPT 提示都旨在解决特定方面,确保对您的主题进行全面探索。 制定研究问题: “制定一个关于量子计算的社会影响的研究问题,确保清晰并与您的研究目标保持一…

HuatuoGPT-o1:基于40K可验证医学问题的两阶段复杂推理增强框架,通过验证器引导和强化学习提升医学模型的推理能力

HuatuoGPT-o1:基于40K可验证医学问题的两阶段复杂推理增强框架,通过验证器引导和强化学习提升医学模型的推理能力 论文大纲理解1. 确认目标2. 分析过程3. 实现步骤4. 效果展示 解法拆解全流程提问俩阶段详细分析 论文:HuatuoGPT-o1, Towards …

07-计算机网络面试实战

07-计算机网络面试实战 计算机网络面试实战 为什么要学习网络相关知识? 对于好一些的公司,计算机基础的内容是肯定要面的,尤其是 30k 以内的工程师,因为目前处于的这个级别肯定是要去写项目的,还没上升到去设计架构的高…

Github - 如何提交一个带有“verified”标识的commit

Github - 如何提交一个带有“verified”标识的commit 前言(Why) 今天在Github上浏览某项目的commit记录的时候发现,有的commit记录带有verified绿色标识,有的带有橘色的Unverified标识,还有的什么都不显示。 既然我是根正苗红的作者(bushi)…

中式美学|中国红电商展台咒语分享

使用工具:千鹿AI 咒语:geometric shape podium,Red background, and rose gold elements on the right side, Chinese New Year atmosphere, simple and clean light luxury scene, minimalist style, minimalist stage design, studio lighting, minim…

中断系统 | 高优先级抢占原理

参考视频 入坑单片机 – [12_2]中断系统 [12_3]底层解析 51内核中断抢占性 如果我们把51单片机的5个中断都打开的话,CPU对与中断的响应是从上到下的。 如果INT0 和TIM0 的中断同时发生,CPU会有执行INT0的服务函数,然后再执行TIM0的函数。…

探寻AI Agent:开启知识图谱自动生成新篇章(17/30)

一、AI Agent 与知识图谱:智能时代的双雄 在当今科技飞速发展的时代,人工智能如同一股汹涌澎湃的浪潮,正以前所未有的力量重塑着我们的世界。而在这股浪潮中,AI Agent 与知识图谱无疑是两颗最为璀璨的明珠,它们各自发挥…

CA系统的设计(CA证书生成,吊销,数字签名生成)

CA系统概述 CA认证系统是一种基于公钥密码基础设施(PKI)的信息安全技术,它可以为网络通信双方提供身份认证、数据加密、数字签名等功能。CA认证系统的核心是证书授权机构(CA),它负责为用户(节点…

phpstudy2018问题(技巧)总结

目录 安装介绍注意操作 问题phpstudy待续、更新中...... 安装 软件下载(新人推荐2018 版本phpstudy ) 官网下载 https://www.xp.cn/download.html 介绍 系统服务------开机自启 非服务模式------开机不自启 搭建好环境, 此时服务器与客户端同时存在 …