基于频率增强的数据增广的视觉语言导航方法(VLN论文阅读)

news2025/1/12 9:04:41

基于频率增强的数据增广的视觉语言导航方法(VLN论文阅读)

在这里插入图片描述

摘要

  视觉和语言导航(VLN)是一项具有挑战性的任务,它需要代理基于自然语言指令在复杂的环境中导航。
在视觉语言导航任务中,之前的研究主要是在空间上进行数据增广,本文的重点是在傅里叶频率方面,它旨在增强视觉文本匹配
作者首先探索了高频信息的意义,并提供了证据表明这些高频信息对增强视觉文本匹配是有用的(instrumental)。
基于此,作者首先提出了一种Frequency-enhanced Data Augmentation (FDA)技术,提高模型捕捉关键高频信息的能力。

具体来说,这种方法要求代理在只有一个高频视觉信息对应所提供的文本指令的子集的环境中导航,最终促进了代理根据给定的指令选择性地识别和捕获相关的高频特征的能力。
方法好处:1.简单有效,2,模型架构无关,3不增加参数

1. 引言

  最近的研究从空间域的角度调研了注意力机制,检测模型,细粒度的轨迹-指令对等方式以提高跨模态的匹配能力。
本文重点关注 Fourier domain来enhance visual textual matching,a research area that has received limited prior investigation。
具体来说,当在傅里叶域内进行分析时,高频和低频信息属于图像的不同组成部分。高频部分包括快速的变化,细粒度的细节,边,纹理。低频包括平滑的颜色梯度。如图一所示。
在这里插入图片描述
图1:高频和低频信息的示例。蓝色背景部分是经过傅里叶反变换后的空间域高频谱和高频信息。橙色的背景部分是关于这两种内容的低频信息。

  我们只是简单地通过扰动图像中的低频或高频分量来研究基准方法对低频或高频信息的敏感性。
在这里插入图描述
图2:基准方法对高、低频信息的敏感性分析,即HAMT [9]、DUET [10]和TD-STP [64]。正常的导航场景表示正常的导航场景。hf扰动和lf扰动分别表示高频和低频被扰动的导航场景。

  如图2所示,在R2R数据集上,当基线模型(HAMT,DUET,TD-STP)低频被扰动时,仍然保持一个高的准确率,当高频被扰动时,模型成功率减低明显。这些结果表明VLN模型对高频信息更加敏感。

  为了有效地利用高频信息的好处,我们进一步提出了一种频率增强数据增强(FDA)tailored for VLN,这是一种简单而有效的方法,以增强模型捕获基本高频信息的能力。
具体来说,FDA方法在导航view上利用离散傅里叶变换,从RGB通道中提取高频和低频成分。它用来自干扰图像的部分高频分量替换原图像的部分高频分量,以此引入高频扰动。通过应用傅里叶反变换对扰动高频原始低频分量的组合,得到了增广数据。通过训练代理同时将原始指令与原始导航视图和增强导航视图相匹配,FDA的方法鼓励代理磨练(hone)其捕获与给定指令最一致的相关高频信息的能力。

  本文贡献总结如下: 1)对VLN任务中的频域信息进行了首次深入的分析,强调了高频信息在提高导航性能方面的重要性。这种新颖的视角为社区探索和增强VLN模型提供了新的研究机会。2)我们进一步介绍了一种简单、有效的数据增强方法,即频率增强数据增强(FDA),它增强了模型在不增加复杂性的情况下识别和捕获基本高频信息的能力,为研究界提供了实用的解决方案。3)该方法在R2R、RxR、CVDN和幻想等各种跨模态导航任务上取得了良好的效果,并在不同模型间表现出较强的适应性。


2. 方法(Frequency Perspective for Vision-and-Language Navigation)

  方法包括三个部分:1)VLN问题定义,2)高频信息和低频信息的作用,3)FDA方法(Frequency-enhanced Data Augmentation)

2.1 VLN问题定义

  根据VLN设置, an agent 在含有许多预设点 p i p^i pi 的室内环境 E = { p 1 , p 2 , . . . , p ∣ E ∣ } E=\{p^1,p^2,...,p^{|E|}\} E={p1,p2,...,pE} 中导航, 遵循一共人类指令 T = { w 1 , w 2 , . . . , w ∣ T ∣ } . T=\{w_1,w_2,...,w_{|T|}\}. T={w1,w2,...,wT}. 假设在步骤t, the agent站在点 p t i p_t^i pti 可以接收到周围的全景图 O t = ( o t k ) k = 1 36 O_t=(o_t^k)_{k=1}^{36} Ot=(otk)k=136 包含36个离散的observation o t k o_t^k otk. 每个 observation o t k = ( I t k , θ t k , ϕ t k ) o_t^k=(I_t^k,\theta_t^k,\phi_t^k) otk=(Itk,θtk,ϕtk) 由第 k t h k_{th} kth 个视图 I t k I_t^k Itk 以及它对应的 θ t k \theta_t^k θtk 和仰角 ϕ t k \phi_t^k ϕtk结合. 临近的可导航点 N ( p t i ) N(p_t^i) N(pti)分布在这些视图中. The agent 根据指令 T T T N ( p t i ) N(p_t^i) N(pti)所在的环境 o f k o_f^k ofk之间的关系从相邻的点 N ( p t i ) N(p_t^i) N(pti)中选择下一个可导航点 . 然后,代理将被传送到那个选定的点。导航继续,直到代理预测停止操作或超过预设的步骤阈值。当代理站在目标目的地3米内停止时,导航被认为是成功的。

2.2 高频信息和低频信息的作用(High Frequency or Low Frequency: Which Benefits VLN Performance?)

  考虑到图2的观察结果,我们假设图像中的高频信息可能对跨模态导航任务至关重要。为了验证这一假设,我们进行了一个简单的实验,即将原始图像特征与其相应的高频或低频分量进行融合。这些合并后的特性随后在训练和测试过程中作为导航网络的输入,如图3所示。TD-STP [64]的结果见表1。
在这里插入图片描述
在这里插入图片描述

  以上观察结果突出了高频信息在跨模态导航中的关键作用。这是因为
  1)高频信息包含了一些细节,如边、角和纹理模式。这些细节对于准确地识别和区分物体、场景和位置至关重要,这可以导致更有效的视觉-文本匹配和更好的导航表现。
  2)使用高频信息训练的模型往往对环境变化更健壮,并对看不见的环境表现出更强的泛化能力,因为该模型学习了专注于一组更多样化的特征,而不是仅仅记忆训练数据中出现的特定的低频、全局模式。

2.3 FDA方法(Frequency-enhanced Data Augmentation)

在这里插入图片描述
图4:我们的方法将干扰高频和参考高频混合在一起。然后,通过对混合高频和参考低频的组合应用傅里叶反变换,得到了增广图像。最后,将只包含部分参考高频的增强图像与指令对齐,以鼓励代理识别和捕获参考高频信息。FFT和iFFT表示傅里叶变换和傅里叶反变换。GHPF和GLPF分别表示高斯高通滤波器和高斯低通滤波器。

  如图4所示,参考图像I是与导航指令T对应的导航视图(“向前走,经过冰箱,在餐桌后面左转,直接穿过门口……”)。干涉图像Iˆ是从Matterport3d(Mp3d)数据集[6]中随机采样的另一个导航视图。为了防止信息泄漏,所有的干扰图像都从训练/验证可见分割中采样,并且不使用验证未可见分割和测试分割中的图像。
我们首先通过傅里叶变换(FFT)将这两张图片转换到频率空间,得到两个频率谱 F I { r g b } F_I^{\{rgb\}} FI{rgb} and F I ^ { r g b } F_{\hat{I}}^{\{rgb\}} FI^{rgb}:

F I { r g b } = F { r g b } ( I ) ,   F I ^ { r g b } = F { r g b } ( I ^ ) F_I^{\{rgb\}}=\mathcal{F}^{\{rgb\}}(I),~F_{\hat{I}}^{\{rgb\}}=\mathcal{F}^{\{rgb\}}(\hat{I}) FI{rgb}=F{rgb}(I), FI^{rgb}=F{rgb}(I^)   其中 F { r g b } \mathcal{F}^{\{rgb\}} F{rgb} 表示RGB颜色通道上的傅里叶变换。然后,我们在两个频谱上应用高通和低通高斯滤波器来获得参考高频 H { r g b } H^{\{rgb\}} H{rgb},参考低频 L { r g b } L^{\{rgb\}} L{rgb} 和干扰高频y H ^ { r g b } . \hat{H}^{\{rgb\}}. H^{rgb}.
H { r g b } = G h ⊙ F I { r g b } , L { r g b } = G l ⊙ F I { r g b } , H ^ { r g b } = G h ⊙ F I ^ { r g b } \begin{aligned}H^{\{rgb\}}=\mathcal{G}_h\odot F_I^{\{rgb\}},&L^{\{rgb\}}=\mathcal{G}_l\odot F_I^{\{rgb\}},&\hat{H}^{\{rgb\}}=\mathcal{G}_h\odot F_{\hat{I}}^{\{rgb\}}\end{aligned} H{rgb}=GhFI{rgb},L{rgb}=GlFI{rgb},H^{rgb}=GhFI^{rgb}  其中 G h G_h Gh and G l G_l Gl 表示 Gaussian High-Pass Filter (GHPF)和 Gaussian Low-Pass Filter (GLPF), and ∙ ◯ \textcircled{\bullet} is element-wise multiplication. 然后我们将这两个图像的高频部分混合,具体来说,对于参考图像的每个RGB信道,有一定的概率是其高频分量被来自同一信道的干扰高频所取代:
H m i x c = M i x ( H c , H ^ c ) = { H c , p r o b a b i l i t y o f 1 / 3 H ^ c , o t h e r s , c ∈ { r , g , b } H m i x { r g b } = M i x ( H { r g b } , H ^ { r g b } ) \begin{gathered} \left.H_{mix}^{c}=\mathcal{M}ix(H^{c},\hat{H}^{c})=\left\{\begin{array}{ll}{{H^{c},}}&{{probabilityof1/3}}\\{{\hat{H}^{c},}}&{{others}}\end{array}\right.\right.,c\in\{r,g,b\} \\ H_{mix}^{\{rgb\}}=\mathcal{M}ix(H^{\{rgb\}},\hat{H}^{\{rgb\}}) \end{gathered} Hmixc=Mix(Hc,H^c)={Hc,H^c,probabilityof1/3others,c{r,g,b}Hmix{rgb}=Mix(H{rgb},H^{rgb})  其中 H m i x { r g b } H_{mix}^{\{rgb\}} Hmix{rgb} 是混合的高频. 我们将它与参考低频 L { r g b } L^{\{rgb\}} L{rgb} 结合然后用 iFFT获得频率增强的图像 I m i x I_{mix} Imix:

I m i x = F − 1 ( F m i x { r g b } ) = F − 1 ( H m i x { r g b } , L { r g b } ) . I_{mix}=\mathcal{F}^{-1}(F_{mix}^{\{rgb\}})=\mathcal{F}^{-1}(H_{mix}^{\{rgb\}},L^{\{rgb\}}). Imix=F1(Fmix{rgb})=F1(Hmix{rgb},L{rgb}).  最后原始图像 I I I 和增广图像 I m i x I_{mix} Imix 共享同一个文本指令标签 T T T 在训练阶段交替用于训练agent:

L ( θ ) = { N a v i g a t o r L o s s ( I , T , θ ) , o d d - n u m b e r e d s t e p N a v i g a t o r L o s s ( I m i x , T , θ ) , e v e n - n u m b e r e d s t e p \left.L(\theta)=\left\{\begin{array}{ll}NavigatorLoss(I,T,\theta),&odd\text{-}numberedstep\\NavigatorLoss(I_{mix},T,\theta),&even\text{-}numberedstep\end{array}\right.\right. L(θ)={NavigatorLoss(I,T,θ),NavigatorLoss(Imix,T,θ),odd-numberedstepeven-numberedstep  其中 L ( θ ) L(\theta) L(θ) 表示考虑了原始图像 I I I和频率增强图像 I m i x 的导航损失 , θ I_{mix}的导航损失,\theta Imix的导航损失,θ 表示导航器的参数。


3,实验

消融实验(在不同的模型和不同的数据集上)在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  如表5,现有的VLN方法在高频扰动导航场景中受到了严重的限制。ImageNet表示从ImageNet中选取干扰图像。这有力地证明了我们的方法能够识别和捕获必要的高频信息,以提高导航性能。


在这里插入图片描述
在这里插入图片描述

与sota结果相比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

局限性和未来的工作。
本文重点是增强模型识别和捕获基本高频信息的一般能力。然而,还没有探索频率和特定场景或类别之间的细粒度相关性。这一调查领域仍然是未来探索的一条途径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1471313.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pycharm如何设置滚轮缩放代码大小?

左上角的File找到设置,或者快捷键ctrlalts。 弹出对话框,手动输入mouse,点击general,勾选改变字体大小,ok确认

转前端了!!

大家好,我是冰河~~ 没错,为了更好的设计和开发分布式IM即时通讯系统,也为了让大家能够直观的体验到分布式IM即时通讯系统的功能,冰河开始转战前端了。也就是说,整个项目从需求立项到产品设计,从架构设计到…

ubuntu20.04中配置Pyrep和CoppeliaSim

ubuntu20.04中配置Pyrep和CoppeliaSim 在Ubuntu20.04中配置 Pyrep ,实现应用Python语言的机器人在 Vrep(CoppeliaSim)中的虚拟仿真 一、安装CoppeliaSim 4.1 1.1 下载适配Ubuntu20.04的CoppeliaSim 4.1软件 下载链接:https://…

【前端素材】推荐优质后台管理系统Dashy平台模板(附源码)

一、需求分析 后台管理系统(或称作管理后台、管理系统、后台管理平台)是一种专门用于管理网站、应用程序或系统后台运营的软件系统。它通常由一系列功能模块组成,为管理员提供了管理、监控和控制网站或应用程序的各个方面的工具和界面。以下…

Nginx实现平滑升级

平滑升级 本篇目标:将现有的 nginx 1.22.0 版本升级为 1.24.0 //查看现有版本 [root12 ~]# nginx -v nginx version: nginx/1.22.01、首先在官网下载软件包,地址:nginx: download 2、把要 1.24.0 拖进 /opt 目录后,解压&#xf…

抖店是怎么运营做起来的?一文详解抖店的运营逻辑和流程,可收藏

我是王路飞。 很多人都知道现在的抖音有【商城】,进入之后就是一个个的抖音小店了,也知道抖店的红利。 但是抖店具体是怎么运营并且做起来的,就不太清楚了,因此很多新手明明眼馋抖店的红利,却又无从下手。 今天这篇…

YOLOv9尝鲜测试五分钟极简配置

pip安装python包: pip install yolov9pip在https://github.com/WongKinYiu/yolov9/tree/main中下载好权重文件yolov9-c.pt。 运行下面代码: import yolov9model yolov9.load("yolov9-c.pt", device"cpu") # load pretrained or c…

Spring综合漏洞利用工具

Spring综合漏洞利用工具 工具目前支持Spring Cloud Gateway RCE(CVE-2022-22947)、Spring Cloud Function SpEL RCE (CVE-2022-22963)、Spring Framework RCE (CVE-2022-22965) 的检测以及利用,目前仅为第一个版本,后续会添加更多漏洞POC,以及…

【Flink精讲】Flink性能调优:CPU核数与并行度

常见问题 举个例子 提交任务命令: bin/flink run \ -t yarn-per-job \ -d \ -p 5 \ 指定并行度 -Dyarn.application.queuetest \ 指定 yarn 队列 -Djobmanager.memory.process.size2048mb \ JM2~4G 足够 -Dtaskmanager.memory.process.size4096mb \ 单个 TM2~8G 足…

【机器人学导论笔记】三、操作臂正运动学

3.1 概述 操作臂正运动学研究操作臂的运动特性,主要涉及与运动有关的几何参数和时间参数。本章中,只研究静止状态下操作臂连杆的位置和姿态。 处理这些复杂的几何参数需要一些步骤:首先需要在操作臂的每个连杆上分别固接一个连杆坐标系&…

基于ELFBoard开发板的车牌识别系统

本项目采用的是ElfBoard ELF1开发板作为项目的核心板,主要实现的功能为通过USB 摄像头对车牌进行识别,如果识别成功则会亮绿灯,并将识别的车牌号上传到手机APP上面,车牌识别的实现是通过百度OCR进行实现,手机APP是用Ja…

《低功耗方法学》翻译——第十四章:电源切换网络设计

第十四章:电源切换网络设计 功率门控是在待机或休眠模式下降低漏电功率最有效的方法,但这种方法存在诸如休眠晶体管占用的硅面积、永久和虚拟电源网络的布线资源以及复杂的功率门控设计和实现过程等开销,影响设计风险和进度。 除了开销外&a…

2024年Facebook自动回复优化指南:提升客户满意度的策略(内含自动回复中英文模板)

在这个数字化的时代,快速响应已经成为企业在与客户沟通的必备要素。但是当经常面对大量的相同信息时,如何可以提高效率呢?目前很多社交媒体平台都内设了自动回复功能,像是Facebook。这个功能确保无论何时有人联系你,都…

大气颗粒物与VOCs PMF源解析

原文:大气颗粒物与VOCs PMF源 第一:PMF源解析技术及其输入文件准备 1、大气污染源解析方法有哪些? 2、这些方法各自应用的条件以及它们的优缺点? 3、大气颗粒物的基础知识及各组分的主要来源 大气颗粒物的来源:…

Oracle EBS GL 外币折算逻辑

背景 由于公司财务在10月份期间某汇率维护错误,导致帐套折算以后并合传送至合并帐套生成合并日记帐凭证的借贷金额特别大,但是财务核对的科目余额有没有问题,始终觉得合并日记帐生成会计分发有问题,需要我们给出外币折算逻辑。 基础设置 汇率 Path: GL->设置->币种-&…

Java核心-核心类与API(3)

话接上回,继续核心类与API的学习,这次介绍一下枚举类以及与系统、交互有关的类,需要了解并能使用即可。 一、枚举类 1、概述 枚举也称穷举,简单理解就是把所有可能一一列举出来(穷尽所有可能)。枚举是一…

matlab新能源汽车三自由度操纵稳定性分析及优化

1、内容简介 略 可以交流、咨询、答疑 55-新能源汽车三自由度操纵稳定性分析及优化 2、内容说明 略 摘 要 电动化是节能减排、寻求替代能源的最佳途径,已成为行业共识,论文基于江西科技学院桑塔纳轿车油改气项目,在拆除发动机、变速…

JAVA工程师面试专题-《Redis》篇

目录 一、基础 1、Redis 是什么 2、说一下你对redis的理解 3、Redis 为什么这么快? 4、项目中如何使用缓存? 5、为什么使用缓存? 6、Redis key 和value 可以存储最大值分别多是多少? 7、Redis和memcache有什么区别&#xf…

普中51单片机学习(8*8LED点阵)

8*8LED点阵 实验代码 #include "reg52.h" #include "intrins.h"typedef unsigned int u16; typedef unsigned char u8; u8 lednum0x80;sbit SHCPP3^6; sbit SERP3^4; sbit STCPP3^5;void HC595SENDBYTE(u8 dat) {u8 a;SHCP1;STCP1;for(a0;a<8;a){SERd…

golang学习7,glang的web的restful接口结构体传参

接口&#xff1a; //POST请求 返回json 接口传参json r.POST("/postJson", controller.PostUserInfo) 1.定义结构体 //定义结构体 type Search struct {Id intName string }2.结构体传参 //结构体传参 func PostUserInfo(c *gin.Context) {search : &Searc…