Aerial Vision-and-Dialog Navigation阅读报告

news2025/1/11 15:51:42

Aerial Vision-and-Dialog Navigation

  • 本次报告,包含以下部分:1摘要,2数据集/模拟器,3AVDN任务,4模型,5实验结果。重点介绍第2/3部分
  • 相关主页:Aerial Vision-and-Dialog Navigation (google.com) 包含,code,paper,dataset

一,摘要

这一部分将论文中的摘要,引言,相关工作,合并介绍

          本文提出了一个空中/对话/导航任务,其目的是解放双手来控制无人机。为了完成这个任务,作者创建了一个来自真实图片的 连续场景的 无人机模拟器 和 一个具有3064条条轨迹的对话数据集。在对话的过程中,commander(用户角色)提供初始的导航指令和进一步的指导。fellower(无人机角色)在必要的时候提问。在此基础上,作者提出了两种空中导航任务,一种是ANDH,另一种是AVDN-Full,区别是AVDN-Full是直接给出所有的完整的对话历史预测到达目的地的导航轨迹,AVDN是使用逐轮对话进行子轨迹的导航,从而完成导航到最终目的地的完整任务。作者还提出了一种结合人类注意力预测的transformer-based模型来预测waypoints。

图一简单介绍了一个AVDN任务的例子
在这里插入图片描述
表一中,本文提出的数据集AVDN跟其他VLN数据集进行了比较:
在这里插入图片描述

  • 后面的内容解决以下几点疑问:
    • Q 1: 模拟器能提供那些功能?
    • Q 2: 数据集有哪些信息?
    • Q 3: 导航成功的条件?
    • Q 4: 对话过程是怎么异步进行的?
    • Q 5: 提出的模型方法的流程,输入输出是什么?
    • Q 6: 人类注意力是怎么得到的?怎么使用的?
    • Q 7: 任务的局限性?

二,数据集/模拟器

数据集/模拟器是 任务 的基础,提出的任务不能超过数据集/模拟器的能力范围

figure 2
AVDN
在这里插入图片描述

2.1 模拟器

和R2R任务相似,模拟器的构建需要基于一个开源的大规模3D数据集。
而AVDN任务需要的模拟器,是基于 xView数据集 构建的 (一个开源的,大规模的卫星图像目标检测数据集)

Response for Q1: 模拟器能够提供那些功能

  • 模拟器提供的是一个自上而下的视角,模拟环境是一个连续的环境,无人机可以移动到环境中的任何点,所以模拟器提供的是具有丰富视觉内容的连续帧。
  • 无人机还可以通过键盘控制,无人机观察到的视觉内容可以被实时展示。控制过程中,用户还可以通过点击他们关注的区域来关注界面显示的图像。
  • 除此之外,如图2展示的那样,我们的模拟器能够生成commander视图,观察到起始点,目标区域,当前的视图,过去的行动轨迹。

2.2 数据集

2.2.1 数据集结构

Response for Q1: 数据集有哪些信息
数据集包含了导航轨迹 (time step(T)= 0, 1, 2……M):

  • T=0时,commander提供一个初始指令。相邻的时间步之间存在对应的导航子轨迹。
  • 在中间的每一个时间步(0<T<M),都有对应的(来自fellower的)问题和(来自commander)答案。
  • 在T=M时,到达目标区域,由follower决定导航轨迹结束。

有T=M个fellower的视图序列, < u 0 T , u 1 T , , , , u N T T > , N T <u_0^T, u_1^T,, , ,u_{N_T}^T>,N_T <u0T,u1T,,,,uNTT>NT是T-th序列的长度,每个视图的中心总是落在轨迹上。因此,基于每个视图,我们能检索到无人机的的位置,方向,高度( c i , d i , h i c_i,d_i,h_i ci,di,hi).
对于每个视图区域u,还有一个对应的大小相同的二进制的人类注意力的mask,fellower关注白色区域。

2.2.2 数据集收集

Response for Q 3: 导航成功的条件
导航成功的情况是,当fellower宣称到达了真正的目标区域时。如果视图中心 c i c_i ci在目标区域时候,并且到达的区域 u j u_j uj和目标区域Des 的交并比大于0.4时,认为到达了目的地。

2.2.3 数据集分析

AVDN数据集包含了3064个空中导航轨迹,每个轨迹包含多轮对话。平均来说,每个轨迹只包含两轮对话,对话的轮数和是最大的time step M是相同的。3064个完整的轨迹可以被分割成6269条子指令和对应的轨迹。

图3展示了常用词和路径长度分布,轨迹平均长度是287m。
在这里插入图片描述

表二展示了对不同数据集分割的统计分析,平均每个数据集分割包含1.2平方千米的卫星图像区域(相当于一个大学校园那么大)。
在这里插入图片描述

关于指令,包含两种,一种是详细的描述目的地的指令,一种是粗略的初始指令和后面的对话进一步描述。
描述方向的方式也包含两种,一种是以自我为中心的,例如“turn right”,占82%。一种是非以自我为中心的,例如“turn south”,占30%。还有部分指令包含了这两种指令。

三,AVDN任务

本节介绍具体的任务,包含AVDN和AVDN-Full两种,两个模型都需要预测一系列的视觉区域

Respone for Q 4:对话过程是怎么异步进行的?
github的issue中的回复。
在这里插入图片描述

  • 对于这个问题的解答可以看完第四节模型的预测过程后,再回头来看
  • agent跑到不同的地方,应该提出不同的问题?
    在训练的时候,无论agent跑没跑偏,都无所谓,因为我们有ground truth导航点,我们预测一个对或错的导航点之后,下一个起始位置一定是从正确的轨迹上的点开始。推理测试的时候,没有正确的子轨迹和waypoint供参考,如果预测到一个不在数据集中的waypoint上,则必须回溯到正确的轨迹上,而测试集没有正确的轨迹,所以只能回到起始点。
  • 根据作者回复的最后一句话,在推理时,对话历史总是准备好的(而不是交互的),根据这一对话历史完成预测之后必须到达下一个起始位置,也就是说进行下一个预测任务。也就是说,在训练train的时候,该任务是有一定的对话的意思,但是在测试test的时候,没有ground truth轨迹,只能在测试一开始将对话历史输入进去,中间过程不再对话。
3.1 AVDN

任务目标是让agent根据对话历史中的指令预测一个引导至目标区域的导航动作(而不是直接导航到目标区域)。
具体来说,在Ti到 T i − 1 T_{i-1} Ti1这一步,agent预测一个动作 a ^ j \hat{a}_j a^j
输入是(从T=0到T=Ti)对话和一系列的图像 u ^ 0 , u ^ 1 , , , , u ^ j − 1 > \hat{u}_0, \hat{u}_1,, , ,\hat{u}_{j-1}> u^0,u^1,,,,u^j1>,
目标区域和当前的导航time step有关,
在这里插入图片描述

3.2 AVDN-Full

和AVDN的区别是,AVDN-Full的输入是整个导航对话和视觉内容,agent需要预测一个完整的(从起始点 u 0 0 u_0^0 u00到目标区域Des)轨迹,

所以,AVDN-Full为agent提供完整的监督,包括了更精确的目的地描述,更长的表达,更复杂的视觉grounding挑战。

3.3 评估指标

SR成功率和SPL(导航轨迹和导航路径长度加权)都是最基本的导航指标。

GOAL progress是对话导航独有的评估指标,用来评估通往目的地进展的距离,其实就是轨迹的欧拉距离减去预测中心到目标区域的距离。

四,模型

不细讲模态的编码方法,重点在于讲解模型预测的输入输出流程,阅读时请结合模型流程图

在这里插入图片描述
Response for Q1: 模型的流程,输入输出是什么

多模态编码

输入来自三个模态,无人机接收到的方向,图像和历史对话。
起始的时候,接收整个对话历史,包含question和指令。
在每个时间步,之前的方向和图像都被输入到模型中。其中,使用一种卫星图像的预训练模型提取图像编码,整个模型总体上和ET(21年提出的室内导航方法)类似。
多模态的总体输入输出可以表示为
{ z 1 : L l , z 1 : t v , z 1 : t x } = F M T ( { z 1 : L l , z 1 : t v , z 1 : t x } ) \{z_{1:L}^l, z_{1:t}^v, z_{1:t}^x \} = F_{MT}(\{ z_{1:L}^l, z_{1:t}^v, z_{1:t}^x\}) {z1:Ll,z1:tv,z1:tx}=FMT({z1:Ll,z1:tv,z1:tx})
这里的输出不是最终的预测结果,而是一种融合跨模态特征表示。

至于导航进度 g ^ \hat{g} g^,用于决定何时停止。如果导航进度大于阈值,无人机将结束导航,不执行预测waypoint的动作

导航预测和waypoint控制

导航输出是
( w ^ , g ^ ) = F N D ( { z 1 : L l , z 1 : t v , z 1 : t x } ) (\hat{w},\hat{g})=F_{ND}(\{z_{1:L}^l, z_{1:t}^v, z_{1:t}^x \}) (w^,g^)=FND({z1:Ll,z1:tv,z1:tx})
其中, w ^ \hat{w} w^是一个3D坐标(x,y,h)x,y表示位置,h表示高度。
预测的waypoint也控制着无人机的方向,方向朝着移动的方向。因此, w ^ \hat{w} w^也控制着无人机的移动,下一个视图中心,宽度和旋转由 w ^ \hat{w} w^决定。

人类注意力预测(human attention predication)

Q 6:人类注意力是怎么得到的?怎么使用的?
使用 z 1 : t v z_{1:t}^v z1:tv作为输入,编码后预测一个和图像维度大小相同的mask,值越大表示越关注该区域。

Training

首先训练AVDN任务,再训练AVDN-Full任务
waypoint( w ^ \hat{w} w^)和导航进程( g ^ \hat{g} g^)预测使用下面公式训练

人类注意力预测使用下面公式训练:

其中,P是预测的human attention mask,Q是ground truth mask

五,实验结果

在AVDN和AVDN-Full上的预测结果
在这里插入图片描述
实验还证明了,注意力预测有助于最终的导航成功率

在这里插入图片描述

Q 6:任务的局限性是什么?
文中指出的任务局限性在于隐私泄露

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/580458.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【章节2】husky + 自动检测是否有未解决的冲突 + 预检查debugger + 自动检查是否符合commit规范

在章节1中我们学习到了commit的规范、husky的安装和使用、lint-staged怎么安装以及怎么用来格式化代码。那么这篇文章我们来看看commit预处理中我们还能做哪些处理呢&#xff1f; 自然&#xff0c;我们还是要用到husky这个东西的&#xff0c;大致过程其实和章节1异曲同工&#…

不要再来问我小学、初中毕业想出去学习编程找到工作的问题了,你要做就去做,结果自己扛着就行了!

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

探索Java面向对象编程的奇妙世界(五)

⭐ Object 类⭐ toString 方法⭐ 和 equals 方法⭐ super 关键字⭐ 继承树追溯⭐ 封装(encapsulation) ⭐ Object 类 Object 类基本特性 &#x1f41f; Object 类是所有类的父类&#xff0c;所有的 Java 对象都拥有 Object 类的属性和方法。 &#x1f41f; 如果在类的声明中未…

docker-compose方式安装运行Jenkins

docker-compose方式安装运行Jenkins 服务器系统&#xff1a;centos 7.6 以docker-compose 编排容器方式安装&#xff0c;当然需提前安装docker-compose环境&#xff08;见百度->docker-compose环境安装&#xff09; docker-compose.yml version: 3.1 services:jenkins:i…

WF攻击(网站指纹攻击)

网站指纹&#xff08;WF&#xff09;攻击是被动的本地攻击者通过比较用户发送和接收的数据包序列与先前记录的数据集来确定加密互联网流量的目的地。可以通过网络流量中的模式来识别Tor用户访问过的页面。因此&#xff0c;WF攻击是Tor等隐私增强技术特别关注的题。 攻击过程 该…

分布式网络通信框架(九)——RpcChannel调用过程

介绍 客户端使用RpcChannel对象来构造UserServiceRpc_Stub对象&#xff0c;并利用该对象中RpcChannel::CallMethod来进行rpc调用请求,RpcChannel完成的工作是如下rpc调用流程图的红圈部分&#xff1a; 客户端使用mprpc框架的业务代码 // calluserservice.cc #include <ios…

【算法题解】31. 翻转二叉树的递归解法

这是一道 简单 题 https://leetcode.cn/problems/invert-binary-tree/ 题目 给你一棵二叉树的根节点 r o o t root root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6…

Vivado综合属性系列之十二 BLACK_BOX

目录 一、前言 二、BLACK_BOX ​2.1 属性说明 ​2.2 工程代码 ​2.3 结果 一、前言 ​在调试中&#xff0c;有时不需要知道一个模块或实例的具体实现&#xff0c;或者需要使其对外属于不可见&#xff0c;只知道它的输入输出&#xff0c;即像一个黑盒&#xff0c;此时可以对模…

Linux内核源码分析 1:Linux内核体系架构和学习路线

好久没有动笔写文章了&#xff0c;这段时间经历了蛮多事情的。这段时间自己写了一两个基于不同指令集的Linux内核&#xff0c;x86和RISC-V。期间也去做了一些嵌入式相关的工作&#xff0c;研究了一下ARM指令集架构。 虽然今年九月份我就要申请了&#xff0c;具体申请AI方向还是…

【使用ChatGPT制作视频】

内容目录 一、利用ChatGPT生成视频文案1. 打开ChatGPT&#xff1a;2. 输入需求&#xff1a;3. 复制&#xff1a; 二、制作生成思维导图1. 打开视频制作网站&#xff1a;2. 网页版下侧 - 一键成片 -粘贴Markdown内容&#xff0c;就会自动生成视频&#xff0c;这里放了其中一段&a…

【刷题之路Ⅱ】百度面试题——迷宫问题

【刷题之路Ⅱ】百度面试题——迷宫问题 一、题目描述二、解题1、方法1——暴力递归1.1、思路分析1.2、先将栈实现一下1.3、代码实现 一、题目描述 原题连接&#xff1a; 迷宫问题 题目描述&#xff1a; 定义一个二维数组 N*M &#xff0c;如 5 5 数组下所示&#xff1a; int …

自学网络安全(黑客),一般人我劝你还是算了吧

一、自学网络安全学习的误区和陷阱 1.不要试图先成为一名程序员&#xff08;以编程为基础的学习&#xff09;再开始学习 我在之前的回答中&#xff0c;我都一再强调不要以编程为基础再开始学习网络安全&#xff0c;一般来说&#xff0c;学习编程不但学习周期长&#xff0c;而…

Fiddler抓包工具之fiddler设置抓HTTPS的请求证书安装

设置抓HTTPS的请求包 基础配置&#xff1a; 路径&#xff1a;启动Fiddler 》Tools》Options》HTTPS 注意&#xff1a;Option更改完配置需重启Fiddler才能生效 选中"Decrpt HTTPS traffic", Fiddler就可以截获HTTPS请求&#xff0c;如果是第一次会弹出证书安装提…

车载软件架构 —— 功能安全与基础软件

我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 在最艰难的时候&#xff0c;自己就别去幻想太远的将来&#xff0c;只要鼓励自己过好今天就行了&#xff01; 这世…

node.js 学习 -- koa

一、搭建项目 1. 安装 Koa 框架 yarn add koa2. 引入 const Koa require("koa"); const app new Koa();3. 配置中间件 // ctx 所有http的上下文 // 配置中间件 app.use((ctx, next) > {ctx.body "hello api"; });4. 监听端口 app.listen(3000, …

TPO69 01|Why Snakes Have Forked Tongues|阅读真题精读|10:40-11:40+15:30-16:57

Why Snakes Have Forked Tongues 5/10 目录 Why Snakes Have Forked Tongues P1 P1生词 P1段落大意 无题目 P2 P2生词 P2段落大意 P2题目 【1】词汇题 secreteproduce ✅ 【2】事实信息题|考频高|难度高|定位错误​ P34​ P34生词 P34段落大意 P34题目 【3】词汇题 simultaneo…

入理解深度学习——正则化(Regularization):提前终止(Early Stopping)

分类目录&#xff1a;《深入理解深度学习》总目录 当训练有足够的表示能力甚至会过拟合的大模型时&#xff0c;我们经常观察到&#xff0c;训练误差会随着时间的推移逐渐降低但验证集的误差会再次上升。下图是这些现象的一个例子&#xff0c;这种现象几乎一定会出现。 这意味…

RT-Thread 学习笔记:memheap 死机问题的分析与解决

验证环境 NUCLEO-L476RG 开发板&#xff0c;板载 STM32L476RGT6&#xff08;96K SARM1 32K SRAM2&#xff09; Win10 64 位 Keil MDK 5.36 RT-Thread 5.0.1 版本&#xff08;2023-05-28 master 主线&#xff09; bsp : bsp\stm32\stm32l476-st-nucleo 功能描述 最近在研…

机器学习-线性代数-矩阵与空间映射

矩阵 文章目录 矩阵直观理解特殊矩阵矩阵的基本运算矩阵( A A A)乘向量( x x x)的本质&#xff1a;改变空间位置矩阵&#xff1a;空间映射关系矮胖矩阵对空间的降维压缩高瘦矩阵无法覆盖目标空间方阵映射矩阵的秩 直观理解 一个 m n m \times n mn的大小矩阵&#xff0c;直观…

fastjson与lombok一起用出现序列化问题

文章内部信息已脱敏。 有一次在测试环境调用网易电子签章平台的接口&#xff0c;用来生成印章图片。 首先用postman去测试接口&#xff0c;除了必传的固定请求头&#xff0c;请求体参数如下&#xff1a; {"userId": "***********","templateType&qu…