Multi-object navigation in real environments using hybrid policies 论文阅读

news2024/12/25 9:05:48

论文信息

题目:Multi-object navigation in real environments using hybrid policies
作者:Assem Sadek, Guillaume Bono
来源:CVPR
时间:2023

Abstract

机器人技术中的导航问题通常是通过 SLAM 和规划的结合来解决的。

最近,除了航路点规划之外,涉及(视觉)高级推理重要组成部分的问题也在模拟环境中得到了探索,这些问题大多通过大规模机器学习来解决,特别是强化学习、离线强化学习或模仿学习。

这些方法要求智能体学习各种技能,例如局部规划、绘制对象和查询所学习的空间表示。与航点规划(PointGoal)等更简单的任务相比,对于这些更复杂的任务,当前最先进的模型已经在模拟中进行了彻底的评估,但据我们所知,尚未在真实环境中进行评估

在这项工作中,我们重点关注 sim2real 转变
我们的目标是具有挑战性的多对象导航(Multi-ON)任务[41],并将其移植到包含原始虚拟 Multi-ON 对象的真实副本的物理环境。

我们引入了一种混合导航方法,它将问题分解为两种不同的技能:
(1) 路点导航通过经典 SLAM 与符号规划器相结合来解决,
(2) 探索、语义映射和目标检索则通过经过训练的深度神经网络来处理监督学习和强化学习的结合。

我们在模拟和真实环境中展示了这种方法与端到端方法相比的优势,并且在该任务上优于 SOTA [28]。

Introduction

机器人导航已经从准备充分的环境中的简单路径点导航问题发展到涉及视觉和语义概念的高级推理的复杂任务。当策略从模拟转移到物理机器人的真实环境时,它们会出现性能下降和缺乏鲁棒性的情况。这主要是由于模拟与现实之间的真实性差距**(“sim2real 差距”),以及难以探索导航问题中固有的大量变化因素**,例如房间布局、家具、纹理和其他房间细节、罕见的局部场景几何形状等。

最近有一种模块化方法的趋势,它将问题分解为分层部分 [8]、[4] 和混合方法,将最短路径规划器(符号或经过训练的)与经过训练的策略相结合。虽然这些方法已被证明具有更高的样本效率[32],但最先进的方法仍在模拟中进行评估,并且缺乏对真实机器人的彻底测试。

在这项工作中,我们解决了多对象导航 [41] 的挑战性问题,与 K 项物品场景 [5] 类似,需要代理按规定的顺序顺序导航一组对象。这个任务定义有利于代理能够学习在内部空间表示中映射所看到的对象,因为后面在情节中导航到它们可以增加奖励。这使得它在像 ObjectNav 这样的简单任务中脱颖而出,其中探索和当前观察的反应性局部规划的综合能力足以解决任务。

我们的目标是 sim2real 迁移,据我们所知,我们是第一个在真实物理环境中对多对象导航方法进行全面性能评估的人,请参见图 1。虽然更简单的任务(例如 PointGoal)已在在真实的机器人[23]、[34]中,对更复杂任务的训练模型的评估很少或不存在。我们提出了一种新的导航方法,其设计选择是由优化实际环境中的性能的目标驱动的。
在这里插入图片描述

我们提出了一种新的混合方法,将问题分解为两部分:

  1. Good Old Fashioned Robotics”(GOFR),处理与语义无关的经典导航方面,例如可导航空间的检测和定位(几何 SLAM)与地图上的路点导航相结合。
  2. Semantics through Machine Learning, 即映射视觉推理所需的语义概念并利用它们;利用布局规律探索环境中最有前途的区域

在导航过程中,经典的 SLAM 算法 [24] 以张量/地图的形式创建并维护 2D 度量表示,并使用激光雷达输入​​在其上定位机器人。使用深度神经网络从视觉 RGB-D 观测中提取的高级特征形成空间和语义点云,其空间坐标与度量表示对齐,见图 2。
组合的混合表示满足相关子的需求。 -智能体所需的技能:
(i)确定过去是否观察到目标物体,
(ii)规划智能体和探索区域之间的最佳轨迹,以及
(iii)确定环境中未探索区域的边界以及下一个中间子目标,以防环境需要探索以找到下一个目标。所有这些子技能都是单独设计和训练的,这可以限制训练的样本复杂性。

这项工作的贡献如下:
(i)我们引入了一种多目标导航的混合方法,将经典的度量 SLAM 和路径规划与经过监督学习和 RL 训练的学习组件相结合;
(ii) 我们在真实环境中重现 Multi-ON 基准测试 [41],其中我们放置目标对象的制造复制品,用于最初模拟的目标环境;
(iii) 我们将所提出的方法与真实环境中的端到端训练方法进行比较,特别是与 CVPR 2021 MultiON 竞赛 [28] 的获奖作品进行比较,我们在真实和模拟环境中都表现出色。

Related Work

(这部分没太多有价值的)

Hybrid Planning and Navigation

我们的目标是 Wani 等人[41]引入的多对象导航(Multi-ON)任务,特别是 3 个对象变体:在每个情节中,智能体必须找到 3 个圆柱形对象 G n , n = 1 , 2 , 3 G_n,n = 1, 2, 3 Gnn=1,2,3,按照预定义的顺序,其中 G n G_n Gn 是要查找的第 n 个对象,并且需要在每个目标处调用 Found 操作。剧集持续时间限制为 2,500 个环境步骤。在每个步骤 t,智能体接收一个以自我为中心的 RGB-D 观察 O t ∈ R h × w × 4 O_t ∈ R^{h×w×4} OtRh×w×4、一个激光雷达框架以及来自 8 个类别的当前目标对象的类别标签。

在导航过程中,代理根据激光雷达输入​​构建度量鸟瞰占用图,并使用度量 SLAM [39] 在其上进行自身定位。该二值图与重叠的语义点云相结合,其中包含关键对象的位置及其语义类别,这些是通过对象检测器从 RGB 输入中检测到的。检测和建图通过 SLAM 算法的定位模块进行协调。

Navigation

在两个不同的级别上分层执行。在较高级别(图 2 中的外环)上,生成 2D 航路点坐标 pt=(x, y) 并将其提供给较低级别​​控制器(内环),其任务是使用维护的占用地图导航到航路点。高级控制器在两种不同的策略之间切换:
Exploration- 当目标物体尚未被观察到时,即机器人探索环境,最大化覆盖范围。这是通过 RL 训练的学习策略来完成的,见下文。
Exploitation——当目标对象被观察到并因此成为语义点云的一部分时,其位置被视为新的路径点并提供给本地规划器。

Metric EgoMap

为了收集沿其路径的导航信息并更有效地重新访问之前看到的区域,代理构建了所谓的 EgoMap,这是一个以其当前位置为中心并与其前进方向对齐的固定空间分辨率的占用网格。

在真实的机器人上,该地图是使用 RTABMap [24] 库获得的。它使用基于图形的 SLAM 算法和闭环功能,这是一种利用 RGB-D、激光雷达和里程计传感器数据的灵活设计。激光雷达和/或深度用于创建 2D/3D 局部占用网格,与初始位置依赖于里程计积分的节点相关联。

然后从 RGB 帧中提取的关键点创建描述符,以便于节点比较和回环检测。 RTABMap 还包括短期和长期内存管理、全局映射压缩和多会话映射。

在模拟中,我们利用特权信息,通过 Habitat-Sim 中的 Recast&Detour [1] 库生成的 NavMesh 投影来检索场景导航性的完整自上而下视图。然后,通过使用完美定位,直接在该自上而下视图上的代理视野中进行光线追踪,构建战争迷雾掩模。

真实方法和模拟方法都会生成一个全局地图,我们在该地图上应用由代理当前姿势参数化的简单仿射变换来获取 EgoMap。

Exploration

是基于机器学习的主要模块。与最近的嵌入式 AI 工作相比 [4]、[8],该策略不采用第一人称 RGB 输入,而是采用度量 SLAM 算法生成的 EgoMap Mt。这大大简化了任务并提高了采样效率,并且由于避免了闪电、颜色和纹理的变化,因此最大限度地减少了 sim2real 差距。该策略是外循环的一部分,预测 2D 航路点坐标 pt。

由于多种原因,该问题是部分可观察到的:
(i) 并非场景的所有区域在任何时间点都已被观察到;
(ii) 出于效率原因,EgoMap Mt 并未覆盖整个场景,因此当智能体导航到距离观察区域足够远时,可能会忘记观察到的区域;
(iii) 在环境中存在不确定性的情况下,即使理论上完全可观察的问题(MDP)也可以转化为 POMDP(“认知 POMDP”),这是机器人技术的标准情况,正如最近在[18]中所显示的那样。

因此,我们为该策略注入了隐藏记忆 h t h_t ht 并使其循环出现。

策略 π 需要能够预测多模态分布,因为有多个有效轨迹可以有效地探索环境。我们通过归纳偏差将其纳入策略中,这迫使预测通过空间热图 Ht,从中对所选航路点位置进行采样。在采样之前,我们通过掩蔽将热图限制在未探索的区域。这种选择还导致了一个更可解释的模型,因为目标探索点的分布可以可视化(参见第四节)。

这可以形式化如下(另请参见图 3):
在这里插入图片描述
在这里插入图片描述

Local Navigation

本地导航 — 到航路点 p t p_t pt 由分析规划器执行,该规划器计算当前占用 EgoMap Mt 上的最短路径。这不一定是最佳路径,因为地图不等于(未观察到的)GT 地图和中间区域待穿越的区域(甚至路径点 p t p_t pt)可能未被探索。

我们采用动态规划器 D ∗ D^* D,它计算经典假设下的最短路径,并在新信息可用时重新规划。由于我们优化了我们的方法,使其在实际环境中稳健且高效,与最近的工作 [32]、[7] 不同,我们选择 D* 规划器而不是常用的快速行进方法 [37]。实际路径的可行性和规划的速度是这种设计选择背后的两个主要原因。

Stabilizing training

稳定训练——如上所述,在不确定条件下使用 D ∗ D^* D 的局部规划产生的潜在失败和次优轨迹也会对勘探策略的训练过程产生负面影响。该策略是外循环的一部分,预测航路点 p t p_t pt,仅在完成完整的本地导航过程后才收到奖励。局部规划中的噪音会影响强化学习训练过程的稳定性并导致缺乏收敛。

我们通过训练与本地策略接口的探索策略来解决这个问题,并对其施加了长度限制。探索策略预测的从当前位置到下一个路点 pt 的完整轨迹被分成一系列距离为 0.3m 的小子目标,本地策略仅限于其中 5 个子目标。如果达到航路点 pt,或者达到 5 个子目标的限制,则将控制权交还给外循环。这种选择导致了稳定的训练,并且训练后的策略很好地转移到了有针对性的探索任务,而无需改变。对本地规划长度的相同限制也适用于部署时,这提高了实际条件下的鲁棒性,并使复杂的恢复行为变得过时。

Object Detection and Mapping

对象检测和映射 - 被构建为来自当前 RGB-D 帧 ot 的语义分割任务,我们通过根据模拟器中的特权信息计算出的 GT 掩码进行监督。预测器是 DeepLab v3 网络 [12],使用深度信息和情景里程计对掩模中检测到的对象进行反向投影并与 EgoMap 对齐。请注意,深度和里程计在真实机器人/真实环境评估设置中都是有噪声的。

High-level decisions

高层决策完全是手工制定的,因为这会带来稳健且可转移的决策过程,而可以说不需要学习。考虑到我们的决策选择,只需要一种类型的决策,是进行探索还是利用(即朝着目标导航)。这是根据当前目标对象是否已在映射时被观察到而采取的。如果已检测到同一类的多个对象,则选择最有可能检测到的位置(就分段对象像素而言)。要映射的对象需要最小数量的像素

Experimental

在这里插入图片描述

Conclusion

我们已将 Multi-ON 任务扩展到真实环境,据我们所知,我们在这些设置中对该任务进行了首次实验评估。

我们引入了一种混合模型,它解开了航点规划和语义,显着减小了 sim2real 差距,并且优于当前仿真中 SOTA 的 E2E 训练模型。

未来的工作将集中于增强手工制定的高级策略,该策略需要对误报检测具有鲁棒性,这也是其他导航任务(例如 ObjectNav)中的常见挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/873851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Michael.W基于Foundry精读Openzeppelin第25期——IERC1820Registry.sol

Michael.W基于Foundry精读Openzeppelin第25期——IERC1820Registry.sol 0. 版本1. IERC1820Registry.sol2. 官方实现合约代码解读2.1 ERC1820Registry 0. 版本 [openzeppelin]:v4.8.3,[forge-std]:v1.5.6 1. IERC1820Registry.sol Github:…

【Linux初阶】system V - 共享内存

文章目录 前言一、共享内存初识1.共享内存的原理2.理解共享内存3.共享的内存的概念 二、共享内存函数1.shmget函数2.shmat函数3.shmdt函数4.shmctl函数 三、共享内存的查看方法及其特征四、共享内存的代码实现五、共享内存优缺点分析1.共享内存的优点2.共享内存的缺点 六、共享…

uni-app弹窗列表滚动, 弹框下面的内容也跟随滚动解决方案

滑动弹窗里的列表,弹框下面的内容也会跟着滑动,导致弹窗中的列表不能正常滚动 1.弹窗组件代码,需要在最外层的view中加入touchmove.stop.prevent"moveHandle",且弹窗中需要滚动的列表要使用scroll-view标签包裹起来&…

学生课堂行为识别教学质量评估 yolov7

学生课堂行为识别教学质量评估系统利用教室安装的摄像头,学生课堂行为识别教学质量评估系统对学生的表情状态、课堂表现和互动行为进行全面监测。对学生的参与度、专注度、互动质量等进行评估,为教师提供有关教学效果的实时反馈。可以为教师提供个性化的…

深谙封装之道:requests再封装,更完美的请求函数

这集我们来讲一个requests的封装函数。 作为一个程序员,我们经常会追求代码的复用性,所以就很多三方库,让我们不重复造轮子。但三方库也不是一步到位的,真正要完成目标还是要动动手的,把工具组装起来。相信每个人都封…

win10在vmware15中安装macos10.13系统

第一步、安装vmware版本信息如下 第二步、下载unlocker-main和darwin.iso放到安装文件夹 第三步、管理员身份运行win-install.cmd 第四步、运行vmware新建虚拟机 第五步、启动新创建的虚拟机macOS 10.13并选择语言 第六步、选择磁盘工具抹掉磁盘 第七步、格式化完成后退出磁盘工…

dialogbot:开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,为您提供全方位的对话交互体验。

dialogbot:开箱即用的对话机器人解决方案,涵盖问答型对话、任务型对话和聊天型对话等多种场景,支持网络检索问答、领域知识问答、任务引导问答和闲聊问答,为您提供全方位的对话交互体验。 人机对话系统一直是AI的重要方向&#xf…

二叉搜索树K和KV结构模拟

一 什么是二叉搜索树 这个的结构特性非常重要,是后面函数实现的结构基础,二叉搜索树的特性是每个根节点都比自己的左树任一节点大,比自己的右树任一节点小。 例如这个图, 41是根节点,要比左树大,比右树小&…

数据结构-队列的实现(C语言版)

前言 队列是一种特殊的线性表,它只允许在一端对数据进行插入操作,在另一端对数据进行删除操作的特殊线性表,队列具有先进先出的(FIFO)的 特性,进行插入操作的一端称为队尾,进行删除操作的一端称…

关于Android Studio Http Proxy设置

对敌人最大的蔑视就是沉默。--鹿丸 我们使用Android Studio 开始构建的时候会有卡顿的情况,甚至死机,也就是所谓的【android studio】构建卡住问题,如果依赖库类都是国内的,检查是否开启了代理 这个地方选择下面的自动代理 国内…

Redis_事务操作

13. redis事务操作 13.1事务简介 原子性(Atomicity) 一致性(Consistency) 隔离性(isolation) 持久性(durabiliby) ACID 13.2 Redis事务 提供了multi、exec命令来完成 第一步,客户端使用multi命令显式地开启事务第二步,客户端把事务中要执行的指令发…

WebRTC音视频通话-实现GPUImage视频美颜滤镜效果iOS

WebRTC音视频通话-实现GPUImage视频美颜滤镜效果 在WebRTC音视频通话的GPUImage美颜效果图如下 可以看下 之前搭建ossrs服务,可以查看:https://blog.csdn.net/gloryFlow/article/details/132257196 之前实现iOS端调用ossrs音视频通话,可以查…

KNN分类器、神经网络原理基础与代码实现

急切学习 两步:(1)归纳 (2)演绎 例如:贝叶斯分类器、决策树分类等等。 惰性学习 将训练数据建模过程推迟到需要对样本分类时(直观理解:死记硬背,记住所有的训练数据&…

Springboot集成ip2region离线IP地名映射-修订版

title: Springboot集成ip2region离线IP地名映射 date: 2020-12-16 11:15:34 categories: springboot description: Springboot集成ip2region离线IP地名映射 1. 背景2. 集成 2.1. 步骤2.2. 样例2.3. 响应实例DataBlock2.4. 响应实例RegionAddress 3. 打开浏览器4. 源码地址&…

HTML表单标签大全并附有详细代码+案例

个人名片: 🐼作者简介:一名大二在校生 🐻‍❄️个人主页:落798. 🐼个人WeChat:落798. 🕊️系列专栏:零基础学java ----- 重识c语言 ---- 计算机网络—【Spring技术内幕】…

YOLOv8目标检测算法

YOLOv8目标检测算法相较于前几代YOLO系列算法具有如下的几点优势: 更友好的安装/运行方式速度更快、准确率更高新的backbone,将YOLOv5中的C3更换为C2FYOLO系列第一次尝试使用anchor-free新的损失函数 YOLOv8简介 YOLOv8 是 Ultralytics 公司继 YOLOv5…

Android学习之路(2) 设置视图

一、设置视图宽高 ​ 在Android开发中,可以使用LayoutParams类来设置视图(View)的宽度和高度。LayoutParams是一个用于布局的参数类,用于指定视图在父容器中的位置和大小。 ​ 下面是设置视图宽度和高度的示例代码: …

【算法——双指针】LeetCode 283 移动零

题目描述: 思路: (双指针) O(n)O(n)O(n) 给定一个数组 nums,要求我们将所有的 0 移动到数组的末尾,同时保持非零元素的相对顺序。 如图所示,数组nums [0,1,0,3,12],移动完成后变成nums [1,3,12,0,0] &am…

【探索SpringCloud】服务发现-Nacos使用

前言 在聊服务注册中心时,便提到了Nacos。这次便来认识一下。当然,这自然没有官方介绍那般详尽,权当是学习了解Nacos原理的一个过程吧。 Nacos简介 Nacos,全名:dynamic Naming And Configuration Service. 而这个名…

静态网页和动态网页区别

1,静态网页和动态网页有何区别 1) 更新和维护 静态网页内容一经发布到网站服务器上,无论是否有用户访问,这些网页内容都是保存在网站服务器上的。如果要修改网页的内容,就必须修改其源文件,然后重新上传到服务器上。…