Vision-Only Robot Navigation in a Neural Radiance World

news2025/1/23 4:09:59

Paper name

Vision-Only Robot Navigation in a Neural Radiance World

Paper Reading Note

URL: https://arxiv.org/abs/2110.00168

TL;DR

  • RA-L 2022 文章,提出在 NeRF 表达的环境中进行机器人导航及循迹任务的方法

Introduction

背景

  • 基于 on-board 传感器进行轨迹规划与循迹对于机器人应用很关键,目前机器人导航依赖 3d 环境表达方式,比如 voxel grid、point cloud、mesh model、 Signed Distance Field(SDF) 等 3d 表示,目前流行的 NeRFs 精确编码详细的3D几何和颜色,本文拟研究在给定环境的预训练 NeRF 模型以及 on-board 的单目 rgb 摄像头传感器的情况下,如何在环境中进行机器人导航及循迹任务
  • 在机器人导航中使用 NeRF 作为环境表达的优势
    • 与体素模型、点云或网格模型不同,NeRF 直接基于图像输入进行训练,而不需要传统的特征提取、匹配和对齐流程
    • 将几何图形表示为连续的密度场,因此非常适合机器人运动规划和轨迹优化
    • NeRF 在新的位姿上可以渲染该位姿的图像,可以用来给机器人的定位做一些反馈校正
  • FastNeRF 等研究将 NeRF 的推理速度提升到 200 FPS,足够在实时机器人上应用

本文方案

在这里插入图片描述

  • 本文提出以下方案来实现在 NeRF 表达的环境中进行机器人导航及循迹任务
    • 一种新的轨迹规划方法,基于微分平面度规划完整的、动态可行的轨迹,以避免与NeRF环境的碰撞
    • 基于优化的滤波器,以获得完整动态状态的后验估计,平衡动态预测损失和基于nerf的光度损失
    • 一种在线重规划控制器,该控制器结合了上述两种反馈算法,使用NeRF模型在其环境中鲁棒地导航机器人

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

任务定义

  • 在仿真环境中,一个带有单目摄像头的机器人,给定初始位置 x0 与目标位置 xf,以及环境的 NeRF 模型,机器人需要基于单目摄像头的感知无碰撞地从 x0 移动到 xf
  • 碰撞定义:在某一点上NeRF密度与它的占用率之间的关系并不明显。具体来说,NeRF密度表示给定空间点阻止光线的差分概率。本文假设终止光线的概率是终止质量粒子的概率的一个强有力依据。因此,t 时刻的碰撞概率为
    在这里插入图片描述
    其中 Xcoll 为碰撞集,s(bt) 为时间步 t 中机器人上的点 b 走过的距离,边界由布尔不等式得到。本文将碰撞概率作为轨迹优化过程中要最小化的 cost
  • 任务实现流程:
    • 机器人规划出最小化碰撞概率的轨迹
    • 执行控制操作
    • 基于机器人感知到的图片,更新对当前状态的置信度
    • 重复以上操作直到机器人到达目标位置

轨迹规划

  • 考虑到 NeRF 没有显示表示 occupancy,这里使用基于一阶优化(Adam optimizeroptimizer)的 differential flatness 规划轨迹,优化的损失包含碰撞概率和控制量
    在这里插入图片描述

其中 W = {σ0, . . . , σh} 是希望通过优化得到的轨迹,Rτ 是机器人到世界坐标系的旋转矩阵,s(·) 是得到机器人上的点的运行举例的函数

  • 初始轨迹:
    • 初始位置与目标位置的直线,或者基于 A* 在粗网格上计算得到的轨迹
  • 基于初始轨迹的优化过程示意如下,红色为初始轨迹,蓝色是优化中间状态,绿色为最终规划的轨迹
    在这里插入图片描述

基于 NeRF 的机器人位姿滤波

  • 每个时间步上,观测器会提供一个相机采集的图片 It、之前采取的控制量 ut,a state prior μt−1,之前时间步上的covariance Σt−1,各个状态的推导如下
    在这里插入图片描述
    其中 Qt 是 process noise covariance

  • 本文的位姿估计基本参考之前的 iNeRF,即基于 ORB 等特征提取器挑选出图像中梯度变化大的像素点来进行 photometric loss 优化,由 μt 的位置和旋转可以构造出机器人 Tt 的姿态,优化目标如下
    在这里插入图片描述
    其中St是测量噪声协方差,最小化这个方程得到更新后的均值μt
    最后,利用高斯损失函数的Hessian和协方差之间的已知关系来产生后验协方差
    在这里插入图片描述

  • 本文与 iNeRF 相比的优化点在于

    • iNeRF 通过对参考姿态采取梯度步骤并在优化后投影到SE(3)流形上以恢复状态估计来优化状态
    • 本文在每个梯度步骤后都将投影回流形上
      这两种方法在数学上是不同的,因为指数映射中斜对称矩阵的乘法不交换,公式为
      在这里插入图片描述
      其中T为参考齐次变换矩阵,exp(·)为切空间与流形之间的指数映射。
      定性地观察到递归SE(3)梯度下降收敛比 iNeRF 的方法更快,因为在SE(3)流形上的 noisy photometric loss landscape。
      在这里插入图片描述

在线重规划

  • 在线重规划算法:机器人首先基于 A* 规划初始轨迹,然后执行第一个动作,状态滤波器基于采集的图像更新 belief 信息,该后验的平均值在轨迹规划器中用作新的起始状态,并与热启动时的其他航路点一起,在考虑外部干扰的情况下重新优化轨迹。这将一直持续到机器人达到目标状态。这个流程能够让机器人的规划抵抗一部分外部扰动影响
    在这里插入图片描述
  • 规划示意:蓝色轨迹是优化器返回的初始轨迹。然后,为许多时间步(白色)推出动态扰动,并重新优化轨迹(绿色)。规划器对垂直干扰的反应是选择飞到拱门上方,而不是像最初计划的那样飞到拱门下方。
    在这里插入图片描述

实验结果

仿真环境

  • 使用各种高保真模拟网格环境(Sketchfab生成的场景网格)演示了算法性能,首先渲染一批该环境中的图片,离线训练 NeRF 模型,基于 Habitat2.0 渲染了一批图像数据作为评测数据集
  • 机器人的传感器图像类似地从真实环境中渲染,但轨迹不同,因此对NeRF模型的任何查询都不同于训练数据

Planner - Ground truth comparison

  • 为了使用NeRF来推理避免碰撞,需要证明 NeRF 所学习的光密度是真实世界碰撞的一个很好的代理。图 a 为轨迹规划器生成的优化轨迹的可视化。提供的初始化显示为红色,部分优化的轨迹显示为蓝色。可以看到优化器收敛到一个既避免碰撞又平滑的轨迹。图 b 展示了 NeRF 碰撞损失图(实线)和 gt 网格的相交体积图(虚线),可以看到实线和虚线相关性很大,也即优化 NeRF 碰撞损失是能真的避免碰撞的。其中 iteration49 的规划轨迹(虚线)是完全能避免和 gt 障碍物网格的碰撞的。

在这里插入图片描述

Planner - Comparison to prior work

  • 在 NeRF 规划器上实现了两个被广泛应用的方法:
    • minimum-snap trajectory planning :使用差分平坦度来计算通过一系列航路点的轨迹。然而,该方法通常使用手动放置的航路点,而本文的方法能够基于 NeRF 优化这些航路点的位置。在这个比较中,使用与本文方法使用的相同 A* 算法为最小捕捉规划器生成路线点
    • Rapidly-exploring Random Trees (RRT):基于采样的方法生成用于查找无碰撞轨迹的空间填充树。由于它需要二进制碰撞度量,首先使用 marching cubes 将 NeRF 转换为网格。当生成RRT时,使用球形碰撞模型,因为该规划器在规划阶段只有位置信息,不知道机器人的方向。最后,为了提取跟随RRT轨迹所需的控制动作,使用基于差分平坦度的控制器。
  • 在 Stonehenge 场景中测试了 10 条不同障碍物、速度和复杂度的轨迹,实验对比如下
    在这里插入图片描述
    RRT 和 本文方法无碰撞,本文方法的轨迹更平滑
    在这里插入图片描述
    颜色匹配轨迹的起点和终点,以及是否对给定规划轨迹是否成功的指示,本文方法失败率最低
    在这里插入图片描述
    每个规划器的平均NeRF碰撞度量和每个时间步的控制量,在 20 次初始化中取平均值。可以看到,本文方法产生的轨迹具有低控制量、低 NeRF 碰撞成本以及低失败率

Planner - Omnidirectional robot in tight space

  • piano movers 问题也能进行规划
    在这里插入图片描述

Estimator - Comparison to prior work

  • 与 iNeRF 相比,观测误差更低(红色是本文方法,界限表示平均误差之上和之下的一个标准偏差)
    在这里插入图片描述

Online Replanning

  • 抗扰动能力强。最初计划的轨迹是红色的。然而,当状态估计与计划的轨迹显著偏离时,机器人会重新规划并执行一条无碰撞的路径以到达目标,如蓝色和绿色的重新规划轨迹所示。
    在这里插入图片描述

Performance and Timing

  • 测试环境:AMD Ryzen 9 5900X @ 3.7 GHz CPU and Nvidia RTX 3090 GPU
  • 初始轨迹需要经过20次以上2500次迭代才能优化。在在线重新规划实验中(∆t=0.1s),随后的轨迹更新在250次迭代的2s内发生。状态估计器通常在300个梯度步长上运行4s,其中0.25s是Hessian计算
  • 作者任务上面的速度慢问题可以由未来工作中 NeRF 的加速来缓解

Thoughts

  • 从运行速度来看基于 occupancy 的方法相比 NeRF 应该是有较大优势的,并且由于有显式的占用空间,规划的难度理论上应该更低
  • 如果 occupancy network 具备足够的泛化性,在该任务中的优势应该会显著优于 NeRF,因为不需要在特定场景进行模型训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/147177.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML与CSS基础(五)—— CSS布局(盒子模型)、PxCook使用

目标能够认识 盒子模型 的组成部分 能够掌握盒子模型的 边框、内边距、外边距 的作用及简写形式能够计算盒子的 实际大小 能够了解 外边距折叠现象,并知道如何解决 盒子塌陷问题一、PxCook的基本使用1. 通过软件打开设计图① 打开软件 ② 拖拽入设计图 ③ 新建项目2…

Acwing---99.激光炸弹

激光炸弹1.题目2.基本思想3.代码实现1.题目 地图上有 NNN 个目标,用整数 Xi,YiXi,YiXi,Yi 表示目标在地图上的位置,每个目标都有一个价值 WiWiWi。 注意:不同目标可能在同一位置。 现在有一种新型的激光炸弹,可以摧毁一个包含 …

Java中常用API总结(4)—— Object类(含实例解读和源码阅读)

Object类一、前言二、概述1.API帮助文档2.使用方法三、常用方法1.toString方法1️⃣格式2️⃣实例3️⃣源码阅读4️⃣快捷键重写方法2.equals方法1️⃣格式2️⃣实例3️⃣源码阅读4️⃣重写方法3.对象克隆四、结语一、前言 本文将讲述有关于Object类相关知识点 二、概述 1.A…

C语言文件操作的细节

目录 文本文件和二进制文件 概念 一个数据在内存中是怎么存储的呢? 通过VS2013可以查看二进制数值 文件读取结束的判定 文件缓冲区 文本文件和二进制文件 概念 根据数据的组织形式,数据文件被称为文本文件或者二进制文件。 数据在内存中以二进制的…

YOLOv5 以txt 或json格式输出预测结果

YOLOv5 以txt 或json格式输出预测结果1.YOLOv5源码以多种格式输出预测结果1.run函数——传入参数2.run函数——保存打印2.YOLOv5以.txt格式输出预测结果1.执行以下代码就可以得到以.txt格式输出预测结果2.输出格式:3.YOLOv5以.json格式输出预测结果1.需要在源码中加…

零售行业交易数据分析(3)——群组/同期群分析(留存率分析)

内容简介 本文介绍了群组分析(同期群分析)的方法以及Python实现过程,并继续对一家零售公司的交易数据进行用户留存分析和可视化。 本系列的文章: 《零售行业交易数据分析(1)——客户终身价值(CLTV)计算和…

Qt扫盲-QSplitter理论总结

QSplitter理论总结一、概述二、使用说明1. 添加子控件2. 内部控件大小和位置一、概述 QSplitter允许用户通过拖动子部件之间的边界来控制子部件的大小。这个经常在我们使用的一些工具软件中最常使用 比如就像 QAssistant 里面的索引栏和内容直间,鼠标放在那个分界区…

3dMax中的两足动物及动画制作方法

3dMax的两足动物简介 3DMax是一款专业的3D电脑设计软件,用于制作3D动画、游戏、模型、图像等,在视频游戏开发商、影视工作室的工作中发挥着重要作用。Biped 是3D max 软件中动画的基本部分。3dMax中的Biped为角色建模中的角色部分提供运动并将其连接到现…

基于Java+SpringMvc+vue+element实现驾校管理系统详细设计

基于JavaSpringMvcvueelement实现驾校管理系统详细设计 博主介绍:5年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取…

PPI网络的构建与美化(String+Cytoscape)

目录写在前面一、使用string分析数据二、使用Cytoscape构建网络1. 导入TSV文件2. Analyze Network3. Generate Style4. CytoNCA计算Betweenness三、美化网络1. 根据Betweenness调整网络2. 选择你需要的蛋白,做个双环网络图3. 调整字体大小颜色、气泡大小等4. 保存图…

【TypeScript】JavaScript VS TypeScript数据类型

💭💭 ✨:JavaScript VS TypeScript数据类型   💟:东非不开森的主页   💜: 你若盛开,清风自来💜💜   🌸: 如有错误或不足之处,希望可以指正&…

【TS】TypeScript 实践中的 Equals 是如何工作的?

How does the Equals work in typescript 循着线索慢慢来 在 ts 中如何判断两种类型完全一致? 三年前,在社区有一场关于支持 type level equal operator 的讨论 TypeScript#27024。 大佬 mattmccutchen 给出了一个非常精彩的解决方案: Her…

智公网:教师编的这些规则要知道!

1、有了教师资格证,是否还需要考取编制? 答:有了教师资格证之后是需要继续教师编制考试的。只有通过了教师编制考试才能有教师编,只有一个教师资格证,只能证明是具备了从业资格。通过教师编制的人员被称为在编人员&am…

【Web开发】Python实现Web图表功能(D-Tale编译打包)

🍺基于Flask实现服务器的相关文章如下🍺: 🎈【Web开发】Python实现Web服务器(Flask快速入门)🎈🎈【Web开发】Python实现Web服务器(Flask案例测试)&#x1f3…

MySQL中SQL语句执行顺序及优化

概要 本文章主要是分析SQL语句关键字的执行顺序,以及在每一个阶段我们有哪些优化,可以去做哪些优化,和注意事项。 1. SQL语句关键字的执行顺序 通常我们执行一条SQL语句它的执行顺序如下 selectfrom.joinwheregroup byhavingorder by聚合函…

Vitepress(二):部署

什么是Git Page github Pages可以被认为是用户编写的、托管在github上的静态网页。 github pages有300M免费空间,资料自己管理,保存可靠; 实现项目自动推送到Github 首先新建一个自己的项目用于存放github pages的内容 格式是 自己githu…

《元宇宙2086》影视工业弯道超车?《科普时报》刊登采访报道

科普时报-第267期 2023年01月06日 星期五 第05版:书香文史刊载了题目为“《元宇宙2086》影视工业弯道超车?”的关于高泽龙的采访报道。全文内容如下:在2022年中国金鸡百花电影节暨第35届中国电影金鸡奖期间,我创作的中国首部元宇宙…

Linux开发工具的使用(二)

文章目录Linux开发工具的使用(二)1.Linux编译器gcc/g使用1.1 背景1.2 验证每一个阶段的效果1.2.1 预处理1.2.2 编译1.2.3 汇编1.2.4 链接1.2.5 记忆1.3 链接的理解1.3.1 ldd指令1.3.2 预备1.3.3 动态库和静态库感性理解到实际理解2.Linux项目自动化构建工…

吴恩达《机器学习》——SVM支持向量机

SVM支持向量机1. 线性SVM1.1 从Logistic回归出发1.2 大边界分类与SVM1.3 调整正则化参数2. 非线性SVM(高斯核函数)2.1 高斯核2.2 非线性分类2.3 参数搜索数据集、源文件可以在Github项目中获得 链接: https://github.com/Raymond-Yang-2001/AndrewNg-Mac…

Java编程基础

1,基本概念 (1)JDK、JRE、JVM的关系: JDK:Java Development Kit,Java开发工具包JRE: Java Runtime Environment,Java运行环境JVM:Java Virtual Machine,Java虚拟机JDK包…