【论文解读】iSDF: Real-Time Neural Signed Distance Fieldsfor Robot Perception

news2024/11/25 0:23:41

《iSDF: Real-Time Neural Signed Distance Fields for Robot Perception》提出了一种用于实时签名距离场(SDF)重建的持续学习系统。

论文:https://arxiv.org/abs/2204.02296icon-default.png?t=N7T8https://arxiv.org/abs/2204.02296

项目:iSDFicon-default.png?t=N7T8https://joeaortiz.github.io/iSDF/代码:GitHub - facebookresearch/iSDF: Real-time Neural Signed Distance Fields for Robot PerceptionReal-time Neural Signed Distance Fields for Robot Perception - facebookresearch/iSDFicon-default.png?t=N7T8https://github.com/facebookresearch/iSDF

 1 摘要

     iSDF,这一系统旨在利用神经网络进行实时SDF重建。该网络在实时训练中使用移动相机获取的深度图像,使其能够适应不同的细节级别并合理填补部分观察到的区域。该方法与其他替代方法进行了比较,展示了其在准确性和实际应用中的优越性。

 

图1展示了iSDF系统的工作流程和效果:

  1. 上排(Zero Level Set Mesh):展示了随着时间推移(5秒、26秒、59秒、89秒),系统生成的零水平集网格。红色轨迹代表相机的运动路径,绿色点代表相机位置。
  2. 中排(SDF Slice):展示了不同时间点(5秒、26秒、59秒、89秒)生成的SDF切片。
  3. 下排(Latest Frame):最新帧的RGB图像(未使用)。

iSDF系统通过处理实时深度图像流,优化一个随机初始化的网络,将输入3D坐标映射到近似的有符号距离值。该网络可以在线查询,以获得碰撞成本和梯度,用于导航和操作领域​​。

2 引言

        引言部分讨论了机器人感知的重要性以及SDF在机器人技术和视觉中的应用。SDF在运动规划中的碰撞避免中至关重要,但实时计算通常过于昂贵。本文旨在通过聚焦实时SDF重建,提供一种在平滑度和碰撞避免成本之间取得平衡的方法。

3 相关工作

        该部分强调了以前基于体素网格的实时非截断SDF重建方法。这些方法受限于分辨率和计算成本。神经场,尤其是使用多层感知器(MLP)的神经场,提供了一种替代方案,可以从头开始优化以准确适应特定场景,无需先前训练。

4 方法

    iSDF是一个用于实时SDF重建的系统,它将移动摄像机捕获的流构成深度图像作为输入,并在在线操作期间学习近似环境真实有符号距离场的函数。有符号距离函数由多层感知器(MLP)建模,该感知器将3D坐标映射到该点的有符号距离值。模型以随机权重初始化,并根据输入的测量值实时优化。

    iSDF采用神经网络将输入的3D坐标回归为签名距离。该网络通过一种持续学习的方法,使用移动相机获取的深度图像进行训练。方法的关键点包括:

  • 网络架构: SDF由一个将3D坐标映射到签名距离值的MLP模型。
  • 训练: 网络通过自我监督方法进行实时训练。损失函数通过批量主动采样查询点中最接近采样点的距离来约束预测的签名距离。
  • 效率: 该方法在内存分配方面非常高效,可以去噪和合并噪声测量,同时填补部分观察区域的空白。

系统示意图。iSDF的多层感知机(MLP)将输入的3D坐标 x=(x,y,z)x = (x,y,z)x=(x,y,z) 回归为有距离符号函数 s = f_{\theta}(x)

图3展示了不同方法计算采样点SDF预测边界的对比:

  • 左图:展示了计算采样点x(橙色)的SDF预测边界的三种方法:光线法、法线修正法和批量距离法。
  • 右图:展示了沿不同光线的采样点的边界,批量距离法提供了最紧密的边界,而光线距离法提供的边界最弱​​。

图2展示了三种不同的方法在计算采样点的SDF预测边界时的可视化对比。这些方法包括光线距离方法、法线修正方法和批量距离方法。具体解析如下:

  • 左图:三种方法计算采样点 xxx 的SDF预测边界。
  • 右图:沿不同光线的采样点的边界展示。

方法解析

  1. 光线距离方法

    • 使用光线投影从相机位置到物体表面,沿光线方向采样点的距离。
    • 这种方法计算速度较快,但精度相对较低,边界较松散。
    • 图中可以看到,光线距离方法的边界最弱,较少捕捉到表面的细节。
  2. 法线修正方法

    • 在光线投影的基础上,引入表面法线信息,通过修正光线方向来提高采样点的准确性。
    • 相对于光线距离方法,法线修正方法提供了更为精确的边界。
    • 从图中可以看出,法线修正方法的边界比光线距离方法紧密,但仍不如批量距离方法。
  3. 批量距离方法

    • 采用一种批量采样方法,计算采样点与一批点的最小距离,从而得到SDF预测边界。
    • 这种方法综合考虑了多个采样点的信息,提供了最紧密和准确的边界。
    • 图中显示了批量距离方法提供了最紧密的边界,能更好地捕捉到表面的细节和形状。

右图展示了沿不同光线的采样点的边界比较。从图中可以清楚地看到:

  • 光线距离方法边界最弱,表面细节捕捉较少。
  • 法线修正方法提高了边界的紧密性,但仍存在一定的误差。
  • 批量距离方法边界最紧密,精度最高,能准确捕捉表面的形状和细节。

通过对比三种方法,展示了批量距离方法在计算SDF预测边界时的优势。相较于光线距离和法线修正方法,批量距离方法提供了更高的精度和更紧密的边界,使其在实时3D重建和感知任务中表现出色。

图4展示了自由空间损失的计算方法:

  • 左图:展示了自由空间损失L<sub>free space</sub>(f(x; θ), b)对于目标SDF的计算过程。
  • 右图:展示了自由空间损失在不同情况下的计算结果​​。

这些图展示了iSDF系统的核心思想和关键方法,包括实时优化、批量自监督、以及在自由空间中的SDF预测损失计算方法。通过这些方法,iSDF能够在实时条件下生成精确且详细的3D重建​​

5 试验结果

        展示了iSDF在生成准确SDF方面的有效性,所有序列的误差均小于6厘米。iSDF也是唯一能够重建零水平集的闭合网格的方法。系统在SDF准确性方面优于先前的方法,并且在计算碰撞成本和梯度以供下游规划器使用时表现出色。

图5展示了不同方法在一个场景中重建的有符号距离场(SDF)的横截面。具体来说,它展示了在不同序列结束时,在不同高度上的SDF切片。以下是对图5的详细解析:

  1. 场景选择: 图5中的切片来自多个不同的场景,包括apt_3_navapt_3_objscene0030_00scene0004_00scene0005_00apt_3_mnp。这些场景代表了不同的环境和复杂性,以展示算法在不同条件下的表现。

  2. 方法对比: 图中对比了三种不同的方法:

    • iSDF:论文中提出的实时SDF重建方法。
    • Voxblox:一种基于体素的SDF重建方法。
    • KinectFusion+:一种增强的KinectFusion方法。
  3. 结果展示

    • SDF切片:每个切片在一个固定的高度上展示了重建的SDF值。不同方法的结果分别用不同的图形展示。每个图形中,颜色代表了重建的SDF值,其中红色框突出显示了存在问题的区域。
    • 孔洞问题:红色框中的区域显示了重建中常见的问题,即由于近处物体的部分遮挡而导致的远处区域的孔洞。这些孔洞在Voxblox和KinectFusion+的结果中尤为明显,而iSDF则能够更完整地重建这些区域。
  4. 方法优势

    • iSDF的优势:iSDF在图5中展示了其在远处和部分遮挡区域能够生成更完整、更逼真的重建。这对于后续的规划非常重要,因为未映射的区域必须被标记为不可通行,并赋予较高的代价。
    • 梯度场问题:由于梯度场是通过有限差分计算的,孔洞在梯度场中会变得更大。iSDF通过更准确的重建减少了这种问题,从而为下游任务提供了更好的支持。

图5通过这些比较和细节展示了iSDF在重建质量和完整性方面的显著优势,特别是在复杂和部分遮挡的场景中。

 

图6展示了对Voxblox映射区域进行的评估。为了评估这一点,论文对比了几种方法在Voxblox映射区域内的表现,包括iSDF、Voxblox和KinectFusion+。图6的主要内容如下:

  1. 左图:展示了每种方法在不同高度下重建的SDF切片。这些高度分别为地面高度(15cm)、相机高度(1.2m)和高于相机的高度(2.8m)。在Voxblox和KinectFusion+的切片中,由于可见性有限,地面高度和高于相机高度的区域大部分是灰色的。

  2. 中图:展示了apt 2 nav房间角落的SDF切片和零水平集网格。这些网格从绿色箭头所在位置查看。图中可以看到iSDF生成的SDF更完整、更准确。

 

图7展示了在序列结束时重建的SDF的不同可视化结果:

  1. 左图:展示了apt 2 mnp的不同高度下重建的SDF。相机安装在固定的俯仰角和大约1.2米的高度(中间切片的高度)。其他两个切片分别位于地面高度(15cm)和高于相机的高度(2.8m),在Voxblox和KinectFusion+的切片中,由于可见性有限,这些高度的大部分区域是灰色的。

  2. 中图:展示了apt 2 nav房间角落的SDF切片和零水平集网格。绿色箭头指示了网格的视角。图中可以看到,iSDF生成的SDF在beanbag周围更完整、更准确。

  3. 右图:摄像机靠近盐瓶,好像要操纵它。iSDF是唯一可以在多个细节层次上操作并在房间尺度和小物体尺度上进行重建的方法

这些图表明iSDF在生成更完整和准确的SDF方面优于其他方法,尤其是在具有挑战性的区域。

 

 图8展示了iSDF、Voxblox和KinectFusion+在三个评估指标上的比较:SDF误差、碰撞成本误差和梯度余弦距离。这些指标在序列的固定时间间隔内进行评估,采样点位于当时的可见区域。由于Voxblox没有映射整个可见区域(参见图5),我们使用最近邻插值来评估未映射区域的SDF误差。对于碰撞成本误差,我们将表面成本分配给未映射区域,因为机器人会避开未知区域。

  • SDF误差:iSDF在整个序列中的SDF误差最低,这表明其在重建表面形状方面的准确度最高。
  • 碰撞成本误差:iSDF在这一指标上也表现最好,这意味着其生成的重建结果更有利于机器人导航,避免潜在的碰撞风险。
  • 梯度余弦距离:这一指标用于评估梯度场的准确性,iSDF通常也表现最佳,但在某些序列中,KinectFusion+的表现与之相当。

图8展示了这三种方法在序列进行中的各个时间点上的性能,iSDF在多数情况下都表现出显著的优势 .

6 结论

        强调了iSDF在机器人感知实时SDF重建中的优势。该方法高效、适应性强且准确,较基于体素网格的以前方法有显著改进。

7 主要贡献

  1. 实时SDF重建: iSDF实现了利用神经网络进行实时SDF重建。
  2. 持续学习: 网络以持续学习的方式进行训练,使其能够随着时间的推移适应和改进。
  3. 效率与准确性: 该方法在内存使用和计算成本方面非常高效,同时提供了高精度的SDF重建。
  4. 机器人感知应用: iSDF在导航和操作中的下游应用中表现出色,提供了准确的碰撞成本和梯度。

通过解决先前方法的局限性并利用神经网络的优势,iSDF在机器人实时SDF重建方面代表了一项重要的进步。

8 核心算法详解

  1. 神经SDF建模

    • 该算法使用一个多层感知机(MLP)来参数化SDF。通过输入3D坐标点,MLP输出该点的SDF值。
    • 为了提升模型的表达能力,MLP的输入经过傅里叶特征映射,这能够捕捉更多的空间细节。
  2. 监督信号

    • 采用几何监督信号,包括表面监督、梯度监督和Eikonal监督。
      • 表面监督(Surface Supervision)确保在观测到的表面附近,SDF值正确。
      • 梯度监督(Gradient Supervision)保证SDF的梯度方向指向表面法线方向。
      • Eikonal监督约束SDF的梯度范数为1,从而满足Eikonal方程。
  3. 实时更新机制

    • 算法能够通过增量方式实时更新SDF,这对于机器人在线环境感知至关重要。
    • 使用深度相机捕捉的深度图像进行逐帧更新,通过优化损失函数来调整MLP参数。
  4. 融合策略

    • 提出了一种两阶段的融合策略。第一阶段进行表面融合,生成占据网格;第二阶段通过欧氏距离变换将占据网格转换为SDF。
  5. 训练与优化

    • 使用Adam优化器对网络进行训练,损失函数综合了上述监督信号的加权和。
    • 训练过程中使用批处理距离(batch distance)来计算SDF监督界限,以提高重建精度。

9 具体实现细节

  • 占据网格构建

    • 利用深度图像构建占据网格,然后通过高效的欧氏距离变换(EDT)算法计算SDF。EDT首先计算平方欧氏距离,再取平方根。
  • 实验与评估

    • 通过实验评估算法在ReplicaCAD和ScanNet数据集上的性能。
    • 采用多个评估指标,包括PSNR、SSIM、LPIPS以及自定义的SDF误差度量(如绝对误差、均方误差等)。

10 算法优势

  • 实时性
    • 能够在实时环境中更新SDF,对于机器人在线感知和路径规划尤为重要。
  • 高精度
    • 结合几何监督信号和傅里叶特征映射,提高了SDF的重建精度和细节捕捉能力。
  • 鲁棒性
    • 适应不同的场景和数据集,表现出较强的鲁棒性和泛化能力。

通过上述核心算法的解析,可以看出该论文在神经SDF建模和实时更新机制方面的创新,有效提升了机器人感知系统的实时性和精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1888614.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

手撕LLM,弄懂这些,你大模型就算入门了

在人工智能的浩瀚星空中&#xff0c;大型语言模型&#xff08;Large Language Model, LLM&#xff09;无疑是近年来最为耀眼的星辰之一。它们以惊人的文本生成能力、上下文理解能力以及广泛的应用潜力&#xff0c;正逐步改变着我们的生活方式和工作模式。对于想要踏入这一领域的…

Mac密室逃脱游戏推荐:Escape Simulator for mac安装包

Escape Simulator 是一款逃生模拟游戏&#xff0c;玩家在游戏中需要寻找线索、解决谜题&#xff0c;以逃离各种房间或环境。这种类型的游戏通常设计有多个关卡或场景&#xff0c;每个场景都有不同的设计和难度。 在 Escape Simulator 中&#xff0c;玩家的目标通常是找到出口或…

用MySQL+node+vue做一个学生信息管理系统(一):配置项目

先用npm init -y生成配置文件 在项目下新建src文件夹&#xff0c;app.js文件。src目录用来放静态资源文件&#xff0c;app.js是服务器文件&#xff0c;index.js是vue的入口文件 使用npm install express下载express框架 在app.js文件夹开启node服务&#xff0c;监听的端口为…

开放式耳机排行榜10强!最强开放式耳机大揭秘!

在开放式耳机的市场中&#xff0c;各大品牌竞相推出了一系列优秀的产品。这些耳机不仅具备高品质的音质表现&#xff0c;还融入了各种黑科技&#xff0c;如智能降噪、无线充电等&#xff0c;带来更加便捷、智能的体验。作为一名开放式耳机收藏家&#xff0c;目前也入手了差不多…

java入门-基础语法(运算符)

运算符是对变量、字面量进行运算的 符号 &#xff08;一&#xff09;基本的算术运算符、符号做连接符 &#xff08;1&#xff09;基本运算符&#xff1a;(加)&#xff0c; - &#xff08;减&#xff09;、 * &#xff08;乘&#xff09;、 / &#xff08;除&#xff09;、%&…

仿论坛项目--初识Spring Boot

1. 技术准备 技术架构 • Spring Boot • Spring、Spring MVC、MyBatis • Redis、Kafka、Elasticsearch • Spring Security、Spring Actuator 开发环境 • 构建工具&#xff1a;Apache Maven • 集成开发工具&#xff1a;IntelliJ IDEA • 数据库&#xff1a;MySQL、Redi…

Monorepo(单体仓库)与 MultiRepo(多仓库): Monorepo 单体仓库开发策略与实践指南

&#x1f525; 个人主页&#xff1a;空白诗 文章目录 一、引言1. Monorepo 和 MultiRepo 简介2. 为什么选择 Monorepo&#xff1f; 二、Monorepo 和 MultiRepo 的区别1. 定义和概述2. 各自的优点和缺点3. 适用场景 三、Monorepo 的开发策略1. 版本控制2. 依赖管理3. 构建和发布…

模拟算法系列|替换所有的问号|提莫攻击|种花问题|Z字形变换|兼具大小写的英文字母|删除字符使频率相同

大家好,我是LvZi,今天带来模拟算法系列|替换所有的问号|提莫攻击|种花问题|Z字形变换|兼具大小写的英文字母|删除字符使频率相同 一.基本概念 模拟算法就是根据题意 模拟出代码的过程,模拟算法的题意往往都很简单,考验的是将思路转化为代码的能力,十分的锻炼代码能力,且能很好…

大模型学习笔记1【大模型】

文章目录 学习内容0.大模型应用的流程1.构建任务/领域的数据集2.寻找备选模型3.调整模型PromptFine-tuningPEFT RLHF 学习内容 根据自己的经验和课程的学习&#xff0c;系统的记录一下大模型落地的流程。 0.大模型应用的流程 构建任务/领域问题数据集使用对应任务的语料测试…

“党建链串起产业链“ —— 亦企港携手企业共赴天空卫士探索数据安全新篇章

在数字化浪潮的推动下&#xff0c;数据安全已成为国家发展的关键。北京经济技术开发区&#xff08;简称北京经开区&#xff09;通过创新的“党建链串起产业链”活动&#xff0c;不断探索党建工作与产业发展的双向促进模式&#xff0c;为企业提供政策支持和资源共享&#xff0c;…

【课程设计】基于python的一款简单的计算器

我们是大二本科生团队&#xff0c;主力两人耗时3天完成了这款计算器的制作。希望大家给我们多多引流&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 欢迎各位优秀的高考学子报考长安大学&#xff0c;报考长安大学电子信息工程专业。 欢迎有志于就…

手机数据恢复篇:如何从损坏的iPhone恢复数据

不知道如何在没有备份的情况下从损坏的iPhone恢复数据&#xff1f;阅读本文&#xff0c;您可以获得从损坏的iPhone中提取数据的详细步骤。 可能很多苹果用户都经历过上述场景带来的痛苦。意外事件经常发生&#xff0c;例如 iPhone 被液体损坏并从高处掉落。面对无响应的屏幕&a…

3DMAX选择相似对象插件使用方法

3DMAX选择相似对象插件使用教程 3DMAX选择相似对象插件&#xff0c;允许你选择与当前选定对象相似的对象。它将比较当前可见对象或场景中所有对象内的边界框大小、网格&#xff08;顶点、面、边数&#xff09;和材质。 【版本要求】 3dMax7及更高版本&#xff08;建议使用3dMa…

线性代数笔记

行列式 求高阶行列式 可以划上三角 上三角 余子式 范德蒙行列式 拉普拉斯公式 行列式行列对换值不变 矩阵 矩阵的运算 同型矩阵加减 对应位置相加减 矩阵的乘法 左边第 i 行 一次 相乘求和 右边 第 j 列 eg 中间相等 两边规模 矩阵的幂运算 解题思路 找规律 数学归纳…

基于大语言模型建模改变法律服务是否在速度和准确性上超越人类?

概述 人工智能&#xff08;AI&#xff09;在法律行业的发展为法律服务创造了新的可能性。然而&#xff0c;关于使用生成式人工智能和大规模语言模型&#xff08;LLM&#xff09;解决和发现法律问题的研究仍有很大的探索空间。尤其关键的是&#xff0c;要了解这些先进技术是如何…

生命在于学习——Python人工智能原理(3.2.1)

二、随机变量 2.1 随机变量及其分布 &#xff08;一&#xff09;基本概念 定义1 随机变量 随机变量表示随机试验各种结果的实值单值函数&#xff0c;即能用数学分析方法来研究随机现象&#xff0c;例如某一时间内公共汽车站等车的乘客人数、淘宝在一定时间内的交易次数等&am…

MySQL学习(5):SQL语句之数据查询语言:DQL

1.DQL语法 select 字段列表 from 表名列表 #DQL是可以进行多表查询的 where 条件列表 group by 分组字段列表 having 分组后条件列表 order by 排序字段列表 limit 分页参数 2.基本查询&#xff08;select&#xff09; 2.1查询多字段 select 字段1,字段2,字段3,......fro…

AI+BI:结合大语言模型实现对话式的智能报表系统

转自&#xff1a;AI产品经理研习与实践 引言&#xff1a;BI是什么、AI大语言模型结合BI有什么优势 AIBI的不同模式&#xff1a;主要关注在数据查询分析&可视化呈现环节 AIBI的实施挑战 产品实践&#xff1a;包括网易、百度、京东、腾讯以及观远数据、神策数据在AIBI上的…

vscode移动侧边栏到右边

vscode移动侧边栏到右边&#xff0c;的简单办法 直接在侧栏上单击右键&#xff0c;选择向右移动主侧栏

基于Hadoop平台的电信客服数据的处理与分析④项目实现:任务18: 数据展示

任务描述 接下来我们需要将根据业务需求将某人按照不同维度查询出来的结果&#xff0c;展示到Web页面上。 任务指导 数据展示模块流程图&#xff1a; 数据展示使用Java的SSM框架&#xff0c;需要实现的代码包括&#xff1a; 1. 实体类 2. 数据库操作 3. 业务逻辑操作 4.…