穿梭虚实之间：3DGS与NeRF如何辅助机器人遥控操作？

导读：

本研究介绍了一种用于机器人遥控操作的新型辐射场可视化技术，研究者提出了一种在线训练辐射场的方法，能够实时从多个摄像头获取数据，支持多种辐射方法，包括NeRF和3DGS。该系统与现有的ROS遥控操作系统集成，并通过传统的工具和VR头显进行展示。通过与基于网格重建的基线方法进行定量比较，并进行用户研究，验证了不同可视化方法的效果。©️【深蓝AI】编译

1. 摘要

NeRF和3DGS等辐射场方法已经彻底改变了计算机图形学和新视点合成领域。它们能够生成逼真的新视角图像，并捕捉复杂的体积效果和高光场景，使其成为机器人远程操作环境中理想的可视化工具。直接使用摄像机进行远程操作能够提供高保真度的图像，但代价是机动性较差。相比之下，基于重建的方法则能提供较高的场景控制性，但图像保真度相对较低。本研究采用在线辐射场取代机器人远程操作流程中的传统重建可视化方案，提供了具有逼真质量的高操作性场景。本研究使用来自多个摄像机的实时数据的辐光场的在线训练，支持各种辐射场方法，包括NeRF和3DGS，并对这些方法进行可视化，在虚拟现实场景进行展示。为了实现与现有设备的无缝集成，该方法在多种配置下与多个机器人进行了测试，并使用传统工具和VR头显进行了展示。

本研究还将相关结果定量地与网格重建方案进行比较，并进行用户研究以比较不同的可视化方法。

本研究的主要贡献如下：

●实时多摄像头数据融合：开发了一种创新性的在线训练框架，该框架能够实时从多个摄像头捕获数据，并将其融合为辐射场，从而为遥控操作提供高保真度和高机动性的三维场景表示；

●多样化辐射场方法的集成与优化：研究不仅涵盖了现有的神经辐射场（NeRF）技术，还引入了3DGS等新型辐射场渲染技术，并通过系统优化，实现了对这些先进方法的深度集成和支持；

●跨平台可视化工具的开发：设计并实现了一套兼容多种现有遥控操作平台的可视化工具集，包括对辐射场方法的虚拟实景（VR）场景展示，极大地增强了用户界面的沉浸感和直观性；

●推动遥控操作与辐射场技术的融合：本研究不仅在遥控操作领域提出了新的技术解决方案，还为辐射场技术在机器人学中的进一步应用开辟了新的研究方向。

2. 架构方案

理想的远程操作系统应向操作员提供场景的高保真、可操作和真实的表示。该系统应与机器人类型无关，并能够根据任务最佳地呈现环境数据——传感器数据流或重建数据。如图1所示，一般遥操作可视化系统分为三个部分：机器人、重建方法、可视化。传感器和姿态数据从各种机器人组件（红色）流向重建方法（绿色），以创建在可视化器(蓝色)中显示给用户的场景表示。这种方法支持辐射场重建，如NeRF和3DGS，生成相对于固定位置的环境表示，通过可视化工具（RViz和VR可视化器）呈现给操作者。通过相对于固定点构建表示，即使机器人在空间中移动，也可以显示和对齐额外的数据。

图1｜遥操作可视化系统©️【深蓝AI】编译

换言之，可以将该系统简化为三个组件：机器人及其传感器、重建方法和可视化系统。

本研究介绍了一个基于现有远程操作框架的系统，扩展基于辐射场三维重建方法的可能性，并提供了在屏幕和虚拟现实中可视化这些方法的手段，如图2中的紫色虚线框所示。该系统经过多种机器人测试，包括一个简单的静态配置、一个能够探索更大环境的移动四足机器人以及一个附带机械臂的四足机器人。机器人收集到的数据首先被用于现有的网格重建系统，作为基线处理，然后新增了一个支持NeRFs和3DGS辐射场的ROS节点。这些重建方法可以在多个可视化工具中使用，如屏幕上的2D RViz窗口以及VR头显中的2.5D和3D视图。根据部署和任务的不同，该系统的每个组件都可以交换或重新配置。

图2｜Radiance Field VR场景与2.5D手持视差观看器（左）和完全沉浸360度（右）©️【深蓝AI】编译

■2.1 机器人及其传感器

在本文所提出的系统中，机器人的主要目的是捕捉环境信息，并帮助用户了解场景。为实现这一目标，系统使用的数据主要来自以下三种形式：ROS的TF系统提供的姿态信息、机载相机捕获的彩色图像、以及包含深度和颜色信息的RGBD图像。

为了确保系统具有通用性，能够适应不同机器人的部署，这些数据源必须易于配置。图2和图3中的“机器人”框左侧展示了输入的数据源，其中红线表示图像数据，橙色表示点云数据，黄色表示来自TF系统的姿态信息。

图3｜遥操作可视化系统数据流©️【深蓝AI】编译

最简单的机器人配置是一个固定在地面上的装置，如连接在桌子上的机械臂。这种机器人在扫描目标物体或大规模场景时，机动性有限。但机器人基座是固定的全局框架，因此能够提供更加精确的姿态信息。这种配置虽然在场景规模和视角上有所限制，但在重建精度方面具有极强的可靠性。对于需要捕捉更大、更复杂场景的应用，可以使用移动机器人。这类机器人能够在环境中移动，并从不同角度获取数据。然而，由于机器人与固定的全局框架之间的相对位置不确定，因此需要通过同步定位与地图构建（SLAM）系统，如CompSLAM，来对其在环境中的位置进行定位。由于移动机器人依赖于机载传感器，而这些传感器在运动过程中可能会产生漂移，导致姿态信息不总是可靠。尽管移动机器人覆盖的范围更广，但姿态精度可能会受到影响。一种既能确保高姿态精度，又具备机动性的方法是将机械臂安装在移动平台上。在这种配置下，机器人可以在场景中移动以获得不同的视角，主要依靠机械臂的运动来收集数据，而基座保持静止。因为基座是固定的，机械臂末端执行器的运动可以通过精确的关节传感器进行测量，避免了视觉或激光雷达定位可能带来的误差。这样既能覆盖更大的场景，又能保持数据的高精度。

■2.2 重建方法

一旦机器人捕获相应数据后，随即将这些数据传递到一个重建系统中。该阶段的目的是将多个数据流整合为一个单一的数据流，供操作员来控制机器人。这一过程会涉及到创建一个几何和纹理上都高度保真的表示模型。本文比较了场景重建问题的两种主要解决方案：通过Voxblox进行的网格重建和通过NerfStudio进行的辐射场重建。在图2和图3中，这两个ROS节点在“重构方法”部分以绿色标示。Voxblox节点使用传入的姿态数据和点云生成输出网格，而NerfStudio节点则从姿态和图像数据中生成渲染的辐射场。由于网格重建难以捕捉复杂的体积场景，并且在快速重建和高保真度之间存在权衡，为此在机器人远程操作中使用辐射场重建方法更为合适，而辐射场重建主要是通过轻量级的机器学习算法来学习场景的表示。

为了确保与新方法的兼容性，系统中的辐射场训练节点可以配置为使用NerfStudio支持的几乎所有方法。为保证这种兼容性，NerfStudio节点中的自定义组件数量被尽量减少，只要所选方法不依赖于自定义数据集（如语义模型）或自定义DataLoader即可适配。

该节点支持NerfStudio的3DGS方法——Splatfacto，这是一种资源开销最小的方案。在初始化时，系统会为这个自定义数据集分配一个预设大小的缓冲区，用于存储所有训练所需的图像。接下来，节点会为每个相机订阅一组主题，以捕获其图像（无论是RGB还是RGBD），并记录其特征和姿态信息。如果所有相机都包含深度信息，那么系统将分配一个特殊缓冲区来存储深度图像，以便与深度监督模型集成。每张传入的图像都会经过筛选，以确保其不模糊，并且基于TF帧之间的平均距离，姿态差异足够明显。如果相机分辨率不同，所有图像将调整为最大相机的分辨率，并在批处理时统一缩小。在实验中，图像在训练前会以1440p存储，并将720p图像缩放至相应大小。根据当前的姿态数据和最新的CameraInfo消息，系统会存储每张图像在相应相机中的内参和外参。如果图像已被校正，系统将自动将相机的畸变参数设置为零，以避免重复校正。

为了确保与其他方法的兼容性，本研究使用了一个自定义的ROS变体覆盖DataLoader，该变体跳过了通常执行的缓存和整理过程，使用ROS Datasets函数来确保只提取最新的图像进行训练。还有一个特殊的评估DataLoader，它接受图像序列ID列表，以确保在多次运行中使用相同的图像。这在跨预录ROS包数据进行对比时尤其有用。此外，本方法还使用自定义的DataParser来设置ROS Dataset，并通过helper Sensor类管理ROS订阅者。Sensor对象负责管理图像和CameraInfo消息的订阅，并在每次捕获时同步姿态。

使用这个辅助类可以注册多个相机，每个相机以不同速率捕获数据。Sensor对象只会更新相关的数据条目，并将相应的相机参数传递给系统的其余部分。图3展示了整个数据流，其中所有自定义组件以紫色标示，Sensor辅助类以黄色标示。完成设置后，节点会捕获若干图像以创建初始批次，然后切换到在线训练模式。一旦节点进入在线训练模式，它将继续接收新图像直到达到指定的缓冲区大小，并启动一个ActionServer，使任何ROS进程都可以请求渲染数据。渲染请求包含视图姿态，发送到服务器后会返回渲染图像以及估计的场景深度。这些渲染图像随后会被发送到其中一个可视化器，供远程操作员进行交互。此外，请求与唯一的客户端ID关联，允许多个可视化器在ROS网络中使用单个辐射场节点请求不同的渲染数据。

■2.3 可视化系统

系统的最后一个阶段是可视化器，它的作用是根据从重建方法获得的数据，为操作员提供一个准确的世界表示。在图2和图3中，这一部分以蓝色标示。本研究开发了自定义的Radiance Field RViz插件用于2D可视化，并利用VR场景实现2.5D和3D可视化。为了进行基线方法比较，还使用了Voxblox的RViz插件来展示网格重建的结果。

◆Rviz

RViz 是 ROS 的可视化套件，能够可视化各种传感器数据流，如点云、机器人模型和图像。此外，它还提供工具，帮助用户直接通过系统发送命令，例如设置姿态目标。RViz 支持第三方插件，这使得诸如 Voxblox 之类的重建方法可以实现自定义查看器，从而将新的环境数据与现有的机器人和远程操作系统无缝集成。

为了将在线生成的辐射场与ROS无缝集成，本研究开发了一个辐射场RViz插件。该插件作为RViz OpenGL场景中的自定义相机，每当相机移动（动态模式）或处在基于移动帧的渲染流状态（连续模式）时，都会向Radiance Field节点发送渲染请求。动态模式最适合从静止角度观看场景，例如用于导航的俯视图或检查的特写视图。相比之下，连续模式更适用于移动的基础框架，比如第三人称驾驶，或在需要观察新传入数据时使用。

在任何模式下，渲染速度通常主要取决于输出图像的分辨率，这可以通过视图面板中的设置进行调整。为了在动态模式下提供更快的响应，渲染首先以最终分辨率的10%进行预览，接着再发送50%的中等分辨率图像，最后再发送完整的高分辨率图像。

这种分步渲染方法使用户能够更快速地浏览场景，同时保持良好的视觉反馈。

RViz 和辐射场提供的深度数据可用于使渲染图像在场景元素中实现真实的遮挡效果，或以剪切模式显示，如图4所示。这通过将渲染中捕获的真实世界深度转换为OpenGL的z深度（一个从0到1的非线性比例）来实现。然后，这个转换后的深度可以与RViz的Ogre引擎（同样基于OpenGL）为特定相机视角使用的z深度相匹配。结果是，RViz中的所有对象（如机器人、传感器可视化、网格和姿态）都能准确地被遮挡，从而提供更逼真的可视化效果。这种方法旨在让操作员更好地理解环境中的深度，同时更容易在场景中定位RViz组件。在大型或室内场景中，还提供了一种剪切模式，在该模式下，渲染的图像始终显示在RViz元素的背后，使这些元素更容易被识别和定位。

图4｜RViz插件基于场景深度遮挡机器人的示例（左），并将机器人渲染在最外图层（右）©️【深蓝AI】编译

此外，由于3DGS和NeRF都执行体积渲染，可能会因为遮挡或未探测到的噪声导致自我定位困难。为了解决这个问题，插件允许创建一个轴对齐的边界框，通过限制光线积分来裁剪场景，如图5所示，边界框用于去除噪声背景以及会阻挡操作员视野的后墙（见图8）。这些渲染图像都是全新的视角，因为机器人要么由于墙壁的存在，要么由于机械臂活动范围的限制，无法捕获到这些视角。

▲图5｜轴对齐的边界框可用于裁剪背景（左）或移除墙壁（右），从而实现新颖的视图和更清晰的操作©️【深蓝AI】编译

◆VR

在测试中发现，即使是在合理设置图层覆盖的情况下，操作员在观看2D屏幕时也很难感知深度。为了解决这一问题，本研究将该系统移植到了Meta Quest 3 VR头显上，并使用Unity场景来展示机器人数据。这一研究利用VR扩展了现有遥控系统的能力，以实现更大的沉浸感和更高的易用性。

VR 机器人数据：为了建立与基线方案的对比，将若干RViz特性（如TF同步的机器人模型、姿态发布和传感器可视化，包括LiDAR、RGBD点云和图像）集成到VR头显中，如图6所示。用户可以通过头显和手部交互发送姿态目标，从而直接从VR界面发送机器人命令。系统还扩展了基于移动GPU的网格生成，实时流式传输Voxblox重建结果。这样，用户在沉浸式的3D环境中可以访问与RViz相同的传感器信息。为了保持轻便，VR场景经过优化，能够在头显上本地运行，只通过TCP连接与ROS处理消息传输。这使得头显可以直接连接到机器人的ROS网络，无需基站PC或任何头显电缆。

在这里插入图片描述
▲图6｜远程操作员使用VR系统，桌面上是Voxblox网格，左边是Radiance Field Viewer，实时LiDAR数据覆盖在网格重建上©️【深蓝AI】编译

VR 辐射场：为了使用辐射场渲染，本研究设计了一个2.5D手持查看器，让用户可以查看渲染的虚拟世界。这个查看器利用深度数据创建视差效果，使VR头显在显示渲染图像时能有更强的纵深感。类似于RViz相机，该查看器可以在用户移动头部时请求新的渲染，并与场景中的机器人数据同步。请求通过TCP连接直接发送，渲染结果实时传输到GPU着色器进行视差渲染。为了增强沉浸感，查看器还提供了360°球形渲染，让用户仿佛身临其境。它还包括图像缩放、分辨率调整和来自机器人实时摄像头的画面等控制功能。图7展示了手持辐射场查看器的使用情况以及球形渲染模式的视图。类似于 RViz 插件，辐射场的深度数据也用于动态遮挡场景，使得接近的3D对象（如机器人或点云）能够显示在辐射场渲染图像的前面。

在这里插入图片描述
▲图7｜Radiance Field VR场景与2.5D手持观看器（左）和360°球形渲染（右）©️【深蓝AI】编译

3. 实验验证

研究者进行了三部分实验：

首先，在静态机械臂、移动底盘和移动机械臂上捕获数据，以确保机器人无关的操作并比较不同的重建方法。每个数据集都使用Voxblox、NeRF和3DGS进行处理，并评估了光度质量。其次，测试在线操作时，测量了重建和渲染的时间。最后，为了验证观赏体验，进行了用户研究，比较了RViz网格和NeRF渲染图像与其VR对应版本的效果。

■3.1 数据集设置

静态机械臂：使用静态的弗兰卡Panda机械臂和英特尔Realsense 435i RGBD相机进行测试。机械臂固定在金属桌上，桌子的两侧有墙壁，将扫描区域缩小到20cm×20cm。这一区域的第三面由于安装位置的限制无法探索，前方的扫描范围被限制在90°的方位角内。扫描了三个目标物体：一个毛绒玩具驴子、一个基准立方体和一个木块。毛绒玩具用于测试高频细节，基准立方体用于检查纹理准确性，木块用于验证三维几何重建。

移动底盘：使用Anybotics Anymal在大型实验室环境中进行测试。实验室的规模大约为15m×10m，由前置和后置的1440p RGB相机进行拍摄。使用CompSLAM进行定位，并以机器人绕着的木基座为中心进行扫描。基座上放置了一个玻璃碗，用于测试每个系统的透明和镜面反射重建能力。

移动机械臂：DynaArm连接到Anybotics Anymal上，并在手腕上安装了额外的英特尔Realsense L515相机。捕获的目标是一个黄色的配电柜，柜子中间有一根金属棒，里面有一个带屏幕和开关的盒子。测试区域大约为1m×1m，从正面拍摄。

Anymal用手臂扫描2米远的区域，然后移动并捕捉盒子内部。当手臂移动到盒子内部时，照明条件会有轻微变化，以测试系统对动态颜色的适应能力。

■3.2 重建质量

为了确保平台具备机器人无关性，进行了三种不同的部署。所有三种设置均使用相同的参数进行训练，分别应用了Voxblox、Nerfacto和Splatfacto，其中Nerfacto和 Splatfacto是NerfStudio的默认NeRF和3DGS方法。根据峰值信噪比（PSNR）、结构相似性指数（SSIM）和学习的感知图像补丁相似性（LPIPS）对每种方法进行了评估。PSNR用于测量场景中的伪影，SSIM测量特征如光照和对比度的相似性，而LPIPS测量图像补丁的网络激活，近似人类对相似性的判断。图8展示了真实图像、基准 Voxblox 重建、NeRF和3DGS 重建结果，表1则展示了光度比较，其中每个数据集表现最佳的方法用粗体显示。

静态机械臂：由于Panda臂数据的姿态几乎完美，能够产生非常高纹理保真度的结果。图8中基准立方体的标记清晰可见。由于缺乏运动，场景的外围视图受限，导致NeRF重建质量较低。然而，小型场景使3DGS重建的质量非常高，因为场景初始化良好，高斯分布密集地覆盖了整个空间，几乎没有多余部分。在所有指标（PSNR、SSIM 和 LPIPS）中，3DGS重建的表现是NeRF的两倍。尽管捕获的区域表现尚可，但Voxblox还是生成了一个不完整的网格，在所有指标中得分最低。

移动底盘：辐射场技术，尤其是NeRF，在距离场景中心较远的区域容易出现射线稳定性问题，导致噪声增加。而Voxblox网格技术，在捕捉远距离数据时也会遇到困难，常常生成不完整的重建结果。在训练过程中，NeRF方法通过姿态优化平滑了噪声，获得了最佳结果。

移动机械臂：配电柜在NeRF和3DGS重建中产生了最高质量的LPIPS结果，代表了人类感知的最高质量。Voxblox成功重建了大部分场景，但未能捕获支撑梁和部分门。此外，在进入柜子时光照会发生变化，导致网格颜色不均匀。辐射场通过视图相关的着色捕获了这些变化，如表1所示，3DGS在PSNR和SSIM上优于NeRF，可能是因为其与球面谐波的颜色匹配效果更好。

■3.3 性能表现

在线机器人遥控操作需要快速的重建和可视化，为此，研究者们在RTX 4090上比较了每种方法的重建和渲染时间。为了确保运行和比较的可重复性，首先记录了数据，并将图像的序列ID存储在一个文件中。然后在执行过程中使用这些序列ID创建数据集，确保每次运行中使用相同时间戳的相同图像。

首先，研究人员测量了每次迭代的时间。对于Voxblox，这是将新批次与网格集成的时间；对于辐射场方法（Radiance Fields），这是一次迭代的训练时间。Voxblox在1cm体素大小下，每批整合时间为1.2秒。对于NeRF和3DGS，迭代时间分别为35.644毫秒和34.651毫秒。此外，为了公平比较，训练辐射场方法直到它们匹配最终的Voxblox PSNR（16.94dB）。其中，NeRF花费了7.027秒，而3DGS花费了6.996秒。辐射场方法不仅生成了更高质量的结果，而且处理速度几乎快了20倍。

其次，作者考虑了渲染时间。在Voxblox显示不断更新的网格时，其渲染速率被限制为每秒30帧。相比之下，NeRF 和 3DGS 在渲染一个完整的1024×1024图像时表现不同：NeRF 需要1020.13 毫秒（0.98 FPS），而3DGS仅需6.63毫秒（151 FPS）。在不同分辨率下，3DGS 的渲染时间稳定在约6.23毫秒，而NeRF在更高分辨率下的渲染时间显著增加。这一关系如图9所示。对于需要快速渲染的应用场景，显式表示如网格和3DGS是首选，因为它们能够更好地适应更高的分辨率和更大的屏幕。

■3.4 用户研究

本研究针对用户体验进行了调研，调研涉及20名参与者，以比较不同的可视化系统。参与者来自对机器人系统较为熟悉且经常使用 RViz 的群体，年龄在22到32岁之间，平均年龄为26岁，包含5名女性和15名男性，且只有5人之前使用过VR系统。他们评估了图8中的移动手臂数据集，并将2D的RViz Voxblox和NeRF场景与VR对应版本进行了比较，结果见图10。选择这个数据集是因为它具有最高的光度评分（见表1），因此质量最佳。为了避免混淆，由于Radiance Fields、NeRF和3DGS 都通过相同的用户界面呈现，因此每次只向用户展示一种方法。选择NeRF进行比较是因为它在LPIPS中得分高于3DGS，LPIPS最能接近人类感知的质量。在测试的分辨率下，NeRF和3DGS之间的渲染时间差异不明显。

在感知方面，NeRF比Voxblox重建更受欢迎，VR NeRF的评分略高于RViz 版本。这与表1中的光度比较结果一致，Radiance Fields生成的结果质量高于网格。值得注意的是，尽管VR系统显示的数据与RViz相同，但VR系统始终提高了感知质量。这是由于VR系统的沉浸感增加的深度帮助了几何感知，而头戴式光学器件提高了纹理质量。此外，VR 头显的光学系统使得低分辨率图像看起来更大、高分辨率更高，从而降低了系统的渲染延迟。

在遥操作任务中，Voxblox的3D网格在VR和RViz中更受欢迎，因为用户能够更容易地看到机器人与环境的相对位置。然而，在操控任务中，RViz的NeRF比Voxblox更受欢迎， VR系统的表现大致相同。在这些任务中，感知能力和读取细节的能力至关重要，NeRF系统在这些方面表现更佳，许多VR用户表示，他们更愿意使用3D NeRF来获得理想的设置。未来可以通过利用3DGS的显式表示，直接展示3D中的高斯体，而无需2.5D观察器来解决这一问题。

最后，尽管许多用户第一次尝试VR，但VR系统在可用性方面优于RViz对应系统。Voxblox系统更易于操作和探索，因为直接的3D表示更为直观。RViz NeRF的叠加和手持查看器需要时间适应，但在识别场景中的物体方面表现更好。

在这里插入图片描述
▲图10｜使用移动臂数据集和VR Voxblox（绿）、VR NeRF（蓝）、RViz NeRF（橙）、RViz Voxblox（红）四种观看模式的用户研究结果。平均值用黑色虚线表示，而中位数用黄色实线表示。在不同条件下，VR系统比2D系统更受青睐，而NeRF在感知和操作方面更受青睐，Voxblox在运动和可用性方面更受青睐©️【深蓝AI】编译

4. 结论

本研究展示了通过集成多摄像机的辐射场可视化组件、引入动态支持的新重建方法以及VR技术，为机器人远程操作领域带来的显著进展。实验结果证明了该系统在不同应用场景下的有效性和通用性。首先，系统展示了其对不同机器人部署的适应性，从静态手臂到配备多个摄像头的移动基地。在每种设置中，辐射场生成的重建质量都优于网格。其次，3DGS的渲染速度显著提高，使其能够与在线网格渲染媲美，且所需时间更少，质量相同。最后，用户研究表明，参与者对辐射场的质量优于传统网格的偏好明显，尤其在操作任务中更受欢迎。VR 系统提供了更好的体验，表明在VR 环境中使用直接3DGS辐射场将是理想的远程操作解决方案。
©️【深蓝AI】

Ref：
Radiance Fields for Robotic Teleoperation

编译｜唐僧洗头用飘柔
审核｜Los

本文首发于微信公众号【深蓝AI】，移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能自动驾驶+机器人+AI