EN-SLAM：Implicit Event-RGBD Neural SLAM解读

论文路径：https://arxiv.org/pdf/2311.11013.pdf

1 论文背景

2 论文概述

2.1 神经辐射场（NeRF）

2.2 事件相机（Event Camera）

2.3 事件时间聚合优化策略（ETA）

2.4 可微分的CRF渲染技术

3 EN-SLAM模型

3.1 统一的隐式场景表示

3.2 辐射场分解

3.3 可微分CRF渲染

3.4 追踪与捆绑调整

3.5 损失函数

4 数据集

5 实验

5.1对比实验

5.2 消融实验

5.3 全场景建图的对比

6 未来工作

6.1大规模室外场景

6.2 依赖深度信息

6.3 长距离轨迹

1 论文背景

EN-SLAM出自今年CVPR的Highlight名单，由上海AI Lab等机构联合提出的首个事件-RGBD隐式神经SLAM框架。EN-SLAM通过共享可微的相机响应函数（CRF）渲染技术，基于事件和RGBD监督学习，进行相机位姿和地图的体渲染优化，有效解决运动模糊或光照变化等非理想场景中，SLAM算法产生的定位漂移、地图失真等问题。

2 论文概述

2.1 神经辐射场（NeRF）

论文中建立在NeRF-SLAM框架上，引入最新的场景重建技术NeRF，通过神经辐射场提高建图质量。相较于传统SLAM框架在单目深度估计中深度特征图的参数难以使用来恢复几何和光度优良的3D map，使用单目稠密SLAM来提供位姿，深度特征图和概率分布，而将NeRF框架用作建图工作，可以实时构建环境辐射场，利用NeRF中提出的基于不确定性的深度估计损失来实现良好的光线和几何恢复。

下图来自于NeRF-SLAM的损失函数，在原有RGB传感器颜色损失基础上（L2范数），引入光照和几何参数。

λD:平衡颜色和深度监督参数

LD:计算深度图和不确定性深度图的损失（L2范数）

2.2 事件相机（Event Camera）

对于以往的SLAM框架，甚至是最新的NeRF-SLAM仍然没有解决的问题，大多数是为光线优良的情况场景而设计，在低光照条件，或受到运动模糊或光照变化等问题，往往容易导致收敛失败。主要原因在于单一的使用了RGB传感器。

而本文中基于RGB和事件相机结合的NeRF结构进行重建。

为什么引入了事件相机？事件相机较于RGB相机（传统快门相机）的优势？

事件相机：使用了一种高动态范围(HDR)传感器,它不会捕捉整个图像帧,而是仅捕捉场景中发生变化的像素点。这些变化被称为“事件”，每个事件包含像素位置、时间戳和光强度变化的信息。

相较于传统相机，事件相机的优势：

（1）高时间分辨率和低延迟:事件相机能够以微秒级的时间分辨率捕捉场景变化,响应速度非常快,适用于高速运动场景，大大改善运动模糊问题。

（2）高动态范围:事件相机能够捕捉高对比度场景中的细节信息,避免了过曝或欠曝的问题。

（3）鲁棒性:事件相机对光照变化和运动模糊等环境因素更加鲁棒,在恶劣环境下仍能保持良好的性能。

2.3 事件时间聚合优化策略（ETA）

对于传统使用事件相机的SLAM中，并没有很好的将事件数据与RGB数据高度融合，传统方法引入了基于特征的方法（如USLAM）、直接方法（如EDS），运动补偿方法（如InteriorNet）均存在一些问题。

基于特征的方法：存在运动模糊和光照变化的复杂环境中,缺乏足够的视觉特征,导致跟踪和重建性能下降。

直接方法：对于精确的相机姿态和细致的优化要求较高,难以与事件数据和RGB-D数据有效集成。

运动补偿方法：无法充分利用事件数据的时间差异特性,无法提供高效的连续差异约束,从而限制了性能的提升。

相较于传统方法，本文EN-SLAM引入了事件时间聚合优化策略,有效利用了事件数据的时间差异特性,大幅提高了跟踪和重建的性能。

2.4 可微分的CRF渲染技术

Differentiable CRF是EN-SLAM模型用于融合事件数据和RGB数据的一种技术，本文先建模RGB颜色场，并使用事件生成模型推导事件亮度场，并将统一的神经辐射场分解成的RGB场和事件亮度场两个可微分的色调映射过程，再依据这两个场利用CRF技术重新渲染最终的3D建图的亮度、深度、RGB。

这一方法，也有效地解决了事件和RGB数据之间的差异，并在真实场景和黑暗场景下均可以渲染出HDR的亮度结果和更准确的网格结构，提高系统的鲁棒性和性能。

3 EN-SLAM模型

EN-SLAM模型（the first event-RGBD implicit neural SLAM framework）,该模型输入RGB图像、RGBD深度图像和事件数据，最终输出Depth、RGB、Luminance三个图，并根据这三个图计算损失函数反馈模型，优化参数。生成模型的输出为三个特征图的融合得到的高质量的三维重建结果以及相机姿态估计。