经典文献阅读之--SST-Calib(激光雷达与相机的同步时空参数标定法)

news2025/4/8 20:36:04

0. 简介

借助多种输入模态的信息，基于传感器融合的算法通常优于单模态。具有互补语义和深度信息的相机和激光雷达是复杂驾驶环境中的典型传感器配置。然而，对于大多数相机和激光雷达融合的算法，传感器的标定将极大地影响性能。具体来说，检测算法通常需要多个传感器之间的精确几何关系作为输入，并且默认传感器的时间戳是同步的。《SST-Calib: Simultaneous Spatial-Temporal Parameter Calibration between LIDAR and Camera》一文，提出了一种基于分割的框架来联合估计相机激光雷达套件校准中的几何参数和时间参数。

1. 主要贡献

这项工作提出了一个自动驾驶平台上激光雷达和相机之间的联合时空校准框架。所提出的框架的输入是相机和激光雷达帧的序列。这里，每个传感器模态都通过任意的语义分割网络进行处理，可以根据可用的训练数据进行选择。其次，将分割的LIDAR点云投影到语义图像上，计算新设计的双向对准损失，用于几何参数回归。不仅限于点对像素的损失，我们还对语义像素进行了点对点损失的下采样。估计两者之间的时间延迟，我们从两个连续的图像中估计视觉里程计，并预测用于匹配的偏移点云。本文贡献如下：

1、为激光雷达相机传感器套件提出了一种联合时空标定算法；

2、设计双向损失是为了在几何参数回归中获得更稳健的性能；

3、将时间参数与视觉里程计相结合，以估计传感器之间的时间延迟。

2. 主要方法

所提出的校准方法的工作流程如图1所示。校准过程包括用于空间初始猜测的静态空间参数校准模块和用于双参数估计的联合时空参数校准模块。

所提算法的输入是一个点云扫描 $P_k ∈ \mathbb{R}^{3×N_p}$ ，以及两个连续的RGB图像 $\{I_{k+δ}, I_{k+δ−1}\} ∈ \mathbb{Z}^{N_h×N_w×3}$ 。其中 $N_p$ 是扫描中的点数， $N_h$ 和 $N_w$ 是图像的尺寸。算法的目标是估计几何关系的6自由度 ${R, t\}$ （其中 $∈\mathbb{R}^{3×3}，t ∈ \mathbb{R}^3$ ）和 $P_k$ 与 $I_{k+δ}$ 之间的时间延迟 $∈\mathbb{R}$ 。

为了实现这一目标，我们首先通过任意语义分割算法处理 $P_k$ 和 $I_{k+δ}$ ，以获得语义掩码 $P_{m,k}$ 和 $I_{m,k+δ}$ 。然后，利用粗略测量或采样得到的初始外参猜测 ${R_{init}, t_{init}\}$ 和已知的内参 $\mathbb{R}^{3×3}$ ，将激光雷达点云投影到相机图像平面上。通过找到点到像素和像素到点的最近邻，计算它们之间的欧氏距离，这是优化算法的损失函数。

第一次优化迭代（静态空间参数校准模块）将在车辆速度几乎为0的帧上进行。静态空间参数校准给出了旋转和平移的初始估计 $\{\hat{R}^{static},\hat{t}^{static}\}$ 。这个估计将被用作联合时空参数校准的初始猜测和正则化参考。

其次，对于动态场景，我们从视觉里程计中估计 $I_{k+δ}$ 和 $I_{k+δ−1}$ 之间的时间信息，该里程计将预测两个相机帧之间的速度 $\hat{v}_k ∈ \mathbb{R}^3$ 。在这里， $P_k$ 和 $I_{k+δ}$ 之间的平移偏移可以表示为 $t_{δ,k} = \hat{v}_k · δ$ 。我们将 $\hat{v}_k$ 作为优化的一部分，并估计 $\hat{δ}$ 和 $\{\hat{R}, \hat{t}\}$ 。

在这里插入图片描述

图1：所提出的校准方法的工作流程

2.1 语义分割

通过现成的语义分割模块，所提出的方法可以适用于具有语义标签的任何数据集。在本文中，我们分别使用SqueezeSegV3[26]和SDC-net[27]进行点云和图像的语义分割。考虑到城市环境中车辆的频繁出现，在这项工作中，我们只使用车辆类别进行语义分割。将这些语义分割模块应用于输入，我们得到语义掩码 $P_{m,k}$ ， $I_{m,k+δ}$ 。

2.2 点云投影

为了计算语义损失，我们首先将点 $p_{i,m,k} ∈ P_{m,k}（p_{i,m,k} ∈ \mathbb{R}^3）$ 的语义掩码投影到二维图像平面上。根据经典的相机模型[28]，我们可以通过以下方式实现投影

在这里插入图片描述

在这里， $pu_{i,m,k}$ 和 $pv_{i,m,k}$ 是投影点 $\tilde{p}_{i,m,k}∈\mathbb{R}^2$ 的图像坐标。

2.3 双向损失（重点内容）

让 $\tilde{p}_{1,m,k}…\tilde{p}_{n_p,m,k}$ 成为在相机视野内的一组投影的LIDAR点。现在对于投影点 $\tilde{p}_{i,m,k}$ ，让 $q_{j,m,k+δ}∈I_{m,k+δ}$ 成为相同类别的最近邻像素。然后，可以如下计算第 $k$ 帧上的单向点到像素（点到图像）语义对齐损失：

在这里插入图片描述

在这里，损失是根据每个投影点计算的。图2a展示了点到像素损失计算的过程。正如[10]所示，通过最小化这个损失函数，我们可以使得投影点云与具有相同语义标签的像素很好地重叠。因此，最小化这个损失函数可以使我们得到正确的 $\hat{E}_{static} = \{\hat{R}_ {static}, \hat{t}_{static}\}$ 估计。然而，当外参矩阵的初始猜测与真值显著不同时，最近邻匹配并不一定能给出大多数配对的适当匹配结果，并且一些重要像素的信息将被丢弃。因此，最小化单向损失会陷入不适当的局部最小值。

在这里插入图片描述

图2：双向投影演示：这里，蓝色圆圈对应投影点，橙色方块代表图像像素。黄色方块突出显示了下采样的像素。

为了避免信息的丢失，我们提出了一个双向损失，也利用了像素到点（图像到点）最近邻匹配（图2b）。考虑到一个图像中有太多像素需要实时匹配，我们对像素进行了下采样以进行像素到点匹配。设 $\{\tilde{q}_{1,m,k+δ}…\tilde{q}_{n_i,m,k+δ}\} ⊂ I_{m,k+δ}$ 为下采样像素的集合。现在对于像素 $\tilde{q}_{i,m,k+δ}，\tilde{p}_{j,m,k} ∈ P_{m,k}$ 是最近邻的投影点。那么，第 $k$ 帧上的像素到点语义对齐损失可以计算如下：