【论文笔记】Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting

原文链接：https://arxiv.org/abs/2302.13130

1. 引言

运动规划需要预测其余物体的运动，但相应的感知模块如建图、目标检测、跟踪和轨迹预测通常都需要大量人力标注HD地图、语义标签、边界框或物体的轨迹，难以扩展到大型无标签数据集上。3D点云预测是一种自监督方法，但其算法隐式地捕捉传感器的外参（自车运动）、内参（激光雷达的采样模式）和其余物体的形状与运动。但自动驾驶系统需要预测的是环境而非传感器本身，因为自车能够获取未来运动规划（外参）和校准的传感器参数（内参）。

3D点云预测即输入过去时刻的点云，预测未来时刻的点云。通常输入与输出点云均表达在传感器坐标系下。

本文将点云预测任务修改为时空（4D）占用预测，以排除传感器内外参。这能够解耦并简化点云预测的形式。由于获取4D占用标注很困难，本文根据给定的内外参，从4D占用预测中“渲染”点云（因此本文也可以视为一种新视图合成方法）。实验表明，本文的方法能大幅超过SotA的点云预测方法，且能进行零样本跨传感器泛化。

3. 方法

自动驾驶汽车会记录大量的无标注激光雷达点云序列 $X_{-T:T}$ ，也可同时估计各帧的传感器相对位置 $o_{-T:T}$ 。假设将序列分为过去部分（ $- T : 0$ ）和未来部分（ $0 : T$ ）。

标准的点云预测方法（记为函数 $g$ ）将历史序列 $X_{-T:0}$ 作为输入，预测未来的点云序列 $\hat{X}_{1:T}$ ：
$\hat{X}_{1:T}=g(X_{-T:0})$

设 $x\in X_t$ 为第 $t$ 帧点云中的一个点，其射线原点为 $o_t$ ，射线方向为 $d$ ，距离为 $\lambda$ ，则：
$x=o_t+\lambda d,x\in X_t$

本文的方法（记为函数 $f$ ）输入未来 $t$ 时刻的一条射线（由原点与方向 $o_t,d)$ 表达），基于过去的点云序列 $X_{-T:0}$ 和传感器位置 $o_{-T:0}$ 预测射线传播的距离 $\hat{\lambda}$ ：
$\hat{\lambda}=f(o_t,d;X_{-T:0},o_{-T:0})$

这一公式与NeRF类似，只是预测的为深度而非辐射。

时空（4D）占用：本文将时空占用定义为特定时间下某3D位置处的占用状态。设 $z$ 为真实的时空占用状态（可能因为遮挡而无法直接观测）， $\mathcal{V}$ 为有界时空体，被离散化为时空体素 $v$ 。则可以使用
$z(v)\in\{0,1\},v=(x,y,z,t)\in\mathcal{V}$
来表达体素 $v$ 的占用情况，其中1表示被占用，0表示未被占用（空）。

实际中，可以使用占用预测网络 $h$ （参数为 $w$ ），根据历史的点云与传感器位置序列，预测离散时空4D占用：
$\hat{z}=h(X_{-T:0},o_{-T:0};w)$
其中 $\hat{z}[v]\in\mathbb{R}_{[0,1]}$ 表示体素 $v\in\mathcal{V}$ 的预测占用状态。网络结构见附录。
在这里插入图片描述
从占用进行深度渲染：给定射线查询 $x=o+\lambda d$ ，首先通过体素遍历计算其与占用网格如何相交，如上图所示。假设相交的体素列表为 $\{v_1,\cdots,v_n\}$ ，首先将射线离散化为其与体素边界的交点（假定射线仅能落在体素边界或无穷远处），然后假设 $v_i$ 的占用为射线离开 $v_{i-1}$ 在 $v_i$ 处终止的条件概率，则从原点出发的射线停止在 $v_i$ 的概率为：
$p_i=\prod_{j=1}^{i-1}(1-\hat{z}[v_j])\hat{z}[v_i]$
然后可计算射线的期望距离：
$\hat{\lambda}=f(o,d)=\sum_{i=1}^np_i\hat{\lambda}_i$
其中 $\hat{\lambda}_i$ 为射线在 $v_i$ 处终止时的距离。

训练时，允许虚拟终止点落在真实网格外，即：
$\hat{\lambda}=f(o,d)=\sum_{i=1}^np_i\hat{\lambda}_i+\sum_{i=1}^n(1-p_i)\hat{\lambda}_{n+1}$
其中 $\hat{\lambda}_{n+1}=\lambda$ 为真实距离。

损失函数：在渲染距离与真实距离之间使用L1损失：
$L(w)=\sum_{(o,\lambda,d)\in(X_{1:T},o_{1:T})}|\lambda-f(o,d;X_{-T:0},o_{-T:0},w)|$

4. 评估

最佳的评估方案是将预测占用与真实占用比较，但真实占用的获取十分困难。因此，本文利用传感器内外参，使用预测的4D占用“渲染”点云，评估渲染点云的质量来代表4D占用预测的质量。

对每一个真实射线 $\overrightarrow{OQ}=o+\lambda d$ ，得到预测 $\overrightarrow{OP}=o+\hat{\lambda}d$ ，定义误差 $\epsilon=|\overrightarrow{OQ}-\overrightarrow{OP}|=|\overrightarrow{PQ}|=|\lambda-\hat{\lambda}|$ 。

近场误差：由于实际上预测的占用只与观测到的区域相关，本文提出射线截断，将给定的射线 $\overrightarrow{XY}$ 截断在 $\mathcal{V}$ 中，记为 $\phi_{\mathcal{V}}:\overrightarrow{XY}\rightarrow\overrightarrow{X'Y'}$ ，如下图所示。
在这里插入图片描述
则近场预测误差 $\epsilon_\mathcal{V}$ 定义为：
$\epsilon_\mathcal{V}=|\phi_\mathcal{V}(\overrightarrow{OQ})-\phi_\mathcal{V}(\overrightarrow{OP})|=|\overrightarrow{O'Q'}-\overrightarrow{O'P'}|=|\overrightarrow{P'Q'}|$

注意 $\overrightarrow{OQ}$ 与 $\overrightarrow{OP}$ 共线，被 $\mathcal{V}$ 截断后的射线起点也相同。

为了考虑预测错误的严重程度（即近距离处的误差比远距离处的相同误差有更大的影响），提出相对近场预测误差 $\epsilon^{rel}_\mathcal{V}$ ：
$\epsilon^{rel}_\mathcal{V}=\frac{|\phi_\mathcal{V}(\overrightarrow{OQ})-\phi_\mathcal{V}(\overrightarrow{OP})|}{|\overrightarrow{OQ}|}=\frac{|\overrightarrow{P'Q'}|}{|\overrightarrow{OQ}|}$

由于其余点云预测任务产生的点数不一定和真实射线数一致，且预测点与真实点没有一对一的对应关系，因此本文对预测点云进行表面拟合，然后计算真实射线与拟合表面的交点，输出对应的射线（截断）距离。

此外，还考虑chamfer距离 $d$ ，和近场chamfer距离 $d_\mathcal{V}$ ：
$d=\frac{1}{2N}\sum_{x\in X}\min_{\hat{x}\in\hat{X}}\|x-\hat{x}\|_2^2+\frac{1}{2M}\sum_{\hat{x}\in\hat{X}}\min_{x\in X}\|x-\hat{x}\|_2^2$ $d_\mathcal{V}=\frac{1}{2N'}\sum_{x\in X_\mathcal{V}}\min_{\hat{x}\in\hat{X}_\mathcal{V}}\|x-\hat{x}\|_2^2+\frac{1}{2M'}\sum_{\hat{x}\in\hat{X_\mathcal{V}}}\min_{x\in X_\mathcal{V}}\|x-\hat{x}\|_2^2$
其中 $X,\hat{X}$ 为真实点云和预测点云， $N, M$ 为真实点云与预测点云的点数； $X_\mathcal{V},\hat{X}_\mathcal{V}$ 为 $\mathcal{V}$ 内的真实点云和预测点云， $N^{'}, M^{'}$ 为 $\mathcal{V}$ 内真实点云与预测点云的点数。

5. 实验

基准方案：（1）使用过去帧与当前帧点云建立二值占用，然后查询真实射线得到点云。（2）其余点云预测的SotA方案。

5.1 对SotA的重新评估

nuScences上的定性结果：可视化表明，本文的方法与基准方案(1)能产生比SotA更能表现场景几何的点云。此外，本文的方法能够假想或补全动态物体的运动与静态物体的遮挡区域。

nuScenes上使用新指标评估的结果：与基准方案相比，本文的方法预测的点云有更低的距离误差；基准方案（1）的性能也高于点云预测的SotA方案。

nuScenes上使用旧指标评估的结果：本文的方法在近场chamfer距离上有更高的性能，因为本文的方法是对近场占用进行优化的。对于普通的chamfer距离，由于本文不能估计预定义体素网格外的射线终点，因此低于部分SotA方案。

在KITTI-Odometry上的结果：若能在KITTI-Odometry数据集上重新训练模型，本文的方法能超过SotA；当不能获取KITTI-Odometry的数据样本时，本文在ArgoVerse2.0数据集上的预训练模型能在KITTI-Odometry上超过基准方案。若能够获取KITTI-Odometry的小部分数据，则预训练模型在这些数据上进行微调后，性能能超过在KITTI-Odometry上训练的基准方案。本文的方法是第一个能进行传感器转移/泛化的方法，说明了从场景运动中分离传感器内外参的好处。

ArgoVerse2.0数据集和KITTI-Odometry的激光雷达线数相同且采集频率相同，且前者比后者更大且场景更丰富。

5.2 结构消融

考虑两种结构：静态结构（对所有的未来帧预测同样的体素占用）和残差结构（对不同的未来帧预测带残差体素的静态体素占用）。

实验表明，静态结构在短期预测上的能力很强大（超过基准方案），这是因为场景的大部分区域均为静态的。而动态结构（为每一帧预测不同的体素占用）在长期预测上的能力很强大。残差结构希望从场景的静态区域中分离动态元素，但实践中因为没有足够的正则化强制进行运动补偿而失败。

5.3 应用

跨传感器泛化：本文的方法可以进行零样本跨传感器泛化或多数据集学习。

新视图合成：使用本文预测的占用，可以生成未来新视图的密集深度图，从而可以密集化稀疏的激光雷达点云。

附录

A. 网络细节

结构实施：本文基于神经运动预测模型的编码器-解码器结构（文章：End-to-end interpretable neural motion planner），延伸为BEV占用预测（文章：Differentiable raycasting for self-supervised occupancy forecasting）。注意本文将 $X\times Y\times Z\times T$ 的4D体素reshape为 $X\times Y\times ZT$ 的3D体素，将 $Z$ （高度）维度与通道维度整合，从而能使用2D卷积处理。这表明每一个通道均代表在高度和时间维度上的一段场景。