【论文笔记】Fully Sparse 3D Panoptic Occupancy Prediction

news2025/7/5 17:50:39

原文链接：https://arxiv.org/abs/2312.17118

1. 引言

现有的3D占用预测方法建立密集的3D特征，没有考虑场景的稀疏性，因此难以满足实时要求。此外，这些方法仅关注语义占用，无法区分实例。

本文认为场景的稀疏性包含两个方面：几何稀疏性（绝大多数的体素为空）和实例稀疏性（实例数量远小于非空体素数量）。

本文提出SparseOcc，一个基于多视图图像的、完全稀疏的全景占用网络。首先使用稀疏体素解码器重建场景的稀疏几何，仅对非空区域建模从而极大减小计算资源。再使用掩膜Transformer，通过稀疏实例查询在稀疏空间预测各物体的掩膜和标签。进一步提出掩膜指导的稀疏采样以避免掩膜Transformer中密集的交叉注意力。这样，可以将语义占用与实例占用统一为全景占用。

3. SparseOcc

SparseOcc包含3部分：图像编码器（主干+FPN）、稀疏体素解码器（预测稀疏3D几何占用和嵌入）、掩膜Transformer解码器（在稀疏空间预测语义和实例）。
在这里插入图片描述

3.1 稀疏体素解码器

由于场景中的绝大多数（超过90%）体素均为空，可以建立稀疏的3D场景表达。

总体结构：采用由粗到细的结构，每一层以体素token的稀疏集合为输入。在每层的最后会估计每个体素的占用分数，并根据占用分数得到稀疏性。有两种稀疏化方法：基于阈值的方法和top- $k$ 方法。其中后者可保证等长样本，能提高训练效率。 $k$ 可通过统计不同分辨率下非空体素的最大数量得到。稀疏化的体素token会作为下一层的输入。
在这里插入图片描述
设计细节：每层使用类似Transformer的结构来处理体素级查询，类似SparseBEV。设 $l$ 层的输入包含 $K_{l-1}$ 个体素查询，每个查询包括3D位置和 $C$ 维内容向量。首先通过自注意力聚合全局与局部特征，然后使用线性层从内容向量生成3D偏移量，并根据体素的位置和大小得到全局坐标系下的采样点。最后使用相机参数将采样点投影到各视图上，通过双线性插值采样多尺度特征，并使用自适应混合增强。

时间建模：本文将采样点变换到过去的时间戳上，并采样图像特征，来自各帧的采样特征会堆叠并进行自适应混合。

监督：每一层均有监督。使用二元交叉熵（BCE）损失监督几何占用头，其中仅监督预测占用的稀疏集合。

由于样本的不平衡性，本文为不同类别的体素分配不同的权重。对类别 $c$ ，其权重为
$w_c=\frac{\sum_{i=1}^C M_i}{M_c}$

其中 $M_i$ 为第 $i$ 类体素的数量。

3.2 掩膜Transformer

基于Mask2Former，使用 $N$ 个稀疏实例查询（可分解为二值掩膜查询 $Q_m\in[0,1]^{N\times K}$ 和内容查询 $Q_c\in\mathbb{R}^{N\times C}$ ）。掩膜Transformer分为3步：多头自注意力（MHSA）、掩膜指导的稀疏采样、自适应混合。MHSA进行查询间的交互，而后两者进行查询与图像特征之间的交互。

掩膜指导的稀疏采样：使用Mask2Former中的掩膜交叉注意力需要所有位置的键，会带来计算负担。本文进行了修改：给定Transformer解码器第 $(l - 1)$ 层的掩膜预测，通过随机选择掩膜内的体素，生成3D采样点集合，并投影到图像上采样特征（即仅需要掩膜内体素投影位置的键）。稀疏采样机制也能使得时间建模更加容易，只需要变换采样点即可（和3,2节中一致）。

掩膜交叉注意力：若预测掩膜 $Q_m(n,k)$ 小于阈值，则在常规交叉注意力计算softmax前，将对应位置替换为负无穷，也就是忽略 $Q_c(n)$ 与 $V (k)$ 的关系。

预测：使用带Sigmoid激活函数的线性分类器，基于内容嵌入 $Q_c$ 进行分类。使用MLP将查询嵌入 $Q_c$ 转化为相同大小的掩膜嵌入 $M$ ，与稀疏体素嵌入 $V\in\mathbb{R}^{K\times C}$ 进行点乘，得到掩膜预测。这样，预测空间就是稀疏体素解码器定义的稀疏化3D空间。掩膜预测会作为下一层的掩膜查询 $Q_m$ 。