原文链接：https://arxiv.org/pdf/2306.02245.pdf

1.引言

分割一切模型（SAM）作为视觉领域的基石模型，有强大的泛化性，能解决很多2D视觉问题。但是SAM是否可以适用于3D视觉任务，仍需要被探索。
目前几乎没有关于3D目标检测的零样本学习，如何使SAM的零样本能力适用于3D目标检测是本文的主要研究内容。
本文提出SAM3D，使用SAM分割BEV图，然后从输出的掩膜预测物体。

2.方法

2.1 准备知识

问题定义

给定一个在有标注的源数据集 $D_s=\{X_i^s,Y_i^s\}$ 上训练的模型 $F$ ，以及一个3D检测无标签数据集 $D_t=\{X_i^t\}$ （在本文中 $X_i^t$ 表示激光雷达点云），零样本3D目标检测任务的目标就是在不使用 $D_t$ 标签的情况下，最大化 $F$ 在 $D_t$ 上的性能。

SAM的回顾

虽然SAM的能力很强大，但模型很简单：强大的图像编码器和提示编码器分别将图像与提示转换为嵌入特征，随后轻量级的掩膜解码器用于组合信息并预测分割结果。
具体来说，图像编码器是使用MAE预训练的ViT，提示编码器使用CLIP中现成的文本编码器，利用位置编码和自由文本表达点与边界框。掩膜提示使用卷积嵌入，并与图像嵌入特征按元素求和。掩膜解码器使用Transformer解码器（含提示自注意力和两个方向的交叉注意力），并使用动态掩膜头，在图像的每个位置计算掩膜前景概率。

2.2 整体框架

由于本文使用的是3D点云，而SAM的输入是2D图像，因此本文先将激光雷达点云转换为类似2D图像的表达以减小域间隙。基于BEV，本文的使用SAM的模型如下图所示。
在这里插入图片描述
本文的方法分5个步骤：

激光雷达到BEV的投影：将激光雷达信号转化为BEV图像。使用投影方程决定每个点在图像平面的坐标，并预定义一组强度到RGB的映射，以得到BEV图像像素的RGB值，使处理时更具判别力。
BEV后处理：将原始BEV图像进行一个简单的操作，以获得更稳定的SAM输入，使分割更简单、性能更好。
SAM分割：将改进的BEV图像和网格提示输入SAM，在BEV中分割前景物体。为加速分割，还对提示进行了修剪，这不会牺牲性能。
掩膜后处理：使用先验推导出的规则过滤带噪声的掩膜，以减少FP。
Mask2Box：对前景掩膜寻找最小边界框，提取BEV下的2D框，与激光雷达点云交互后，预测最终的3D边界框。

2.3 激光雷达到BEV的投影

目的是将 $N_p$ 个激光雷达点 $P=\{(x_i,y_i,z_i)\}_{i=1}^{N_p}$ （满足 $L_x\leq x_i\leq U_x,L_y\leq y_i\leq U_y$ ）转化为一张BEV图像 $I\in\mathbb{R}^{H\times W\times 3}$ 。
每个点都会落入BEV图像上的一个网格，网格的坐标 $(c x, cy)$ 按下式计算： $cx_i=\left \lfloor (U_x-x_i)/s_x\right \rfloor\\cy_i=\left \lfloor (U_y-y_i)/s_y\right \rfloor$ 其中 $s_x,s_y$ 为 $x, y$ 方向的柱体大小。
此后，需要得到填入BEV图像中的像素值，使BEV图像更具判别力。点的反射强度 $R=\{r_i\}_{i=1}^{N_p}$ 可以用于形成BEV图像的特征向量。首先将反射强度归一化到 $[0, 1]$ 内，并用其从预定义的调色板上选择色彩向量： $c_i=\text{Pallete}(\text{Norm}(r_i))\in \mathbb{R}^3\\I[cx_i,cy_i,:]=c_i$ 其中 $\text{Pallete}:\mathbb{R}\rightarrow\mathbb{R}^3$ 是将强度标量转化为RGB向量的调色板。
无对应点的BEV像素，使用零向量填充。最后得到有判别力的BEV图像 $I\in\mathbb{R}^{H\times W\times 3}$ 。

2.4 BEV后处理

SAM的图像是在“密集”的自然图像上训练的，而BEV图像是“稀疏”的。为减小间隙，本文使用形态扩张（即最大池化）： $I'=\text{MaxPool2D}(I)$

2.5 使用SAM分割

SAM支持使用各种提示，如点、框和掩膜。这一步的目标是分割处尽可能多的前景目标，因此本文使用网格提示覆盖整张图像。具体来说，创建 $32\times32$ 的、在图像平面均匀分布的网格，将它们视作SAM的点提示。
但是由于稀疏BEV图像有很多空的区域，本文还对提示进行了修剪。将提示投影到BEV图像上，检查每个提示的邻域，将周围无激活像素的提示丢弃掉。该步骤使得整个流程被极大地加速。
该步骤完成后，得到 $N_m$ 个分割掩膜 $M=\{m_i\in\mathbb{R}^{H\times W}\}_{i=1}^{N_m}$ 。

2.6 掩膜后处理

尽管SAM有强大的零样本能力，这里仍然存在不可忽视的域间隙。因此SAM输出的掩膜是有噪声的，需要进一步处理。
在自动驾驶领域中，汽车是有大概的面积和长宽比的，可以用于滤除 $M$ 中的某些FP。具体来说，本文使用面积阈值 $T_l^a,T_h^a]$ 和长宽比阈值 $T_l^r,T_h^r]$ 来过滤掩膜。
最终，得到 $N_o$ 个相对高质量的前景掩膜 $M'=\{m_i\in\mathbb{R}^{H\times W}\}_{i=1}^{N_o}$ ，每个掩膜对应一个前景物体。

2.7 Mask2Box

可以直接从2D掩膜估计3D边界框的水平属性（水平位置 $x^{3D},y^{3D})$ 、长宽 $dx^{2D},dy^{3D})$ 、朝向 $\theta^{3D}$ ），但对于垂直属性（垂直位置 $z^{3D}$ 和高 $dz^{3D}$ ），需要使用激光雷达点进行信息补偿。
首先从掩膜提取最小边界框： $B^{2D}=\{(x^{2D}_i,y^{2D}_i,dx^{2D}_i,dy^{2D}_i,\theta^{2D}_i)\}_{i=1}^{N_o}$ 然后将2D属性投影为对应的3D属性： $x^{3D}_i=U_x-(x_i^{2D}+0.5)\times s_x\\y^{3D}_i=U_y-(y_i^{2D}+0.5)\times s_y\\dx^{3D}_i=dx^{2D}_i\times s_x\\dy^{3D}_i=dy^{2D}_i\times s_y\\\theta^{3D}_i=\theta^{2D}_i$ 最后选择落在2D边界框内的激光雷达点，使用垂直坐标计算边界框的垂直属性： $Z_i=\{z_j|(x_j,y_j,z_j)在BEV上的投影位于B_i^{2D}中\}\\dz_i^{3D}=\max(Z_i)-\min(Z_i)\\z_i^{3D}=\min(Z_i)+\frac{dz_i^{3D}}{2}$

3.实验

3.1 设置

本文在Waymo Open的验证集上对汽车类别进行评估，且只考虑最多30m内的物体。

3.2 定性结果

可视化表明，SAM能在不接触3D标注的情况下生成高质量的2D边界框，且能进一步得到高质量的3D边界框。
但也存在一些明显的失效情况：当物体距离较近时，SAM会重复生成掩膜；与汽车外观类似的物体会被SAM错误分割为前景；由于激光雷达点云的稀疏性以及截断或遮挡等，部分汽车在BEV图像中被部分激活，因此SAM会忽略这些物体，导致很多FN。