MonoScene: Monocular 3D Semantic Scene Completion

news2025/4/6 5:44:34

Paper name

Paper Reading Note

URL: https://arxiv.org/pdf/2112.00726.pdf

TL;DR

由图像估计出 3d 信息是个回到计算机视觉根源的问题，当前大部分方法都需要通过 2.5D 或者 3D 输入来进行 3d 估计，比如通过 Lidar 或深度相机，这些传感器相比于单目相机一般会更昂贵、占用空间更大、并对外部有干扰。如果能通过单目相机估计场景 3d 信息能为更多新应用铺平道路
3d 语义场景完成（SSC）通过同时推理几何与语义信息来解决场景理解问题
- 当前方法的局限性是需要依赖深度数据输入，或者只能在室内或室外场景下使用

本文提出一种能在室内与室外场景均可使用的单目 SSC 方案
- 提出一种将 2D 特征投影到 3D 的方法： FLoSP
- 提出一种 3D Context Relation Prior （3D CRP）提升网络的上下文意识
- 新的 SSC loss 来优化场景类亲和力和局部截头体比例

在这里插入图片描述

Monoscene ppl 流程
- 输入 2d 图片，经过 2d unet 提取多层次的特征
- Features Line of Sight Projection module (FLoSP) 用于将 2d 特征提升到 3d 位置上，增强信息流并实现2D-3D分离
- 3D Context Relation Prior （3D CRP）用于增强长距离的上下文信息提取
- loss 优化
  - Scene-Class Affinity Loss：提升类内和类间的场景方面度量
  - Frustum Proportion Loss：对齐局部截头体中的类分布，提供超越场景遮挡的监督信息
网络结构
- 2D unet：EfficientNetB7 用于提取图像特征
- 3D UNets：2层 encoder-decoder 结构，用于提取 3d 特征
- completion head：3D ASPP 结构和 softmax 层，用于处理 3D UNet 输出得到3d场景 completion 结果

在这里插入图片描述

对于 2d unet 的多尺度输出特征（1,2,4,8），分别过 1x1 conv，然后将多尺度的特征分别映射到 3d 空间中（映射方式是将 3d voxels 中心投影到 2d 特征上进行采样），最后对多尺度特征分别映射得到的 3d voxel 特征进行加和得到最终输出

在这里插入图片描述

通过 2d 分隔中的 CPNet 启发，在 3d unet 增加 3D CRP 模块，学习 n 向体素↔体素语义场景关系图，本文 n 为 4，主要包含以下 voxel 类型
- free：至少有一个 voxel 是 free
  - similar
  - different
- occupied：所有 voxel 都是 occupied
  - similar
  - different
上述的体素↔体素语义场景关系图构建是 $n^2$ 复杂度，本文使用超体素↔体素关系来降低存储和计算消耗
- 将超体素定义为非重叠组，每个组包含 $s^3$ 个相邻体素
- 超体素↔体素关系数量则降低为 $\frac{N^2}{s^3}$
- 对于某个超体素 V，以及体素 v，体素关系对的数量为 ${s^3}$ ，本文不是回归V↔ν中的M关系的复数计数，而是预测M个关系中的哪一个存在
3D Context Relation Prior Layer: 输入 3d map，经过 ASPP 卷积提升感受野，然后利用 1x1 conv 和 sigmoid 将 3d map 生成 M 组关系矩阵 $\hat{A}^m$ ，利用加权交叉熵损失进行训练；关系矩阵与重塑的超体素特征相乘，以收集全局上下文（或者， $A^m$ 中的关系可以通过移除 Lrel 来自我发现（w/o M），即表现为注意力矩阵）

加权交叉熵

其中权重为

优化了类可导（P）recision、（R）ecall和（S）pecificity，其中Pc和Rc测量相似 c 类体素的性能，Sc 测量不相似体素（即不属于c类）的性能

其中 $p_i$ 是 voxel-i 的 gt class， $\hat{p}_{i,c}$ 代表预测为 c 类的概率
使用以下 loss 提升上面的类别 metrics

实际使用中会分别优化几何和语义

在这里插入图片描述

基于单目消除遮挡区域的歧义性是难以实现的，所以观察到遮挡区域的体素往往被预测为物体的一部分，提出了 Frustum Proportion Loss 来显式优化截头体中的类分布从而缓解上述问题
- 将输入图片分为 lxl 的 patches，对于每个 patch 投影到的 frustum 中对齐预测和 gt 的类别分布
  
  其中 $P_k$ 是 k voxel 中的真实 gt 分布， $\hat{P}_k$ 是 k voxel 中的预测分布

NYUv2
- 有 1449 Kinect 采集的室内场景图，体素标注为 240x144x240，13类（11个语义，1 free，1 unknown）
- 640x480
- 795 train；654 test
semantic kitti
- 室外雷达采集，体素标注为 256x256x32，voxel grid 尺寸为 0.2 m，21 类（19 语义，1 free，1 unknown）
- 使用 cam2 作为输入，1226x370，左裁剪到 1220x370
- 3834 train；815 val