港科大提出适用于夜间场景语义分割的无监督域自适应新方法

跟大家分享港科大提出的无监督域自适应夜间场景语义分割方法，该方法对夜间的动态目标和小目标做了针对性的优化。

论文标题：Towards Dynamic and Small Objects Refinement for Unsupervised Domain Adaptative Nighttime Semantic Segmentation
机构：港科大
论文地址：https://arxiv.org/pdf/2310.04747.pdf
工程主页：https://rorisis.github.io/DSRNSS/
代码即将开源
关键词：语义分割、无监督域自适应、夜间场景

1.动机

语义分割在自动驾驶、机器人等应用中发挥着重要的作用。近年来，随着深度神经网络的发展，语义分割取得了显著的进展。然而，现有的方法主要针对白天场景，在夜间场景，尤其是包含动态目标和小目标时，它们的性能急剧下，主要原因是光照不足且标注数据集缺乏。

为了解决这一问题，研究人员开发了无监督域自适应（Unsupervised Domain Adaptation，简称UDA）方法，让从源域（即白天）图像训练的模型对未标记目标域（即夜间）图像进行自适应。

常用方法可分为3类：

（1）使用风格迁移模型（比如CyclelGAN），生成白天或夜间的图像，作为一个中间域来连接源域和目标域。这类方法比较繁琐，因为它们需要多阶段的学习；如果风格迁移失败则难以保证性能。

（2）利用与目标域粗对齐的黄昏图像，从白天逐步适应夜间域。

（3）利用先验的GPS信息或静态损失减少粗对齐的昼夜图像对（day-night image pairs）的影响，提高伪标签的质量。

上述方法很少关注夜间图像的动态目标和小目标，如车辆和交通标志，在低光照条件下很难实现有效的域对齐。

作者提出了一种新的UDA方法用于夜间场景语义分割，该方法更关注动态目标和小目标。

2.方法

该方法包含2个关键技术，其一为DSR（dynamic and small objects refinement，动态目标和小目标精炼）模块，其二为PFA（feature prototype alignment，特征原型对齐）模块。

总体结构如下图所示：

（1）DSR模块

夜间图片中的动态目标和小目标，很难直接从白天域获得准确的伪标签。因此作者首先利用源图像的标签将源域的动态目标和小目标区域混合到夜间图像中，为这种目标提供准确的标签。

将源图片中的标签记作 $Y_s$ ，定义：

$\begin{cases}1, & \text { if } Y_s(h, w) \in c \\ 0, & \text { otherwise }\end{cases}$

上式中 $M$ 是二值mask， $c$ 是被选中的类别， $\in H$ 和 $\in W$ 分别表示图像的高和宽。

针对随机选择的类别，使用上述方式可以得到 $M_r$ ；针对动态目标和小目标，使用上述方式可以得到 $M_m$ ，将混合后的mask记作 $M_c$ ，则：

$M_c=M_r \cup M_m$

使用 $M_c$ ，可使用源图片中的小目标和动态目标对夜间图片进行增强。可以使用 $M_c$ 对源域图片和目标域图片进行混合：

$X_m=M_c \odot X_s\left(1-M_c\right) \odot X_n$

上式中 $X_s$ 表示源域的图片， $X_n$ 表示目标域的图片（即夜间的图片）。

类似地，使用 $M_c$ 混合源域图片的标注 $Y_s$ 和目标域的伪标签 $y_n^{\prime}$ ，得到 $X_m$ 的标签：

$Y_m=M_c \odot Y_s+\left(1-M_c\right) \odot y_n^{\prime}$

为进一步提升性能，作者将长尾分布类别从源域中引入到目标域中，图片和伪标签的构造公式如下：

$\begin{aligned} X_m^{\prime} & =B_m \odot B_i+\left(1-B_m\right) \odot X_m \\ Y_m^{\prime} & =B_m \odot B_l+\left(1-B_m\right) \odot Y_m \end{aligned}$

上式中的 $B_m$ 表示mask， $B_i$ 表示源域图片， $B_l$ 表示源域图片的标注。

利用学生模型 $F_s$ 对混合后的图片 $X_m^{\prime}$ 做预测，得到 $y_m^{\prime}=F_s\left(X_m^{\prime}\right)$ ，构造损失函数保证 $y_m^{\prime}$ 和 $Y_m^{\prime}$ 的一致性：

$\mathcal{L}_{m i x}=-\sum_{c=0}^C \sum_{w=0}^W \sum_{h=0}^H Y_m^{\prime c, h, w} \log \left(y_m^{\prime c, h, w}\right)$

工作流程表示如下：

用于生成伪标签的教师模型的权重 $\phi_t^{\prime}$ 在训练时，每 $t$ 次迭代使用学生模型的权重 $\phi_t$ 更新一次，表示如下：

$\phi_t^{\prime}=\lambda \dot{\phi}_{t-1}^{\prime}+(1-\lambda) \dot{\phi}_t$

上式中的 $\lambda$ 表示EMA衰减， $\lambda \in [0,1]$ 。

（2）FPA模块

DSR模块产生了混合域，作者构造了FPA模块用于对齐源域、目标域和混合域。

为了学习域不变特征，对不同域同类目标的像素级别的特征进行累加，使用源域标注 $Y_s$ 和混合域伪标签 $Y_m^{\prime}$ 得到每一类的原型（prototypes）：

$\rho_s^c=\frac{\sum_h^H \sum_w^W f_s^{h, w} Y_s^{c, h, w}}{\sum_h^H \sum_w^W Y_s^{c, h, w}}, \rho_m^c=\frac{\sum_h^H \sum_w^W f_m^{h, w} Y_m^{\prime c, h, w}}{\sum_h^H \sum_w^W Y_m^{\prime c, h, w}}$

上式中 $\rho_s^c$ 和 $\rho_m^c$ 分别为源域和混合域中类别 $c$ 的原型， $f_s$ 和 $f_m$ 为学生模型 $F_s$ 在源域图片和混合域图片中提取到的特征。

使用原型和特征计算跨域对比损失，使用源域和混合域中同类别目标的像素特征和原型作为positive pairs，这样可以最大化同类别像素特征和原型的一致性：

$S_{m \rightarrow s}^c=\left(s\left(f_m^{h, w}, \rho_s^{c, h, w}\right) / \tau\right) \cdot W^c$

上式中 $s(\cdot, \cdot)$ 表示余弦相似度， $\tau$ 表示温度参数， $W^c$ 表示类别 $c$ 的相似度权重，使用如下公式计算对比损失：

$\mathcal{L}_{m \rightarrow s}=-\sum_c^C \sum_h^H \sum_w^W y_n^{\prime c, h, w} \log \frac{\exp \left(S_{m \rightarrow s}^c\right)}{\sum_c \exp \left(S_{m \rightarrow s}^c\right)}$

$\mathcal{L}_{m \rightarrow s}$ 表示源域原型和混合域特征的对比损失。与之类似，还有：

$S_{s \rightarrow m}^c=\left(s\left(f_s^{h, w}, \rho_m^{c, h, w}\right) / \tau\right) \cdot W^c$

$\mathcal{L}_{s \rightarrow m}=-\sum_c^C \sum_h^H \sum_w^W Y_s^{c, h, w} \log \frac{\exp \left(S_{s \rightarrow m}^c\right)}{\sum_c \exp \left(S_{s \rightarrow m}^c\right)}$

为解决类别不均衡问题，作者提出了一种自适应的重加权算法，专门针对重叠区域包含动态目标和小目标的情况。通过给这些原型分配权重，我们可以调整相应的像素级特征，相似度权重定义如下：

$W^c= \begin{cases}1, & \text { if } c \in C_o \\ s+1 / s & \text { if } c \in C_l \\ 0, & \text { otherwise }\end{cases}$
上式中 $s$ 表示相互重叠的类别数量， $C_o$ 包括重叠类别但是不包括长尾类别， $C_l$ 包括重叠类中的长尾类。

总体的原型对比损失如下：

$\mathcal{L}_{\text {proto }}=\mathcal{L}_{n \rightarrow s}+\mathcal{L}_{s \rightarrow n}+\mathcal{L}_{m \rightarrow s}+\mathcal{L}_{s \rightarrow m}$