论文阅读笔记：Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels

1 背景
2 创新点
3 方法
4 模块
- 4.1 伪标签
- 4.2 使用不可靠的伪标签
5 效果
- 5.1 与SOTA方法对比
- 5.2 消融实验
- 5.3 定性结果
6 结论

论文：https://arxiv.org/pdf/2203.03884v2.pdf

代码：https://github.com/Haochen-Wang409/U2PL

1 背景

一种典型的解决方法是将伪标注赋值给没有标注的像素。为了缓解确认偏差问题，其中模型可能遭受不正确的伪标注，现有的方法提出以其置信度分数过滤预测。换句话说，只有高度自信的预测被用作伪标注，而模糊的预测被丢弃。然而，仅仅使用可靠的预测可能导致的一个潜在问题是某些像素在整个训练过程中可能永远无法学习。如图1中的椅子类，如果模型不能很好的预测这个类别，就很难为该类像素分配准确的伪标签，这可能导致训练不充分和类别不平衡，从这个角度出发，作者认为，为了充分利用未标记的数据，每个像素都应该被适当地利用。
在这里插入图片描述
如果将不可靠的预测作为伪标注会导致性能下降。在本文中，作者提出了一个使用不可靠伪标签的替代方法，称为U2PL。首先，作者观察到，一个不可靠的预测通常只在少数及各类而不是所有类之间发生混淆。以图2为例，具有白色十字的像素在摩托车和人身上得到相似的概率，但该模型非常确定该像素不属于汽车和火车。就这样的观察，作者将易混淆的像素重新考虑为那些不太可能的类别的负样本。具体来说，从未标记的图像中获得预测后，作者使用每个像素的熵作为度量，如图2。
在这里插入图片描述

2 创新点

提出将不可靠的伪标注作为距离远的类别的负样本。

3 方法

在这里插入图片描述
给定一个有标签的数据集 $D_l=\{(x_i^l,y_i^l)\}_{i=1}^{N_l}$ 和一个大很多的无标签数据集 $D_u=\{(x_i^u)\}_{i=1}^{N_u}$ ，目标是利用大量的无标签数据和较小的有标签数据来训练一个语义分割模型。

图3展示了 $U^2PL$ 的总览，它遵循典型的自训练框架，具有相同框架的两个模型，分别命名为教师和学生。两种模型仅在更新权重时存在差异。学生模型的权重 $\theta_s$ 是按照通常的做法更新的，而教师模型的权重 $\theta_t$ 是根据学生模型权重的指数移动平均更新的。每个模型由一个基于CNN的编码器 $h$ ，一个带有分割头 $f$ 的解码器和一个表示头 $g$ 组成的。在每一步训练中，对 $B$ 张有标签图像 $B_l$ 和 $B$ 张无标签图像 $B_u$ 进行等量采样的。对于每个未标记图像，首先将其带入到教师模型并得到预测，然后基于像素级熵，在计算等式中的无监督损失时忽略不可靠的像素级伪标注。最后用对比损失来充分利用无监督损失中排除的不可靠像素。优化目标是最小化总体损失，可以表述为：
在这里插入图片描述
式中 $L_s$ 和 $L_u$ 分别表示应用于有标签图像的监督损失和无标签图像的无监督损失， $L_c$ 为充分利用不可靠伪标签的对比损失。 $\lambda_u$ 和 $\lambda_c$ 是无监督损失和对比损失的权重。 $L_s$ 和 $L_u$ 是交叉熵损失：
在这里插入图片描述
其中， $y_i^l$ 表示第 $i$ 张有标注图像的人工标注掩码标签， $\hat{y}_i^u$ 表示第 $i$ 张无标注图像的伪标签。 $f ◦ h$ 是 $h$ 和 $f$ 的复合函数。即先将图像输入 $h$ 再输入 $f$ 得到分割结果。 $L_c$ 是像素级 InfoNCE 损失，定义为：
在这里插入图片描述
其中 $M$ 是锚点像素总数， $z_{ci}$ 表示 $c$ 类第 $i$ 个锚点的表示。每个锚点像素后跟一个正样本和N个负样本，其表示分别为 $z_{ci}^+$ 和 $z_{cij}^-$ 。 $z = g ◦ h (x)$ 为表示头 $g$ 的输出。 $< \cdot,\cdot >$ 是两个不同像素的特征之间的余弦相似度，其范围限制在[-1,1]，因此需要温度因子 $\tau$ 。文中 $M=50,N=256,\tau=0.5$ 。

$L_c$ 通过增加 $e^{<z_{ci},z_{ci}^+>/\tau}$ 从而增加了当前锚点和正样本之间的相似度，通过降低 $e^{<z_{ci},z_{cij}^->/\tau}$ 从而降低了当前锚点和负样本之间的相似度。

4 模块

4.1 伪标签

为了避免过拟合错误的伪标注，我们利用每个像素概率分布的熵来过滤高质量的伪标注以进行进一步的监督。具体来说，将 $p_{ij}∈R^C$ 表示教师模型的分割头在第 $i$ 个未标注图像的第 $j$ 个像素处生成的softmax概率，其中 $C$ 为类别数。其熵计算为：
在这里插入图片描述
其中 $p_{ij}(c)$ 是 $p_{ij}$ 在第 $c$ 维的值。

然后，定义在训练的第 $t$ 个epoch上熵在前 $\alpha_t$ 上的像素为不可靠的伪标注。这样不可靠的伪标注不具备监督资格。因此，定义第 $i$ 个未标注图像的第 $j$ 个像素处的伪标注为：
在这里插入图片描述
其中 $\gamma_t$ 表示第 $t$ 个训练step的熵阈值。将 $KaTeX parse error: Undefined control sequence: \* at position 40: ….flatten(), 100\̲*̲(1-\alpha_t))$ ，其中 $H$ 是像素熵图。np.percentile()的作用是取序列 $H . f ltt e n ()$ 中的百分之 $KaTeX parse error: Undefined control sequence: \* at position 4: 100\̲*̲(1-\alpha_t)$ 位数。

在训练过程中，未标注逐渐趋于可靠，基于这种直觉，作者每过一个epoch都要用线性策略调整不可靠像素的比例 $\alpha_t$ ：
在这里插入图片描述
其中 $\alpha_0$ 初始比例且为 20%。

在获得可靠的伪标注之后，将它们纳入到无监督损失（3）中。该损失的权重 $\lambda_u$ 定义为当前小批量中熵小于 $\gamma_t$ 的像素的百分比的倒数乘以一个基础权重 $\eta$ ：
在这里插入图片描述
其中 $1 (\cdot)$ 为指示函数， $\eta$ 设置为 1。

4.2 使用不可靠的伪标签

在半监督学习任务重，丢弃不可靠的伪标注或降低其权重可以防止模型性能下降。遵循这一直觉，基于公式(6)过滤掉不可靠的伪标注。

然而，这种不可靠伪标注的忽视可能导致信息丢失，可见，不可靠的伪标注可以为更好的判别提供信息，如图2中白色十字就是典型的不可靠像素，它的分布显示了模型区分人和摩托车的不确定性。然而这种分布也证明了模型确定性，不会将该像素区分乘车，火车，自行车等类。这一特性为提出 $U^2PL$ 使用不可靠的伪标注提供了主要启示。

$U^2PL$ 的目标是利用不可靠的伪标注的信息进行更好的辨别，这与最近流行的对比学习范式在辨别表征上不谋而合。但由于半监督语义分割任务中标注图像的缺乏， $U^2PL$ 建立在更复杂的策略之上。 $U^2PL$ 有三个分量，分别是锚像素，正候选和负候选。这些分量是以采样的方式从某些集合中获得的，以减轻巨大的计算成本。接下来，将介绍如何选择（a）锚点像素（b）每个锚的正样本（c）每个锚的负样本。

在训练过程中，为当前小批次中出现的每个类采样锚像素，将 $c$ 类所有已标注的候选像素的特征集合记为 $A_c^l$ 。
在这里插入图片描述
其中 $y_{ij}$ 是第 $i$ 个标注图像的第 $j$ 个像素的GT， $\delta_p$ 是正样本的阈值，设为0.3。 $z_{ij}$ 标注图像 $i$ 的第 $j$ 个像素的表示。对于无标签数据，对 $A_c^u$ 可以计算为：

与 $A_c^l$ 不同的是， $A_c^u$ 中使用了基于等式（6）的伪标签 $\hat{y}_{ij}$ 。这意味着符合条件的锚点像素是可靠的，即 $H(p_{ij})≤\gamma_t$ 。因此，对于 $c$ 类，所有合格锚点的集合为：
在这里插入图片描述
对于来自同一类别的所有锚点，正样本是相同的，是所有可能锚的中心：

同时，作者定义了一个二值化变量 $n_{ij}(c)$ 来识别图像 $i$ 的第 $j$ 个像素是否属于 $c$ 类的负样本。

$n_{ij}^l(c)$ 和 $n_{ij}^u(c)$ 分别为标注和未标注图像 $i$ 的第 $j$ 个像素是否符合 $c$ 类负样本的指导。

对于第 $i$ 张标注图像，一个合格的 $c$ 类负样本应该是：（a）不属于 $c$ 类；（b）难以区分 $c$ 类和它的GT类别。因此，引入像素级类别排序 $O_{ij}=argsort(p_{ij})$ 。显然有 $O_{ij}(argmax(p_{ij}))=0$ 和 $O_{ij}(argmin(p_{ij}))=C-1$ 。
在这里插入图片描述
其中 $r_l$ 为低排序阈值，设置为3。两个指标分别反应特征（a）和特征（b）。

这里就是把不是 $c$ 类，但模型预测的 $c$ 类的置信度在所有类的排名排前 $r_l$ 的样本作为负样本。

对于第 $i$ 个未标记图像，一个合格的 $c$ 类的负样本应该：（a）不可靠;（b）可能不属于 $c$ 类;（c）不属于最不可能的类。类似的，可以用 $O_{ij}$ 来定义 $n_{ij}^u(c)$ ：
在这里插入图片描述

其中 $r_h$ 是高排序阈值，设置为20。最终 $c$ 类的负样本采样如下：
在这里插入图片描述
由于数据集的长尾现象，部分类别的负候选在小批量中极少。为了保持稳定的负样本数量，作者采样一个类别内存库 $Q_c$ （FIFO队列）。

算法伪代码如算法1。
在这里插入图片描述

5 效果

5.1 与SOTA方法对比

在这里插入图片描述

5.2 消融实验

通过像素级预测的熵值计算可信度，并利用不同可信度的像素进行消融实验。“Unrliable”表示从熵值最高的20%的像素中选择负样本，“Reliable”表示从最低的20%中选择，“All”表示不考虑熵的采样。实验证明不可靠伪标注确实有帮助。
在这里插入图片描述
低排名和高排名的阈值的消融实验。

各模块的消融实验。
)
不可靠像素的初始比例的消融实验。