主要思想

从一张图片中随机选取一半的类粘贴到另外一张图片上，形成一个新的样本，标签也不需要真正注释，只需要获取原来的两张图对应的标签即可。
利用网络学习预测原始图像的像素级语义，对混合的图像的预测被强制训练成和混合前一致。
根据分类一致性正则化趋势，还继承了熵最小化，来鼓励网络进行低熵预测。

方法

在这里插入图片描述
如图所示，ClassMix使用两张没有标记的图片A、B，然后分别通过网络f(θ)生成对应的Sa、Sb。随机获取Sa中的一半的类，然后获取到类别像素点的位置为1，其余位置为0，生成一个Mask掩码M，把A、B两张图片作为输入同时加上掩码M，生成一张增强的图片Xa，其对应的标签Ya，通过Sa,Sb和M获取对应的标签Ya，由于混合策略的性质，刚开始可能会出现人工标签，但随着训练的进行，会越来越少。
伪代码如下:
在这里插入图片描述

Mean-Teacher

先留坑。
去看Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results这篇论文，看完回来填坑

损失函数

在这里插入图片描述
Xl是从带标签的数据集中均匀随机采样的图像，Yl是对应的ground-truth语义图。
Xa是增强方法产生的图像，Ya是对应的人工标签。
λ是一个控制监督和非监督之间平衡的超参数。
ℓ是交叉熵损失函数

交叉熵损失

在这里插入图片描述
W,H对应着图像的宽度和高度，该损失函数就是一个多分类的损失函数。Y(i,h,c)和S(i,j,c)分别对应着目标和预测中(i,j)这个位置对应着c这个类别的概率。

标签污染

对于物体的边界来说会有很大的不确定性，因为分割任务在接近边界时候是最难的，这就会导致一个污染的问题，如下图所示:当由M选择的类被粘贴到图像B的顶部时，其相邻的上下文将经常改变，例如中间那个图，按照白色的线作为决定边界线，将下半部分粘贴到C上，就会导致在红色和绿色之间出现一些奇奇怪怪的类别(一些不确定性的类别)，就会增添不确定性，就会得到较差的人工标签。伪标记有效地缓解了这一问题，因为每个像素的概率质量函数被改变为最可能类别的一个热向量，从而尖锐了这个问题，从而导致不会受到污染。
在这里插入图片描述

实验

使用PyTorch框架，两块V100训练，采用了基于ResNet101为backbone的DeepLab-V2框架。刚开始在ImageNet和MSCoCo上预训练，在Cityscapes和Pascal Voc2012两个数据集上给出结果。
在这里插入图片描述

实验反思

作者对于在Cityscapes表现良好的原因归结于数据中的图片的分布类似(论文分析了数据中类别的分类情况),还有一个原因就是类别的分布不是很均匀，而是集中在一些地方(同上),所以将一个图像粘贴到另外一个图像就显得很合理，效果也不错。但是对于Pascal VOC 2012就不一样了，所取得结果虽然也具有竞争性，在一些类别上达到了stoa的水平，但是不如在Cityscapes整体取得的效果。主要原因是Pascal VOC 2012这个数据集中类别比较少，生成的mask掩码会出现重复的情况，所以效果会不如，另外与Cityscapes不同，Pascal的数据集中类彼此之间不是那么的相似，因此随机将两个图中的类别放到一起会经常出现不合理的情况，所以会影响效果，但是ClassMix的性能仍然处于sota的水平。