论文阅读笔记：Semi-DETR: Semi-Supervised Object Detection with Detection Transformers

1 背景
- 1.1 动机
- 1.2 问题
2 创新点
3 方法
4 模块
- 4.1 分阶段混合匹配
- 4.2 跨视图查询一致性
- 4.3 基于代价的伪标签挖掘
- 4.4 总损失
效果
- 5.1 和SOTA方法对比
- 5.2 消融实验

论文：https://arxiv.org/pdf/2307.08095v1.pdf

代码：https://github.com/JCZ404/Semi-DETR

1 背景

1.1 动机

虽然DETR-based方法在全监督目标检测中实现了SOTA性能，但一个可行的DETR-based半监督目标检测（SSOD）框架仍然有待探索。

1.2 问题

问题1：1对1的分配策略具有NMS-free端到端检测的优点，在半监督场景的效率较低。

如果直接用检测器对未标记图像进行伪标注，当伪包围框不准确时，一对一分配策略会将单个不准确的提议匹配为正样本，而降其他潜在正确的提议匹配为负样本，从而噪声学习效率低下。

问题2：1对多的分配策略获得了质量更好的候选建议集吗，使得检测器优化效率更高，但会引入重复预测。

问题3：SSOD中常用的一致性正则化方法在DTER-based SSOD方法中不可行。

因为DETR-based检测器通过注意力机制不断更新query特征，随着query特征的变化，预测结果也会发生变化，即输入对象查询与其输出预测结果之间不存在确定的对应关系，这使得一致性正则化无法应用于DETR-based检测器中。

2 创新点

在这里插入图片描述

作者在TeacherStudent架构的基础上提出了一个新的基于DETR的SSOD框架Semi-DETR。如图1（b）所示。主要是

（1）提出了一个分阶段混合匹配模块，分别使用1对多分配和1对1分配两个阶段训练。第一个阶段旨在通过1对多分配策略提高训练效率，从而为第二个阶段的1对1训练提供高质量的伪标签。

（2）引入了一个跨视图查询一致性模块，该模块构建了跨视图对象查询，以消除对象查询确定性对应的要求，并帮助检测器在两个增强试图之间学习对象查询的语义不变特征。

（3）基于高斯混合模型设计了一个基于代价的伪标签挖掘模块，该模块根据匹配代价分布动态的挖掘用于一致性学习的可靠伪框。

提出的方法效果如图2。
在这里插入图片描述

3 方法

在这里插入图片描述

提出的Semi-DETR的整体框架如图3所示。根据SSOD流行的教师学生模型，作者提出的Semi-DETR采用了一对具有完全相同网络结构的教师和学生模型（论文里采用的是DINO）。在每次训练迭代中，弱增强和强增强的未标记图像分别反馈给教师和学生网络。然后将教师生成的置信度大于 $\tau_s$ 的伪标签作为训练学生网络的监督。学生的参数参数通过反向传播更新，教师模型参数是学生模型的EMA。

4 模块

4.1 分阶段混合匹配

在学生的预测和教师生成的伪标注之间执行匈牙利匹配，可以得到一个最优的1对1分配 $\sigma_{o2o}$ ：
在这里插入图片描述

其中 $\xi_N$ 是 N个元素的置换构成的集合， $C_{match}(\hat{y}^t_i,\hat{y}^s_{\sigma(i)})$ 伪标签 $\hat{y}_i^t$ 和学生模型的第 $\sigma(i)$ 个预测之间的匹配代价。

由于在SSOD训练的早期阶段，教师生成的伪标注通常是不准确和不可靠的，这使得在1对1分配策略下生成稀疏和低质量建议的风险很高。为了利用多个正查询来实现高效的半监督，作者提出使用1对多的分配代替1对1的分配：
在这里插入图片描述

其中 $C_N^M$ 是 M 和 N 的组合，即 M 个提议的子集被分配给每个伪框 $\hat{y}_i^t$ 中。使用分类得分 $s$ 和 IoU值 $u$ 的高阶组合作为匹配代价度量：
在这里插入图片描述

其中 $\alpha$ 和 $\beta$ 是分类得分和IoU的影响因子，论文中设 $\alpha=1,\beta=6$ 。通过1对多分配，选择 $m$ 值最大的 M 个提案作为正样本，其余为负样本。

分类损失和回归损失也做了相应修改：
在这里插入图片描述

其中 $\gamma$ 设置为2。通过为每个伪标签分配多个正建议，潜在的高质量正建议也获得了被优化的机会，大大提高了收敛速度，进而获得更好的伪标签。然而每个伪标签的多个正建议会导致重复的预测，为了缓解这一问题，在第二阶段切换回1对1的分配训练。通过这样做，在第一阶段训练后享受高质量的伪标签，并逐步减少重复预测，以在第二阶段通过1对1分配训练出NMS-free的检测器。该阶段的损失为：
在这里插入图片描述

教师网络的结果会采用NMS去重。

4.2 跨视图查询一致性

在传统的非DETR-based的SSOD框架中，给定相同的输入 $x$ 并采用不同的随机增广，一致性正则化通过最小化教师 $f_\theta$ 和学生 $f'_\theta$ 的输出之差来监督模型：
在这里插入图片描述

然而对于 DETR-based 框架，由于输入对象查询与输出预测结果之间没有明确的对应关系，因此进行一致性正则化变得不可行。
在这里插入图片描述

图4展示了提出的跨视图查询一致性模块。具体来说，对于每一幅未标图像，给定一组伪边框 $b$ ，用若干个 MLP 处理 RoI Align 提取的 ROI 特征：
在这里插入图片描述

其中， $F_t$ 和 $F_S$ 分别是教师和学生的骨干特征。随后， $c_t$ 和 $c_s$ 被视为跨视图查询嵌入，和另一个视图中的原始对象查询合并，作为解码器的输入：
在这里插入图片描述

其中 $q_.$ 和 $E_.$ 表示原始对象查询和编码特征， $\hat{o}_.$ 和 $o_.$ 分别表示跨视图查询和原始对象查询的解码特征。下标 $t$ 和 $s$ 分别表示教师和学生，为了避免信息泄露，还使用了注意力掩膜 $A$ 。
在跨视图查询嵌入的语义引导下，解码特征的对应关系可以自然的得到保证，一致性损失如下：
在这里插入图片描述

4.3 基于代价的伪标签挖掘

为了在跨视图查询一致性学习中挖掘出更多具有有意义语义内容的伪框，作者提出了一种基于代价的伪标签挖掘伪框模块，动态地在伪标注数据中挖掘出可靠的伪框。具体来说，在初始过滤的伪框和预测建议之间进行额外的二分匹配，并利用匹配代价来描述伪框的可靠性：
在这里插入图片描述

其中 $p_i$ ， $b_i$ 表示第 $i$ 个建议预测的分类和回归， $\hat{p}_j$ ， $\hat{b}_j$ 表示第 $j$ 个伪标签的类别和框坐标。

最后，在每个训练批次中，通过拟合高斯混合模型的匹配代价分布，将初始伪框类分为两种状态，如图5所示，匹配代价和伪框的质量非常吻合。作者进一步将可靠聚类中心的代价值设置为阈值，并收集所有代价低于阈值的伪框用于跨视图查询一致性计算。
在这里插入图片描述

先通过教师模型预测的每幅图像的所有建议框置信度的均值假方差获得图像级的置信度阈值，使用阈值过滤得到的初始伪标签，如图（b）所示。

代码如https://github.com/JCZ404/Semi-DETR/blob/main/detr_ssod/models/dino_detr_ssod.py#L921：
avg_score = torch.mean(proposal_box[:, -1])
std_score = torch.std(proposal_box[:, -1])

pseudo_thr = avg_score + std_score

# filter the pseudo bbox
valid_inds = torch.nonzero(proposal_box[:, -1] >= pseudo_thr, as_tuple=False).squeeze().unique()
然后对学生模型预测的结果和伪标签将进行匈牙利匹配，计算每一批次内每个边界框的匹配代价，用GMM模型拟合，如图（a）所示。作者认为成本较低的伪框更可能是可靠的伪框，因此从GMM模型中取较低的阈值来再次过滤伪标签，得到（d）中呈现的可靠伪框。最终会用人为设定的阈值过滤出的伪框计算无监督损失，并将GMM模型过滤的伪框和人为阈值过滤的伪框合并，用于计算一致性损失。

代码如https://github.com/JCZ404/Semi-DETR/blob/main/detr_ssod/models/dino_detr_ssod.py#L332：
valid_inds = torch.nonzero(match_gt_cost <= thr_, as_tuple=False).squeeze().unique()
valid_gt_inds_1 = match_gt_inds[valid_inds]


valid_gt_inds_2 = torch.nonzero(gt_scores >= base_thr, as_tuple=False).squeeze().unique()

            
valid_gt_inds = torch.cat((valid_gt_inds_1.to(imgs.device), valid_gt_inds_2.to(imgs.device))).unique()
  
gt_bboxes_list.append(gt_bboxes[valid_gt_inds_2, :4])
gt_labels_list.append(gt_labels[valid_gt_inds_2])
gt_scores_list.append(gt_scores[valid_gt_inds_2])
 
# ==== High recall pseudo labels for consistency ====
unsup_bboxes_gmm_list.append(gt_bboxes[valid_gt_inds, :4])
unsup_labels_gmm_list.append(gt_labels[valid_gt_inds])
unsup_scores_gmm_list.append(gt_scores[valid_gt_inds])