机器学习算法那些事 | TPAMI 2024.9 | FeatAug-DETR：通过特征增强丰富DETRs的一对多匹配

news2025/6/29 11:39:30

本文来源公众号“机器学习算法那些事”，仅用于学术分享，侵权删，干货满满。

原文链接：TPAMI 2024.9 | FeatAug-DETR：通过特征增强丰富DETRs的一对多匹配

论文标题：FeatAug-DETR: Enriching One-to-Many Matching for DETRs With Feature Augmentation

论文链接：https://ieeexplore.ieee.org/document/10480276

这篇论文提出了一种新方法，通过增强特征（而不仅仅是图像数据）来提升DETR（检测转换器）在目标检测任务中的性能。论文的主要贡献包括：

一对多匹配的创新：DETR原本采用一对一匹配策略，这虽然避免了非极大值抑制（NMS）步骤，但导致正样本监督稀疏，进而训练收敛速度较慢。为了解决这个问题，本文提出通过数据增强（DataAug-DETR）和特征增强（FeatAug-DETR）来实现一对多匹配，从而加速训练并提升检测精度。
特征增强（FeatAug-DETR）：通过在特征层进行增强操作（如翻转、裁剪等），而不是在图像层进行操作，减少了重复输入不同版本的图像所带来的计算开销。这种增强方式不仅提高了模型的训练效率，还保持了推理阶段的速度不变。

本文通过特征增强策略提出了一种更高效的一对多匹配机制，相较于传统方法，FeatAug-DETR在减少计算量的同时大幅提升了DETR的训练速度和检测效果。这种方法易于集成到现有的DETR架构中，并在多个任务中表现出色。

1. 现有方法与论文方法对比

下图上部分的流程图表示DETR现有的一对多匹配方法。

现有方法通过增加额外的目标查询（object queries）来实现一对多匹配。每个真实物体会被多个不同的查询匹配，生成多个预测结果。这些方法通过多组查询来提升正样本的监督，进而加快训练速度。

问题：这种方法需要引入额外的目标查询，增加了计算成本。

image-20240919220004081

下半部分的流程图表示特征增强的DETR。

FeatAug-DETR采用了一种更高效的方式，不是直接增强图像，而是增强特征图。这种方法通过对特征图进行空间变换（如翻转或裁剪）生成多个增强特征版本，并在同一个批次中处理它们，从而实现一对多匹配。

优点：FeatAug-DETR比DataAug-DETR更高效，因为它只需要在模型中运行一次图像，通过增强特征而不是图像，减少了重复处理不同版本图像的计算开销。

2. DataAug-DETR和FeatAug-DETR的工作流程

image-20240919220639043

上图展示了DataAug-DETR和FeatAug-DETR的工作流程，详细说明了这两种方法如何通过数据增强或特征增强来实现一对多匹配，从而提升DETR模型的性能。

(a) DataAug-DETR：

图像增强过程：DataAug-DETR首先对输入图像进行多次空间增强操作（例如翻转和裁剪），生成多个增强版本的图像。在同一个训练批次中，多个增强后的图像会被一起输入到模型中。
特征提取：这些增强后的图像经过视觉骨干网络（vision backbone）处理，生成对应的特征图。
匹配与训练：通过在不同增强图像上分配不同的目标查询，模型实现了一对多的匹配。这种方法有效地增加了正样本监督，从而加快了模型训练速度，并提升了检测精度。

(b) FeatAug-DETR：

特征增强过程：与DataAug-DETR不同，FeatAug-DETR不是对图像进行增强，而是直接对视觉骨干网络输出的特征图进行增强。这种增强包括对特征图进行空间变换（例如翻转或裁剪），从而生成多个增强的特征图版本。
特征多样性：每个增强后的特征图都包含不同的空间信息，这使得目标查询可以与不同的特征区域进行匹配，进而实现一对多匹配。
高效性：FeatAug-DETR相比DataAug-DETR更加高效，因为它仅需要在视觉骨干网络中处理一次图像，避免了多次输入增强图像所带来的计算负担。

这两种方法在目标检测任务重实现更好的正样本监督和更快的收敛速度。

3.实验对比

如下图表，图像增强和特征增强，在多个DETR变体中都取得了显著的性能提升。相比于传统的一对一匹配方法，通过特征增强实现的一对多匹配既加快了模型的收敛速度，又提高了检测精度。与DataAug-DETR相比，FeatAug-DETR具有更高的效率。DataAug-DETR虽然也能提升模型性能，但由于其对图像的多次增强处理，计算开销较大。而FeatAug-DETR通过对特征图的增强，减少了计算量，同时保持了较高的检测精度。