DETR Doesn’t Need Multi-Scale or Locality Design

摘要

提出了一种改进的DETR检测器，使用单尺度特征映射和全局交叉注意计算，没有特定的局部性约束，与之前领先的基于DETR的检测器形成对比，后者将多尺度和局部性的架构归纳偏差重新引入解码器。本文证明了两种简单的技术在平面设计中令人惊讶地有效，以弥补多尺度特征地图和局部性约束的缺乏。
第一个是添加到交叉注意公式中的box到像素相对位置偏差(BoxRPB)术语，它可以很好地指导每个查询关注相应的对象区域，同时还提供编码灵活性。
第二种是基于掩膜图像建模(MIM)的主干预训练，它有助于学习具有细粒度定位能力的表示，并且对于纠正多尺度特征映射上的依赖关系至关重要。
代码地址
在这里插入图片描述

本文方法

在这里插入图片描述
(左):黑色网格表示输入图像。蓝色草图区域表示预测的边界框。我们用红星标记盒子的左上角和右下角。(中):我们的BoxRPB计算沿x轴和y轴的所有位置和两个角之间的偏移量。然后，我们沿着每个轴连接偏移向量形成(∆x1，∆x2)和(∆y1，∆y2)，并应用一个独立的MLP来获得相对位置偏差项Bx和By。

(右):我们广播并将Bx加到By中得到二维相对偏差项b，我们将关注值较高的位置涂成红色，否则涂成蓝色。

Box-to-Pixel Relative Position Bias

BoxRPB：对于弥补多尺度特征的缺乏和明确的局部交叉注意计算至关重要。

原始的DETR解码器采用标准的交叉注意计算:
在这里插入图片描述
原始的交叉注意公式通常在普通的DETR框架中关注不相关的图像区域。我们推测，这可能是其精度远低于多尺度和明确局域设计的原因。受视觉变压器架构中像素到像素相对位置偏差成功的启发，我们探索了使用盒到像素相对位置偏差(BoxRPB)进行交叉注意计算:
在这里插入图片描述
B是由盒子和像素之间的几何关系决定的相对位置偏差
一个朴素的BoxRPB实现：采用连续RPB方法来计算4d- box-topixel的相对位置偏差。原始的连续RPB方法通过在相应的二维相对坐标上应用元网络产生每个相对位置构型的偏置项。当将此方法扩展到BoxRPB时，我们使用左上角和右下角来表示一个框，并使用这些角点与图像像素点之间的相对位置作为元网络的输入。
在这里插入图片描述
分解的BoxRPB实现：现在，我们提出一个更有效的BoxRPB实现。与直接计算4d-输入的偏置项不同，我们考虑将偏置计算分解为两项:

其他改进

利用了掩蔽图像建模预训练（MIM），显示出更好的局部性
用SimMIM预训练的权重初始化Swin变压器主干，这些权重是在ImageNet上学习的

重新参数化的边界盒回归
我们想要强调的另一个改进是在执行边界框回归时重新参数化边界框。
原始的DETR框架及其大多数变体直接将框中心和大小缩放为[0,1]。由于大目标在损失计算中占主导地位，因此在检测小目标时将面临困难。相反，我们将第l解码器层的盒中心和大小重新参数化为:
在这里插入图片描述