目标检测 Deformable DETR（2021）详细解读

news2026/4/1 7:25:19

文章目录

前言
整体网络架构
可变形注意力模块
backbone生成多尺度特征
多尺度位置编码
prediction heads
两个变体

前言

为解决DETR attention的计算量大导致收敛速度慢、小目标检测效果差的问题：提出了Deformable Attention，其注意力模块只关注一个query周围的少量关键采样点集，采样点的位置并非固定，而是可学习的（如左图所示，DETR的query要和其他所有的key计算相似度计算量为token的平方，而Deformable DETR只关注周围少量的key，大大减少了计算量，提高了收敛速度），并采用了多尺度策略提高了小物体的检测性能。
在这里插入图片描述

整体网络架构

左图为detr网络架构，右图为deformable detr网络架构。

改造点：

多尺度 feature map
Encoder部分的Muti-Head Self-Attention改为Multi-Scale Deformable Self-Attention
Dncoder部分的Muti-Head Attention改为Multi-Scale Deformable Cross-Attention
让检测头prediction heads预测边界框与参考点的相对偏移量，以进一步降低优化难度。
目标数上限从100提升至300，在最后预测的时候会选择top-k前100进行预测。

在这里插入图片描述
为什么只将Decoder中的自注意力模块不改成可变形注意力模块？

因为在交叉注意模块中，对象查询从特征映射中提取特征，其中的key是来自编码器的输出特征映射；在自注意模块中，对象查询相互交互，其中key是对象查询 (key value的来源一般都是同一个)；而本文提出的可变形注意模块是将卷积特征图作为关键元素设计的，因为交叉注意模块使用了encoder的输出，encoder的输入是特征图，因此只需要修改交叉注意模块就可以了。

可变形注意力模块

deformable思想：

deformable思想来源于DCN（deformable convolution可变形卷积），DCN的思想就是做卷积的时候，不是选取固定的周围n*n区域的像素点，而是用网络学习我到底取哪些点来做卷积。可变形卷积实际是指标准卷积操作中采样位置增加了一个偏移量offset（这个偏移量是通过学习得到的），这样卷积核就能在训练过程中扩展到很大的范围。

在这里插入图片描述
如图（a）普通卷积的卷积核权重的固定导致同一CNN在处理一张图的不同位置区域的时候感受野尺寸都相同，这对于编码位置信息的深层卷积神经网络是不合理的。图（b）是可变形卷积，在采样时可以更贴近物体的形状和尺寸。
在这里插入图片描述
deformable detr工作中，就是用到了这个思想：原本的DETR计算相似性的时候是稠密的，就是Q中的features要和K中的每个features计算相似性。这个计算量非常大。在deformable detr中，feature只与少部分其他features做相似性计算，然后对特征进行加权融合。

Deformable Attention：
在这里插入图片描述

第一行是DETR的attention过程，x是输入特征； $z_q$ 看做query，由x线性变换生成； $A_{mqk}$ 表示的是归一化注意力权重attention map，它是通过 Q× $K^T$ 算出来的； $W_{m}'x_k$ 其实就是value。m代表第几注意力头部。 $W_m$ 是注意力施加在value之后的结果经过线性变换，从而得到不同头部的输出结果，最后进行concat拼接（公式里面没有表示出来）。由此可知，在Transformer的多头注意力计算中，每个query都要与所有位置的key计算注意力权重，并且对应施加在所有的value上。

第二行是可变形多头注意力Deformable DETR， $p_q$ 代表 $z_q$ 的位置（理解成坐标），是2d向量称为参考点； $Δp_{mqk}$ 是采样集合点相对于参考点的位置偏移，位置偏移 $Δp_{mqk}$ 是可学习的，由query经过全连接层得到； $x(p_{q} + Δp_{mqk})$ 代表基于采样点位置插值出来的value，每个query在每个头部中，只需和这些位置的特征进行交互。

第三行是多尺度可变形多头注意力，和第二个公式基本一样，增加了多尺度，其中 L 表示从backbone中选取的feature map总层数，因为deformable的一个优化就是用了多尺度的feature map，提升小目标的检测性能。

在这里插入图片描述

backbone生成多尺度特征

保留尺寸小的特征图有利于检测大目标，保留尺寸大的特征图善于检测小目标。为此，Deformable DETR提取4个尺寸下的特征图（DETR仅1个尺寸），特征提取过程如下图：
在这里插入图片描述

多尺度位置编码

将四个特征图的token首尾相连concat拼接从而实现并行运算。
在这里插入图片描述
DETR的使用的是单尺度特征，而且使用的是三角函数，不同位置的（x、y）坐标会生成不同的位置编码，这肯定没问题，但是Deformable DETR是使用了4个不同尺度的特征，如果还是用原来的方法，那么在这些不同尺度的特征中，位于相同位置(x、y)坐标的位置会产生相同的位置编码，所以这个方法就无法区分这些不同特征相同位置的位置编码了。
针对这个问题，作者引入了level_embedding，不同层的特征图会有不同的level_embed 再让原先的每层位置编码+每层的level_embed，这样就可以区分不同特征相同位置的位置编码了。

prediction heads

分类头：负责预测每个查询（query）对应的目标类别。具体来说，分类头将解码器输出的特征映射到类别空间，从而得到每个查询的类别概率分布。

回归头：由于多尺度可变形关注模块提取的是参考点周围的图像特征，因此我们在设计检测头时将边界框预测为与参考点的相对偏移，以进一步降低优化难度。参考点被用作边界框中心的初始猜测，用检测头来预测与参考点的相对偏移。边界框的预测公式为：
在这里插入图片描述
其中 $\hat{p_q}$ = （ $\hat{p_{qx}}$ ， $\hat{p_{qy}}$ ）表示参考点； $b_{q(x,y,w,h)}$ 表示由预测头预测的相对偏移，用于对参考点的坐标进行修正； $\delta$ 和 $\delta^{-1}$ 是为了确保是归一化坐标。

两个变体

边界框迭代强化策略 Iterative Bounding Box Refinement.：

每个解码器层根据上一层的预测来细化边界框，这种策略允许模型在多层解码器中逐步修正预测的边界框位置和大小，从而提高最终的检测结果。

在标准的Deformable DETR中，最终box的预测仅来自于最后一层。使用refine机制时，decoder layer的输出结果会经过box_embed（类似于prediction heads里面的边界框回归头）得到偏移量的预测结果，然后进行一些计算，会得到新的参考点，这个参考点会传给下一层使用，也就是说每层使用的参考点信息来源是上一层经过了预测的box。

所以和普通版不同的是，iterative bounding box refinement在每一次decoder中的参考点都是经过box_embed的预测结果；而简单版不经过box_embed的预测，直接将上一层的参考点直接输入到下一层里面。
两阶段Deformable DETR

注意：two-stage策略必须和边界框策略一起使用。

根据Encoder的输出对参考点进行筛选，得到分类分数最高的top-k个参考点作为proposals，并且作为Decoder的参考点。而且Decoder中的query（tgt）和query pos都是由这些proposals生成的。

具体来说： Encoder会生成特征memory，再自己生成初步proposals（其实就是特征图上的点坐标 xywh）。然后分别使用第七个非共享检测头的分类分支对memory进行分类预测，得到对每个类别的分类结果；再用第七个非共享回归分支进行回归预测，得到proposals的偏移量（xywh）。再用初步proposals + 偏移量得到第一个阶段的预测proposals。然后选取top-k个分数最高的那批预测proposals作为Decoder的参考点。并且，Decoder的object query和 query pos都是由参考点通过位置嵌入（position embedding）再接上一个全连接层 + LN层处理生成的。

（因为每次Encoder后多加了一次prediction heads，所以叫两阶段）