【开放集目标检测】Grounding DINO

一、引言

论文： Grounding DINO: Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
作者： IDEA
代码： Grounding DINO
注意： 该算法是在Swin Transformer、Deformable DETR、DINO基础上的改进，在学习该算法前，建议先掌握相关知识。
特点： 该方法融合了文本和图像两个模态的数据，实现了开放集目标检测，即给定一个文本提示，自动框出目标所在，该目标可以是训练集中没有的类别。该方法主要通过特征增强模块、语言指导查询选择模块、跨模态解码模块实现上述功能。

二、详情

如上图所示，该方法从下到上主要包括五大模块：特征提取模块（Backbone）、特征增强模块（Feature Enhancer）、语言指导查询选择模块（Language-guide Query Selection）、跨模态解码模块（Cross-Modality Decoder）、损失计算模块（Loss）。

2.1 特征提取模块

Grounding DINO需要同时使用文本和图像两个模态的数据。因此，需要对两个模态的数据分别进行特征提取并统一特征维度，从而使它们能够相互进行交叉注意力的计算。

对于文本数据，要求以点.分割不同的目标提示，提示可以是带描述的caption或者直截了当的类别，例如，如下左子图的提示可以是dog.a stick.Two dogs.，预测结果如下右子图。

为了避免不同提示间的无效交互，作者提出Sub-sentence级的注意力掩码设置方法。如下为Sentence级、Word级、Sub-sentence级的掩码设置方法：

Sentence级的特征提取将一个句子提取为一个单词，它们独立进行forward，互不干扰，会丢失一些相关信息；Word级的特征提取会用同一个forward处理所有单词，每个单词间均相互作用，会引入一些无关信息浪费计算资源；Sub-sentence级的特征提取也用同一个forward进行处理，但是由.分割的特征之间不会相互干扰，这是通过引入注意力掩码实现的，这样就实现了相关与无关信息的交互折衷。

文本特征由BERT获取。BERT输出的特征维度为768，需要经一个MLP层映射到256的维度以达到与图像特征的统一。

对于图像数据，图像特征由Swin Transformer获取。Swin Transformer输出的是多尺度特征（通道数分别为96、192、384、768），所以也要将各层特征维度统一至256。可以通过1*1的2D卷积实现，之后通过GroupNorm归一化。

两类特征都要有对应的位置编码，图像使用Sinusoidal position embedding（空间位置编码），文本使用sine position embedding（正弦位置编码）。

2.2 特征增强模块

特征增强模块相当于DETR系列方法中的解码器，如下为特征增强模块中一个解码层的结构图：

首先，文本特征经过自注意力进行特征增强，图像特征经过Deformable DETR中的可变形自注意力进行特征增强。

其次，依次通过图像-文本交叉注意力和文本-图像交叉注意力进行跨模态的注意力交互实现特征融合。跨模态交叉注意力中两个模态均需要提供自己的 $Q u ery$ 和 $Va l u e$ ，图中还给出了 $Key$ 其实并不需要，所以跨模态交叉注意力中两个模态都有自己的输出。

以图像-文本交叉注意力为例，具体公式如下：

其中， $O$ 和 $P$ 分别为自注意力输出的图像和文本特征； $W^{(q,I)}$ 和 $W^{(q,L)}$ 分别为加权 $O$ 和 $P$ 以获得 $O^{(q)}$ （图像 $Q u ery$ ）和 $P^{(q)}$ （文本 $Q u ery$ ）的全连接参数； $W^{(v,I)}$ 和 $W^{(v,L)}$ 分别为加权 $O$ 和 $P$ 以获得 $O^{(v)}$ （图像 $Va l u e$ ）和 $P^{(v)}$ （文本 $Va l u e$ ）的全连接参数； $A tt n$ 为注意力参数，相当于标准注意力的 $\frac{QK^T}{\sqrt{d}}$ ，只是这里的 $Q$ 和 $K$ 分别为 $O^{(q)}$ 和 $P^{(q)}$ ； $O_{t2i}$ 和 $P_{i2t}$ 分别为图像-文本交叉注意力输出的图像特征和文本特征。

$O_{t2i}$ 的下标为 $t e x t t o ima g e$ ，所以它通过 $\text{SoftMax}(Attn)$ 加权 $P^{(v)}$ 再经全连接 $W^{out,I}$ 获得。其实该计算过程与标准交叉注意力一致，Query由图像提供、Key、Value由文本提供，分别为 $O^{(q)}$ 、 $P^{(q)}$ 、 $P^{(v)}$ 。
$P_{i2t}$ 的下标为 $ima g e t o t e x t$ ，所以它通过 $\text{SoftMax}(Attn^{T})$ 加权 $O^{(v)}$ 再经全连接 $W^{out,L}$ 获得。 $Attn^{T}$ 需要转置，因为 $A tt n$ 和 $O^{(v)}$ 的维度不匹配，主要原因是Key、Value中token个数相同但与Query中token个数不同。

最后，各自经过FNN（全连接+激活+Dropout+全连接+Dropout）即可的获得两个模态各自的输出。

2.3 语言指导查询选择模块

查询选择模块的结构图如下：

上图缺少很多细节。事实上，语言指导查询选择模块是以上一模块输出的图像特征memory_img和文本特征memory_txt为输入，利用文本特征指导图像特征的选择来初始化后续解码模块的查询（内容查询query_content和位置查询query_position）和参考点ref_point。详细的流程图如下：

可见，图中memory_new是获取后续内容的关键。首先，需要为memory_img中不同特征层上的所有像素点分配一个预设的建议框proposals_init（这与YOLO比较相似）。滤除其中不满足条件的建议框（例如，超界）得到proposals，再滤除与超界建议框对应的memory_img得到memory，memory经过全连接和LayerNorm即可获取memory_new（此时memory_new中token数量不确定，维度与memory_img一致）。

有了memory_new之后，我们可以结合memory_txt找出希望保留的特征索引idx_top900，获取过程如下：

可见，需要先计算memory_new（image_features）与memory_txt（text_features）的点积得到logits，它表示每个图像特征与每个文本特征间的相似度。我们希望留下与提示文本相似的图像特征作为查询，保留个数为900，于是得到idx_top900。

之后，我们可以依次获取内容查询query_content、位置查询query_position、参考点ref_point：

对于内容查询，可以直接按照idx_top900从memory_new中抽取。

对于位置查询和参考点，我们需要先获取ref_embed，它包括两个部分：proposals和box_embed。可以理解为proposals是先给定一个初始框，然后memory_new经 $\text{MLP}$ 预测一个修正项，两者相加得到最终的框。再在这些框中选出得分最高的900个，即为ref_embed。

对于位置查询，可通过将ref_embed进行正弦位置编码，再经过 $\text{MLP}$ 映射获取。
对于参考点，ref_embed的前两个值就是参考点，后两个值在进行可变形注意力时会加权在偏移量上，来定位用于计算注意力所需要用的像素点。

2.4 跨模态解码模块

跨模态解码模块是以特征增强模块输出的图像特征memory_img、文本特征memory_txt以及语言指导查询选择模块输出的内容查询query_content、位置查询query_position、参考点ref_point为输入，层层更新查询和参考点。其单层结构图如下：

自注意力的 $Q u ery$ 、 $Key$ 、 $Va l u e$ 为语言指导查询选择模块输出的内容查询query_content、位置查询query_position。

图像交叉注意力为Deformable DETR中的可变形交叉注意力。内容 $Q u ery$ 为前一层的自注意力输出，位置 $Q u ery$ 为语言指导查询选择模块输出的位置查询query_position， $Key$ 和 $Va l u e$ 为特征增强模块输出的图像特征memory_img，参考点为语言指导查询选择模块输出的ref_point。

文本交叉注意力为标准交叉注意力。 $Q u ery$ 由前一层的图像交叉注意力输出， $Key$ 和 $Va l u e$ 为特征增强模块输出的文本特征memory_txt。

FFN为全连接+激活+Dropout+全连接+Dropout。

跨模态解码模块每层都会输出更新后的查询，更新后的查询后跟一个 $\text{MLP}$ 即可获得参考点的修正量，修正量加上上一层输出的参考点即得到更新后的参考点（也可以视为该层的框预测），更新后的查询后跟一个 $\text{MLP}$ 即可获得该层的类别预测。

最后一层输出的更新后的查询和参考点即为最终的框和类别预测。

2.5 损失计算模块

对于框回归任务，使用L1损失和GIOU损失。对于目标分类任务，使用对比损失（Contrastive loss）。对比损失就是将解码层输出查询与特征增强模块输出的所有文本特征进行点积，该相似度作为logits。这样每个文本特征的logits中都会有900个相似度值，可以计算focal损失（每一个文本特征都有一个最相似的查询），即为对比损失。

所有文本特征和所有查询两两之间都要计算上述损失构成成本矩阵，然后通过二分图匹配确定文本与查询的一一对应（每个文本都有一个查询与之对应，查询通常有空余），之后只需要对匹配好的文本-查询进行损失计算和梯度更新即可。