【开放集目标检测】Grounding DINO

news2025/1/12 13:37:21

一、引言

论文: Grounding DINO: Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
作者: IDEA
代码: Grounding DINO
注意: 该算法是在Swin Transformer、Deformable DETR、DINO基础上的改进,在学习该算法前,建议先掌握相关知识。
特点: 该方法融合了文本和图像两个模态的数据,实现了开放集目标检测,即给定一个文本提示,自动框出目标所在,该目标可以是训练集中没有的类别。该方法主要通过特征增强模块、语言指导查询选择模块、跨模态解码模块实现上述功能。

二、详情

如上图所示,该方法从下到上主要包括五大模块:特征提取模块(Backbone)、特征增强模块(Feature Enhancer)、语言指导查询选择模块(Language-guide Query Selection)、跨模态解码模块(Cross-Modality Decoder)、损失计算模块(Loss)。

2.1 特征提取模块

Grounding DINO需要同时使用文本和图像两个模态的数据。因此,需要对两个模态的数据分别进行特征提取并统一特征维度,从而使它们能够相互进行交叉注意力的计算。

对于文本数据,要求以点.分割不同的目标提示,提示可以是带描述的caption或者直截了当的类别,例如,如下左子图的提示可以是dog.a stick.Two dogs.,预测结果如下右子图。

为了避免不同提示间的无效交互,作者提出Sub-sentence级的注意力掩码设置方法。如下为Sentence级、Word级、Sub-sentence级的掩码设置方法:

Sentence级的特征提取将一个句子提取为一个单词,它们独立进行forward,互不干扰,会丢失一些相关信息;Word级的特征提取会用同一个forward处理所有单词,每个单词间均相互作用,会引入一些无关信息浪费计算资源;Sub-sentence级的特征提取也用同一个forward进行处理,但是由.分割的特征之间不会相互干扰,这是通过引入注意力掩码实现的,这样就实现了相关与无关信息的交互折衷。

文本特征由BERT获取。BERT输出的特征维度为768,需要经一个MLP层映射到256的维度以达到与图像特征的统一。

对于图像数据,图像特征由Swin Transformer获取。Swin Transformer输出的是多尺度特征(通道数分别为96、192、384、768),所以也要将各层特征维度统一至256。可以通过1*1的2D卷积实现,之后通过GroupNorm归一化。

两类特征都要有对应的位置编码,图像使用Sinusoidal position embedding(空间位置编码),文本使用sine position embedding(正弦位置编码)。

2.2 特征增强模块

特征增强模块相当于DETR系列方法中的解码器,如下为特征增强模块中一个解码层的结构图:

首先,文本特征经过自注意力进行特征增强,图像特征经过Deformable DETR中的可变形自注意力进行特征增强。

其次,依次通过图像-文本交叉注意力文本-图像交叉注意力进行跨模态的注意力交互实现特征融合。跨模态交叉注意力中两个模态均需要提供自己的 Q u e r y Query Query V a l u e Value Value,图中还给出了 K e y Key Key其实并不需要,所以跨模态交叉注意力中两个模态都有自己的输出

以图像-文本交叉注意力为例,具体公式如下:

其中, O O O P P P分别为自注意力输出的图像和文本特征; W ( q , I ) W^{(q,I)} W(q,I) W ( q , L ) W^{(q,L)} W(q,L)分别为加权 O O O P P P以获得 O ( q ) O^{(q)} O(q)(图像 Q u e r y Query Query)和 P ( q ) P^{(q)} P(q)(文本 Q u e r y Query Query)的全连接参数; W ( v , I ) W^{(v,I)} W(v,I) W ( v , L ) W^{(v,L)} W(v,L)分别为加权 O O O P P P以获得 O ( v ) O^{(v)} O(v)(图像 V a l u e Value Value)和 P ( v ) P^{(v)} P(v)(文本 V a l u e Value Value)的全连接参数; A t t n Attn Attn为注意力参数,相当于标准注意力的 Q K T d \frac{QK^T}{\sqrt{d}} d QKT,只是这里的 Q Q Q K K K分别为 O ( q ) O^{(q)} O(q) P ( q ) P^{(q)} P(q) O t 2 i O_{t2i} Ot2i P i 2 t P_{i2t} Pi2t分别为图像-文本交叉注意力输出的图像特征和文本特征。

O t 2 i O_{t2i} Ot2i的下标为 t e x t   t o   i m a g e text~to~image text to image,所以它通过 SoftMax ( A t t n ) \text{SoftMax}(Attn) SoftMax(Attn)加权 P ( v ) P^{(v)} P(v)再经全连接 W o u t , I W^{out,I} Wout,I获得。其实该计算过程与标准交叉注意力一致,Query由图像提供、Key、Value由文本提供,分别为 O ( q ) O^{(q)} O(q) P ( q ) P^{(q)} P(q) P ( v ) P^{(v)} P(v)
P i 2 t P_{i2t} Pi2t的下标为 i m a g e   t o   t e x t image~to~text image to text,所以它通过 SoftMax ( A t t n T ) \text{SoftMax}(Attn^{T}) SoftMax(AttnT)加权 O ( v ) O^{(v)} O(v)再经全连接 W o u t , L W^{out,L} Wout,L获得。 A t t n T Attn^{T} AttnT需要转置,因为 A t t n Attn Attn O ( v ) O^{(v)} O(v)的维度不匹配,主要原因是Key、Value中token个数相同但与Query中token个数不同。

最后,各自经过FNN(全连接+激活+Dropout+全连接+Dropout)即可的获得两个模态各自的输出。

2.3 语言指导查询选择模块

查询选择模块的结构图如下:

上图缺少很多细节。事实上,语言指导查询选择模块是以上一模块输出的图像特征memory_img和文本特征memory_txt为输入,利用文本特征指导图像特征的选择来初始化后续解码模块的查询(内容查询query_content和位置查询query_position)和参考点ref_point 详细的流程图如下:

可见,图中memory_new是获取后续内容的关键。首先,需要为memory_img中不同特征层上的所有像素点分配一个预设的建议框proposals_init(这与YOLO比较相似)。滤除其中不满足条件的建议框(例如,超界)得到proposals,再滤除与超界建议框对应的memory_img得到memory,memory经过全连接和LayerNorm即可获取memory_new(此时memory_new中token数量不确定,维度与memory_img一致)。

有了memory_new之后,我们可以结合memory_txt找出希望保留的特征索引idx_top900,获取过程如下:

可见,需要先计算memory_new(image_features)与memory_txt(text_features)的点积得到logits,它表示每个图像特征与每个文本特征间的相似度。我们希望留下与提示文本相似的图像特征作为查询,保留个数为900,于是得到idx_top900

之后,我们可以依次获取内容查询query_content、位置查询query_position、参考点ref_point

  • 对于内容查询,可以直接按照idx_top900从memory_new中抽取。

对于位置查询和参考点,我们需要先获取ref_embed,它包括两个部分:proposals和box_embed。可以理解为proposals是先给定一个初始框,然后memory_new经 MLP \text{MLP} MLP预测一个修正项,两者相加得到最终的框。再在这些框中选出得分最高的900个,即为ref_embed

  • 对于位置查询,可通过将ref_embed进行正弦位置编码,再经过 MLP \text{MLP} MLP映射获取。
  • 对于参考点,ref_embed的前两个值就是参考点,后两个值在进行可变形注意力时会加权在偏移量上,来定位用于计算注意力所需要用的像素点。

2.4 跨模态解码模块

跨模态解码模块是以特征增强模块输出的图像特征memory_img、文本特征memory_txt以及语言指导查询选择模块输出的内容查询query_content、位置查询query_position、参考点ref_point为输入,层层更新查询和参考点。其单层结构图如下:

自注意力 Q u e r y Query Query K e y Key Key V a l u e Value Value为语言指导查询选择模块输出的内容查询query_content、位置查询query_position

图像交叉注意力为Deformable DETR中的可变形交叉注意力。内容 Q u e r y Query Query为前一层的自注意力输出,位置 Q u e r y Query Query为语言指导查询选择模块输出的位置查询query_position K e y Key Key V a l u e Value Value为特征增强模块输出的图像特征memory_img,参考点为语言指导查询选择模块输出的ref_point

文本交叉注意力标准交叉注意力 Q u e r y Query Query由前一层的图像交叉注意力输出, K e y Key Key V a l u e Value Value为特征增强模块输出的文本特征memory_txt

FFN为全连接+激活+Dropout+全连接+Dropout。

跨模态解码模块每层都会输出更新后的查询,更新后的查询后跟一个 MLP \text{MLP} MLP即可获得参考点的修正量,修正量加上上一层输出的参考点即得到更新后的参考点(也可以视为该层的框预测),更新后的查询后跟一个 MLP \text{MLP} MLP即可获得该层的类别预测。

最后一层输出的更新后的查询和参考点即为最终的框和类别预测。

2.5 损失计算模块

对于框回归任务,使用L1损失GIOU损失。对于目标分类任务,使用对比损失(Contrastive loss)。对比损失就是将解码层输出查询与特征增强模块输出的所有文本特征进行点积,该相似度作为logits。这样每个文本特征的logits中都会有900个相似度值,可以计算focal损失(每一个文本特征都有一个最相似的查询),即为对比损失。

所有文本特征和所有查询两两之间都要计算上述损失构成成本矩阵,然后通过二分图匹配确定文本与查询的一一对应(每个文本都有一个查询与之对应,查询通常有空余),之后只需要对匹配好的文本-查询进行损失计算和梯度更新即可。

致谢:

本博客仅做记录使用,无任何商业用途,参考内容如下:
文本提示检测图像任意目标(Grounding DINO) 的使用以及全网最详细源码讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1904793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32崩溃问题排查

文章目录 前言1. 问题说明2. STM32(Cortex M4内核)的寄存器3. 崩溃问题分析3.1 崩溃信息的来源是哪里?3.2 崩溃信息中的每个关键字代表的含义3.3 利用崩溃信息去查找造成崩溃的点3.4 keil5中怎么根据地址找到问题点3.5 keil5上编译时怎么输出…

数据库(表)

要求如下: 一:数据库 1,登录数据库 mysql -uroot -p123123 2,创建数据库zoo create database zoo; Query OK, 1 row affected (0.01 sec) 3,修改字符集 mysql> use zoo;---先进入数据库zoo Database changed …

护网在即,知攻善防助力每一位安服仔~

前言 是不是已经有师傅进场了呢~ 是不是有安服🐒在值守呢~ 您是不是被网上眼花缭乱的常用应急响应工具而烦恼呢? 何以解忧?唯有知攻善防! 创作起源: 驻场、护网等,有的客户现场只允许用客户机器&…

【计组OS】I/O方式笔记总结

苏泽 “弃工从研”的路上很孤独,于是我记下了些许笔记相伴,希望能够帮助到大家 目录 IO方式:程序查询方式 工作原理 程序查询方式的详细流程: 1. 初始化阶段 2. 发送I/O命令 3. 循环检查状态 4. 数据传输 5. 继续查询 6…

机器人动力学模型及其线性化阻抗控制模型

机器人动力学模型 机器人动力学模型描述了机器人的运动与所受力和力矩之间的关系。这个模型考虑了机器人的质量、惯性、关节摩擦、重力等多种因素,用于预测和解释机器人在给定输入下的动态行为。动力学模型是设计机器人控制器的基础,它可以帮助我们理解…

自动化设备上位机设计 四

目录 一 设计原型 二 后台代码 一 设计原型 二 后台代码 using SimpleTCP; using SqlSugar; using System.Text;namespace 自动化上位机设计 {public partial class Form1 : Form{SqlHelper sqlHelper new SqlHelper();SqlSugarClient dbContent null;bool IsRun false;i…

【MySQL基础篇】多表查询

1、多表关系 概述:项目开发中,在进行数据库表结构操作设计时,会根据业务需求及业务模板之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在着各种联系,基本上分为三种…

react dangerouslySetInnerHTML将html字符串以变量方式插入页面,点击后出现编辑状态

1.插入变量 出现以下编辑状态 2.解决 给展示富文本的标签添加css样式 pointerEvents: none

windows上传app store的构建版本简单方法

我们在上传app store上架,或上传到testflight进行ios的app测试的时候,需要mac下的上传工具上传ipa文件到app store的构建版本上。 然而windows电脑这些工具是无法安装的。 因此,假如在windows上开发hbuilderx或uniapp的应用,可以…

【JavaEE】多线程进阶

🤡🤡🤡个人主页🤡🤡🤡 🤡🤡🤡JavaEE专栏🤡🤡🤡 文章目录 1.锁策略1.1悲观锁和乐观锁1.2重量级锁和轻量级锁1.3自旋锁和挂起等待锁1.4可…

分子AI预测赛Task4笔记(结束)

话不多说,直接上官方链接:‌​​​‍​⁠​‌​‍​​​‌​⁠‬​‬​​‌​​​​‬‬​​​​‍⁠‍‌​⁠Task3:进阶baseline详解 - 飞书云文档 (feishu.cn)Task4:持续尝试&…

嵌入式C语言面试相关知识——内存管理(不定期更新)

嵌入式C语言面试相关知识——内存管理(不定期更新) 一、博客声明二、自问题目1、嵌入式系统的内存布局是怎么样的?2、动态内存分配在嵌入式系统中的使用有什么注意事项?3、什么是内存碎片,如何减少内存碎片&#xff1f…

用ThreadLocal解决线程隔离问题

存在的以下代码所示的线程隔离问题: package study.用ThreadLocal解决线程隔离问题;/*线程隔离 - 在多线程并发场景下,每个线程的变量都应该是相互独立的线程A:设置(变量1) 获取(变量1)线程B&a…

【数据结构与算法】希尔排序

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《数据结构与算法》 期待您的关注 ​

Go语言--复合类型之map、结构体

map Go 语言中的 map(映射、字典)是一种内置的数据结构,它是一个无序的 key-value 对的集合,比如以身份证号作为唯一键来标识一个人的信息。 格式 map [keyType]valueType 在一个 map 里所有的键都是唯一的,而且必须是支持和!操作符的类型…

实验五 图像增强—空域滤波

一、实验目的 了解图像平滑滤波器(均值滤波和中值滤波)和图像锐化算子(Sobel算子、Prewitt算子、Laplacian算子)在工程领域中的应用;理解图像平滑滤波器和图像锐化算子的工程应用范围;掌握图像平滑滤波器和…

[终端安全]-4 移动终端之硬件架构安全

1 移动终端硬件架构 上图图展示了典型移动终端硬件架构,包括应用处理器(AP)、基带处理器(BP)以及各类共享组件和外设,所有组件通过AXI总线(和APB桥)连接在一起。以下分别介绍基于整…

【Linux进阶】文件系统6——理解文件操作

目录 1.文件的读取 1.1.目录 1.2.文件 1.3.目录树读取 1.4.文件系统大小与磁盘读取性能 2.增添文件 2.1.数据的不一致(Inconsistent)状态 2.2.日志式文件系统(Journaling filesystem) 3.Linux文件系统的运行 4、文件的删…

69.WEB渗透测试-信息收集- WAF、框架组件识别(9)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:68.WEB渗透测试-信息收集- WAF、框架组件识别(8) 有无waf存在&am…

秋招提前批面试经验分享(下)

⭐️感谢点开文章👋,欢迎来到我的微信公众号!我是恒心😊 一位热爱技术分享的博主。如果觉得本文能帮到您,劳烦点个赞、在看支持一下哈👍! ⭐️我叫恒心,一名喜欢书写博客的研究生在读…