DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION (论文解析)

news2024/10/11 2:17:54

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 重新审视 Transformers 和 DETR
    • 4 方法
      • 4.1 用于端到端目标检测的可变形transformer
      • 4.2 Deformable Detr的其他改进和变型
    • 5 实验
      • 5.1 和DETR 比较
      • 5.2 消融实验
      • 5.3 与最先进方法的比较
    • 6 结论

FOR END-TO-END OBJECT DETECTION)

摘要

DETR最近被提出,旨在消除目标检测中许多手工设计组件的需要,同时表现出良好的性能。然而,它在收敛速度较慢和特征空间分辨率有限方面存在问题,这是由于Transformer注意模块在处理图像特征图时的局限性。为了减轻这些问题,我们提出了Deformable DETR,其注意模块仅关注围绕参考点的一小组关键采样点。Deformable DETR可以在比DETR少10倍的训练时期内实现更好的性能(特别是在小目标上)。对COCO基准的大量实验证明了我们方法的有效性。代码已发布在https://github.com/fundamentalvision/Deformable-DETR。

1 介绍

现代目标检测器使用许多手工设计的组件(Liu等,2020),例如锚点生成、基于规则的训练目标分配、非极大值抑制(NMS)后处理等。它们不是完全端到端的。最近,Carion等人(2020)提出了DETR,以消除对这些手工设计组件的需求,并构建了第一个完全端到端的目标检测器,实现了非常有竞争力的性能。DETR利用了一个简单的架构,将卷积神经网络(CNNs)和Transformer(Vaswani等,2017)编码器-解码器组合在一起。他们充分利用了Transformer的多功能和强大的关系建模能力,以替代手工制定的规则,在适当设计的训练信号下实现了这一目标。

尽管DETR具有有趣的设计和良好的性能,但它也存在一些问题:(1)DETR需要比现有的目标检测器更长的训练周期才能收敛。例如,在COCO(Lin等,2014)基准测试中,DETR需要500个周期才能收敛,这大约比Faster R-CNN(Ren等,2015)慢10到20倍。 (2)DETR在检测小目标方面性能相对较低。现代目标检测器通常利用多尺度特征,其中小目标是从高分辨率特征图中检测的。与此同时,高分辨率特征图会导致DETR的复杂度不可接受。上述问题主要归因于Transformer组件在处理图像特征图方面的不足。在初始化时,注意模块将几乎均匀的关注权重分配给特征图中的所有像素。需要较长的训练周期来学习关注权重以便聚焦在稀疏的有意义的位置上。另一方面,Transformer编码器中的注意权重计算与像素数量呈二次计算关系。因此,处理高分辨率特征图具有非常高的计算和内存复杂度。

在图像领域,可变形卷积(Deformable Convolution)是一种强大且高效的机制,可以聚焦于稀疏的空间位置。它自然地避免了上述提到的问题。然而,它缺乏元素关系建模机制,这是DETR成功的关键。
在这里插入图片描述
在本论文中,我们提出了Deformable DETR,它缓解了DETR的收敛速度慢和高复杂性的问题。它结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力。我们提出了可变形注意模块,它作为所有特征图像素中杰出关键元素的预过滤器,关注一小组采样位置。该模块可以自然地扩展到聚合多尺度特征,无需FPN(特征金字塔网络)的帮助。在Deformable DETR中,我们利用(多尺度)可变形注意模块替换了处理特征图的Transformer注意模块,如图1所示。

Deformable DETR为我们提供了利用各种端到端目标检测器变种的可能性,这要归功于其快速的收敛速度以及计算和内存的高效性。我们探索了一种简单而有效的迭代边界框细化机制,以提高检测性能。我们还尝试了一个两阶段的Deformable DETR,其中区域提议也是由Deformable DETR的变种生成的,然后输入解码器进行迭代边界框细化。

在COCO基准测试上进行的大量实验证明了我们方法的有效性。与DETR相比,Deformable DETR在需要的训练时期较少的情况下可以取得更好的性能(尤其是对于小目标)。提出的两阶段Deformable DETR的变种可以进一步提高性能。代码已发布在https://github.com/fundamentalvision/Deformable-DETR。

2 相关工作

高效的注意力机制。Transformers(Vaswani等人,2017)涉及自注意力和交叉注意力机制。 Transformers 最为人所知的一个问题是,在大量关键元素的情况下,其时间和内存复杂度非常高,这在许多情况下限制了模型的可扩展性。最近,已经进行了许多努力来解决这个问题(Tay等人,2020b),这

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/993475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python数据分析之Pandas库(一)

Pandas介绍 Pandas有两种常用的数据结构: Series (一维数据)与 DataFrame(二维数据)。 Series 是一种类似于一维数组的对象,能保存不同数据类型。 DataFrame 是一个二维的表格型的数据结构。 一、导入 i…

网络编程(一):服务器模型、Java I/O模型、Reactor事件处理模型、I/O复用

文章目录 一、Socket和TCP/IP协议族的关系二、服务器模型1.C/S模型(Client/Server Model)2.P2P模型(Peer-to-Peer Model) 三、Java的I/O演进1.BIO(阻塞)(1)工作流程(2&am…

MATLAB实现函数拟合

目录 一.理论知识 1.拟合与插值的区别 2.几何意义 3.误差分析 二.操作实现 1.数据准备 2.使用cftool——拟合工具箱 三.函数拟合典例 四.代码扩展 一.理论知识 1.拟合与插值的区别 通俗的说,插值的本质是根据现有离散点的信息创建出更多的离散点&#xf…

HashMap解决哈希冲突

要了解 Hash冲突,那首先我们要先了解 Hash 算法和 Hash 表。 Hash算法 Hash 算法,就是把任意长度的输入,通过散列算法,变成固定长度的输出,这个输出结果是散列值。 Hash表 Hash 表又叫做“散列表”,它是通…

7.Xaml Image控件

1.运行图片 2.运行源码 a.xaml源码 <!--Source="/th.gif" 图像源--><!--Stretch="Fill" 填充模式--><Image x:Name

Qemu 架构 硬件模拟器

Qemu 架构 硬件模拟器 Qemu 是纯软件实现的虚拟化模拟器&#xff0c; 几乎可以模拟任何硬件设备&#xff0c; 我们最熟悉的就是能够模拟一台能够独立运行操作系统的虚拟机&#xff0c; 虚拟机认为自己和硬件打交道&#xff0c; 但其实是和 Qemu 模拟出来的硬件打交道&#xff…

单元测试界的高富帅,Pytest框架 (二) 前后置方法和 fixture 机制

前言 上一篇文章入门篇咱们介绍了pytest的基本使用&#xff0c;这一篇文章专门给大家讲解pytest中关于用例执行的前后置步骤处理,pytest中用例执行的前后置处理既可以通过测试夹具(fixtrue)来实现&#xff0c;也可以通过xunit 风格的前后置方法来实现。接下来我们一起看看如何…

利用procrank和lsof定位出客户软件内存OOM的问题

最近遇到一些事情&#xff0c;觉得挺憋屈的&#xff0c;可是再憋屈总得往前走吧&#xff01;打工人&#xff0c;不好办啊&#xff01;事情是这样的&#xff0c;笔者在芯片原厂负责SDK和行业解决方案输出的&#xff0c;可以理解成整体SDK turnkey方案。但是有些客户多少还要改一…

单例模式(饿汉式单例 VS 懒汉式单例)

所谓的单例模式就是保证某个类在程序中只有一个对象 一、如何控制只产生一个对象&#xff1f; 1.构造方法私有化&#xff08;保证对象的产生个数&#xff09; 创建类的对象&#xff0c;要通过构造方法产生对象 构造方法若是public权限&#xff0c;对于类的外部&#xff0c;可…

企业架构LNMP学习笔记31

负载均衡服务器的高可用备用服务器配置&#xff1a; 负载均衡服务器的配置比单台服务器的配置要高很多。硬件上要上一个台阶。 所有的请求流量都要经过负载均衡服务器&#xff0c;负载均衡服务器压力很大&#xff0c;防止她宕机&#xff0c;导致后端web服务器都不可用&#xf…

ROS2下使用TurtleBot3-->SLAM导航(仿真)RVIZ加载不出机器人模型

一、问题描述 在使用台式机进行仿真时&#xff0c;大部分例程很顺利&#xff0c;但在SLAM导航时&#xff0c;在RVIZ中却一直加载不出机器人模型&#xff0c;点击Navigation2 Goal选择目标点进行导航时&#xff0c;无响应。 启动后在RVIZ2和终端看到一个错误 按照官网的指令试…

探索 Wall-E 的寻路算法

几年前,Yandex 组织了一场名为“机器人快递员”的竞赛,并提供了诱人的奖品:一张参加专业人士封闭式自动驾驶会议的门票。该竞赛类似于一场游戏,参与者的任务是在地图上找到最佳路线并使用机器人快递员优化送货。 当我深入研究这个主题时,我发现尽管路线查找问题已经解决,…

ms17-010(永恒之蓝)漏洞复现

目录 前言 一、了解渗透测试流程 二、使用nmap工具对win7进行扫描 2.1 2.2 2.3 2.4 2.5 三、尝试ms17-010漏洞利用 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 四、结果展示 4.1 4.2 4.3 4.4 4.5 总结 前言 ms17-010&#xff08;永恒之蓝&am…

mysql八股1

参考MySQL八股文连环45问&#xff08;背诵版&#xff09; - 知乎 (zhihu.com) 基础 1.范式 第一范式&#xff1a;强调的是列的原子性 第二范式&#xff1a;要求实体的属性完全依赖于主关键字。所谓完全 依赖是指不能存在仅依赖主关键字一部分的属性。&#xff08;就是主键不…

Linux防火墙(iptables)

一、linux的防火墙组成 linux的防火墙由netfilter和iptables组成。用户空间的iptables制定防火墙规则&#xff0c;内核空间的netfilter实现防火墙功能。 netfilter&#xff08;内核空间&#xff09;位于Linux内核中的包过滤防火墙功能体系&#xff0c;称为Linux防火墙的“内核…

Vulnhub:Kira: CTF靶机

kali&#xff1a;192.168.111.111 靶机&#xff1a;192.168.111.238 信息收集 端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.238访问80端口 点击upload发现是个上传点 点击language发现存在文件包含 上传php图片马再利用文件包含反弹shell http://1…

CIO40: 数字化落地最佳实践(16000字)

1-数字化规划 第一步&#xff1a;数字化规划。CIO要根据企业的发展现况及未来战略方向、根据企业董事长的布局和理念、根据企业各业务板块领导人的格局和理念&#xff0c;做出一份董事长和领导层高度认同的数字化规划&#xff0c;而且需要用PPT进行完整和专业的表达出来&#x…

基于SpringBoot的在线教育平台系统

基于SpringBootVue的线教育平台系统&#xff0c;前后端分离 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBoot、Vue、Mybaits Plus、ELementUI工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 【主要功能】 角色&#xff1a;管理员、学生、老师 …

When后接什么动词?

1、when doing用法 When从句的主语和主句的主语是同一个或同一些人时&#xff0c;从句的谓语动词为be动词doing形式&#xff0c;可以把从句的主语和be动词省略&#xff0c;即用when doing sth是指当做……事情时&#xff0c; 如&#xff1a; when doing the work,we should b…

(以太网交换机)BCM53575B0KFSBG、BCM56870A0KFSBG、BCM56760B0KFSBG采用BGA封装的集成电路

一、BCM53575B0KFSBG 1G/2.5G/10G/25G TSN 连接交换机 应用 中小企业 2.5G/10G 交换机 使用时间敏感网络&#xff08;TSN&#xff09;的工业以太网/汽车应用 联网 (TSN) 的工业以太网/汽车应用 用于基站、闪存阵列、专业级音频/视频和机箱背板的嵌入式连接交换机 &#xff08;…