【计算机视觉】DETR 系列的最新综述!

news2025/1/4 19:38:13

论文地址:

https://arxiv.org/pdf/2306.04670.pdf

项目地址:

https://github.com/mindgarage-shan/trans_object_detection_survey

在这里插入图片描述

Transformer在自然语言处理(NLP)中的惊人表现,让研究人员很兴奋地探索它们在计算机视觉任务中的应用。与其他计算机视觉任务一样,DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中。它是一种最先进的(SOTA)目标检测方法,特别是在图像中目标数量相对较少的情况下。尽管DETR很成功,但它的训练收敛速度慢,对小目标的性能较差。因此,人们提出了许多改进方法来解决这些问题,从而极大地改进了DETR。自2020年以来,基于Transformer的目标检测引起了越来越多的关注,并展示了令人印象深刻的性能。尽管研究社区已经对Transformer在视觉领域进行了大量追踪,但仍然缺少关于使用Transformer进行2D目标检测的进展的综述。本文对21篇有关DETR研究进展的论文进行了详细的综述。从Transformer的基本模块开始,如自注意力、对象查询和输入特征编码。然后,介绍了DETR的最新进展,包括backbone修改、查询设计和注意力精化。还从性能和网络设计方面比较了所有检测Transformer。希望这项研究能增加研究人员对解决在目标检测领域应用Transformer面临的现有挑战的兴趣。

从引用量、发展时间线和DETR方法变体的魔改思路分布等角度展示DETR的发展:

在这里插入图片描述
关于变形金刚的文献统计综述。

  • (a)每年Transformer论文的引用次数。
  • (b)过去12个月有关侦测变压器的论文的引用次数。
  • ( c)为改进性能和培训一致性而对原始检测变压器(DETR)进行修改的百分比。
  • (d)每年使用DETR作为基线的同行评审出版物的数量。
  • (e)关于探测任务的DETR的重要发展的不详尽的时间表概述。

其中图c展示了DETR变体主要对Attention进行了修改,其次是query,最后是Backbone。

在这里插入图片描述

表1总结了相关变体的修改思路和亮点:

在这里插入图片描述

检测变压器(DETR)改进概述,使训练收敛更快,提高小目标的性能。式中,Bk表示骨干,Pre表示预训练,Attn表示注意,Qry表示变压器网络的查询。这里显示了对主要贡献的描述。

图2信息量较大,一图展示了多种变体的框架:

在这里插入图片描述

概述了检测变压器(DETR)及其改进的最新方法,以提高性能和训练收敛性。它将检测视为一组预测任务,并使用Transformer将网络从非最大抑制(NMS)等后处理步骤中解放出来。在这里,添加到DETR中的每个模块都用不同的颜色表示,并带有相应的标签(如右侧所示)。

该综述分别对图2中的方法进行了简要的介绍,并通过图3-9把图2中的子图抽离了出来对了些比对。

在这里插入图片描述

原DETR在加入deformation -DETR、UP-DETR、Efficient-DETR后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为Deformable-DETR,左下方框为UP-DETR,右下方框为Efficient-DETR。

在这里插入图片描述

原DETR加入SMCA-DETR、TSP-DETR、condition -DETR后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。

使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框表示SMCA-DETR,左下方框表示TSP-DETR,右下方框表示condition -DETR。

在这里插入图片描述

原DETR加入WB-DETR、PnP-DETR、Dynamic-DETR后的结构。

这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。

右上方框为WB-DETR,左下方框为PnP-DETR,右下方框为Dynamic-DETR。

在这里插入图片描述

加入YOLOS-DETR、Anchor-DETR和Sparse-DETR后的原始DETR结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。

使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为YOLOS-DETR,左下方框为Anchor-DETR,右下方框为Sparse-DETR。

在这里插入图片描述

原DETR加入D2ETR、FP-DETR、CF-DETR后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为D2ETR,左下方框为FP-DETR,右下方框为CF-DETR。

在这里插入图片描述

原DETR加入DAB-DETR、DN-DETR和AdaMixer后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为DAB-DETR,左下方框为DN-DETR,右下方框为AdaMixer。

在这里插入图片描述
原DETR加入REGO-DETR[26]和DINO[27]后的结构。这里,顶部的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。左下方框表示REGO-DETR,右下方框表示DINO。

表3将上述review的算法的性能进行了汇总:

在这里插入图片描述
在这里插入图片描述

图10和图11分别对训练epoch和model size对结果的影响,算法对大中小目标的性能差异进行了对比:
在这里插入图片描述
在这里插入图片描述

表4对各个算法的优势和局限性进行了总结:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/717522.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spark | 性能调优原理与步骤 | 案例讲解

🔥 跟着梁哥打卡一波spark的性能调优~ 文章目录 1、Spark调优原理与步骤2、Spark任务UI监控3、Spark调优案例3.1、资源配置优化3.2、利用缓存减少重复计算3.3、数据倾斜调优3.4、broadcastmap代替join3.5、reduceByKey/aggregateByKey代替groupByKey 1、…

为什么门店需要店务管理系统?店务管理系统的重要性有哪些?

随着经济市场的回暖,实体行业特别是门店都需要更好的营销手段以留住客户、转化客户,因此需要一个好的工具来完成对于店铺经营数据的实时了解和管理,这就需要用到店务经营管理系统。如蚓链数字化店务管理系统具备股东营销系统、收银系统及进销…

Linux5.12 rsync 远程同步

文章目录 计算机系统5G云计算第四章 LINUX rsync 远程同步一、rsync概述二、配置 rsync 服务1.配置rsync源服务器2.发起端 三、发起端配置 rsyncinotify1.修改rsync源服务器配置文件2.调整 inotify 内核参数3.安装 inotify-tools4.在另外一个终端编写触发式同步脚本 计算机系统…

7.4.2 【Linux】特殊设备 loop 挂载 (镜像文件不烧录就挂载使用)

挂载光盘/DVD镜像文件 如此一来我们不需要将这个文件烧录成为光盘或者是 DVD 就能够读取内部的数据了。 创建大文件以制作 loop 设备文件! 创建大型文件 假设我要创建一个空的文件在 /srv/loopdev ,那可以这样做: 将 512 块,每…

爱普生L358打印机墨仓有墨水但墨水指示灯常亮

产品类型:墨仓式多功能一体机 最大处理幅面:A4 涵盖功能:打印/复印/扫描 黑白打印速度:9ipm 耗材类型:分体式墨盒 打印分辨率:57601440dpi 问题描述: 爱普生L358彩…

RK3399平台开发系列讲解(入门篇)为什么需要学习Linux驱动

🚀返回专栏总目录 文章目录 一、为什么需要学习Linux驱动二、如何学习Linux驱动开发三、Linux 驱动学习的难点四、学习资料沉淀、分享、成长,让自己和他人都能有所收获!😄 一、为什么需要学习Linux驱动 学习Linux驱动开发有以下几个重要的原因: 深入理解系统底层:学习L…

【CSS】定位

📝个人主页:爱吃炫迈 💌系列专栏:HTMLCSS 🧑‍💻座右铭:道阻且长,行则将至💗 文章目录 标准流(Normal Flow)元素定位position属性静态定位-static…

(免费分享)基于springboot,vue在线小说系统

本系统功能包括: 普通用户端登录注册,小说的分类,日榜,月榜,年榜, 小说的阅读,分章节,小说的评论,收藏,推荐等等,以 及后台小说的维护&#xff0c…

Linux服务器扩容VG时报错 Couldn‘t create temporary archive name

今天扩容磁盘遇到失败报错。 [rootmysql ~]# vgextend rhel /dev/sdc1 Couldnt create temporary archive name. 原因:磁盘使用100%,无法执行挂载,须预留部分空间出来。解决办法:删掉其中无用文件、log日志继续操作即可。释放空间…

SpringBoot+Vue实现文件上传功能

目录 1.后端代码部分: 2.前端代码部分 3.效果展示 1.后端代码部分: RestController RequestMapping("/file") public class FileController {private final String UPLOAD_PATH "D:/OBS/";//这里写上你需要上传的路径&#xff…

对于大连企业而言如何提升网站的曝光率

对于大连企业而言,提升网站的曝光率是非常重要的,可以通过以下几种方式来实现: 1. 优化网站结构和内容:确保网站的结构清晰,布局合理,并且内容丰富、有吸引力。网站的页面加载速度也要快,以提升…

leetcode 110. 平衡二叉树

2023.7.4 平衡二叉树 ,经典题目 。需要利用到之前求二叉树高度的思路。 先定义一个求高度的函数,然后使用递归的方式判断左子树和右子树的高度差是否小于等于1,下面上代码: class Solution { public:int get_length(TreeNode* cu…

C语言学习(三十二)---动态内存(一)

在昨天的内容中,我们学习有关结构体和联合体在内存中存储的相关问题,由于粗心,有一个代码重复了,感谢这位朋友的提醒: 现在已经对内容进行了修改,感谢朋友们的支持。 今天我们将学习有关动态内存的相关问…

Android Studio 和 Android Gradle 插件的已知问题

Android Studio 的已知问题 渲染 Compose 预览时出错 从 Android Studio Chipmunk 开始,如果您在问题面板中看到 java.lang.NoSuchFieldError: view_tree_saved_state_registry_owner 或 java.lang.ClassNotFoundException: androidx.savedstate.R$id,…

大势速影:机载激光快速建模测绘装备

实景三维模型高逼真、高真实、高精度的展示地物的几何结构、纹理色彩、空间位置等信息,在当前测绘应急保障、规划等领域具备极大的应用价值。但是,激光雷达和倾斜摄影建模技术均无法较好的满足快速建模应用需求,具体表现在:激光点…

LiDAR SLAM 闭环——BoW3D: Bag of Words for Real-time Loop Closing in 3D LiDAR SLAM

先说总结 现算法已经开源,代码链接: GitHub - YungeCui/BoW3D: [RA-L] BoW3D: Bag of Words for Real-Time Loop Closing in 3D LiDAR SLAM. 背景 SLAM(同时定位与地图构建)是一种让机器人在构建环境地图的同时,定位…

zk集群启动异常:Error contacting service. It is probably not running.

# ./zkServer.sh status ZooKeeper JMX enabled by default Using config: /opt/aspire/product-kafka3.4/zookeeper/bin/../conf/zoo.cfg Error contacting service. It is probably not running. 查看 是否 iptables 限制了 端口访问, 2181端口, 需要把…

浅谈企业信息化能源管理系统的设计与应用

安科瑞 华楠 摘要: 我国的经济社会不断发展,对环境和资源造成的压力也越来越大。为了促进经济和社会的协调发展,可持续发展的理念被提出,企业信息化能源管理系统应运而生。将上述管理系统应用在企业之中,可以节约能源&#xff0…

Linux下输出带背景颜色和字体颜色的文本

最近在用Go语言开发项目,在跟踪Go底层实现时发现控制台输出的文本有样式,发现linux下在控制台输出可以控制文本样式,在此做个整理。 目录 1.发现 2.命令行输出测试 3.Linux下样式文本 1.发现 以下是我的一段Go代码:test_exec…

2023年07月IDE流行度最新排名

点击查看最新IDE流行度最新排名(每月更新) 2023年07月IDE流行度最新排名 顶级IDE排名是通过分析在谷歌上搜索IDE下载页面的频率而创建的 一个IDE被搜索的次数越多,这个IDE就被认为越受欢迎。原始数据来自谷歌Trends 如果您相信集体智慧&am…