【目标检测】Transformers在小目标检测中的应用:最新技术的基准测试和调查

news2024/9/21 17:29:32

《Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art》
Transformers在小目标检测中的应用:最新技术的基准测试和调查
原文:https://arxiv.org/abs/2309.04902

1 研究背景和目的

小目标检测(SOD)对现有目标检测方法具有挑战性,而 Transformers 在计算机视觉任务中表现出色,本文旨在探讨 Transformers 在 SOD 中的性能优势及潜在原因。
与基于 CNN 的检测器相比,Transformers 在某些视频或图像数据集中表现更优,但其在 SOD 中的优势原因尚不完全明确。

2 相关工作概述:

介绍了基于 CNN 的目标检测器,如 YOLO、SSD、RetinaNet 等,以及 Transformer 模型的基本架构,包括编码器和解码器。
详细阐述了 DETR 和 ViT - FRCNN 这两个开创性的基于 Transformer 的目标检测器,它们在小目标检测和分类中表现欠佳,且存在计算成本高等问题。

使用Transformer 的小目标检测和流行的目标检测方法
在这里插入图片描述
DETR ViT-FRCNN
在这里插入图片描述

3 基于 Transformers 的 SOD 技术分类及讨论

3.1 对象表示技术Object Representation

各种对象表示技术被用于目标检测,如 RelationNet++ 通过 BVR 模块结合不同表示的优势,CenterNet++ 采用自下而上的方法提高了 SOD 的召回率。

3.2 高分辨率和多尺度特征图的快速注意力Fast Attention for High - Resolution or Multi - Scale Feature Maps

保持高分辨率的特征图对 SOD 性能至关重要,Deformable DETR 通过减少注意力计算的复杂度提高了对小目标的检测性能,Dynamic DETR 利用特征金字塔实现了高效的从粗到细的目标检测,O2DETR 用局部卷积代替注意力机制,CF - DETR 提出了 Transformer Enhanced FPN 模块,FEA - Swin 通过前景增强注意力整合上下文信息。

3.3 基于Transformer的检测器Fully Transformer - Based Detectors

ViDT 将 YOLOS 模型扩展为适用于 SOD 的高效检测器,DFFT 使用两个编码器保持高精度,SRDD 通过评分系统去除编码器中的冗余令牌。

3.4 架构和模块修改Architecture and Block Modifications

为改善 SOD 性能,许多研究对 DETR 进行了改进,如 TSP - FCOS 和 TSP - RCNN 消除了解码器中的交叉注意力模块并引入新的二分匹配技术,Conformer 融合了 CNN 和 Transformer 的特征表示,DIAG - TR 引入 GLFI 模块平衡小目标的尺度差异,其他方法还包括修改注意力机制、使用锚点、改进查询设计、添加局部感知块等。

3.5 辅助技术Auxiliary Techniques

辅助技术包括辅助解码 / 编码损失、迭代框细化、自上而下的监督、预训练、数据增强、一对多标签分配和去噪训练等,这些技术与主任务结合可提高性能。

3.6 改进特征表示Improved Feature Representation

一些方法通过改进特征表示来提高 SOD 性能,如 AO2 - DETR 对任意对象旋转具有鲁棒性,DETR++ 使用多尺度特征学习,PointDet++ 利用人体姿态估计技术,GhostNet 提供高质量的多尺度特征,MS Transformer 使用自监督学习和随机掩码,SOF - DETR、NLFFTNet、DeoT、HTDet、MDCT 等通过融合特征或改进模块来提取更丰富的特征。

3.7 时空信息Spatio - Temporal Information

视频中的小目标检测具有挑战性,一些基于 Transformer 的模型如 TrackFormer、TransT、Trans VOD、PTSEFormer、Sparse VOD、DAFA、VSTAM、FAQ 等被用于视频目标检测,这些模型利用时空信息和特征融合来提高检测性能。

4 实验结果与基准测试

4.1 Datasets

除了 MS COCO 数据集,还介绍了 12 个新的 SOD 数据集,包括 UAV123、MRS - 1800、SKU - 110K、BigDetection、Tang et al.、Xu et al.、DeepLesion、Udacity Self Driving Car、AMMW Dataset、URPC 2018 Dataset、UAV dataset、Drone - vs - bird。

4.2 视觉应用的基准测试Benchmarks in Vision Applications

4.2.1 常规应用Generic Applications

在 MS COCO 数据集上评估了小目标检测器的性能,发现大多数技术受益于 CNN 和 Transformer 的混合架构,预训练和多尺度学习是最有效的策略,CBNet V2 性能较优,DETR 容易过估计物体数量,Faster RCNN 和 SSD 在检测小目标时存在不足。
在这里插入图片描述

4.2.2 航空影像小目标检测Small Object Detection in Aerial Images

在 DOTA 图像数据集上,ReDet 通过多尺度学习和在 ImageNet 上的预训练取得了最高的精度值。
在这里插入图片描述

在这里插入图片描述

4.2.3 医学影像小目标检测Small Object Detection in Medical Images

在 DeepLesion CT 图像数据集上,MS Transformer 表现最佳,该数据集相对其他医学影像任务挑战性较小。
在这里插入图片描述

4.2.4 水下图像小目标检测Small Object Detection in Underwater Images

在 URPC 2018 数据集中,HTDet 是唯一被识别的基于 Transformer 的技术,且显著优于 SOTA CNN 方法,但总体 mAP 分数较低,说明水下目标检测仍是一项艰巨任务。

4.2.5 主动毫米波小目标检测Small Object Detection in Active Milli - Meter Wave Images

在 AMMW 数据集中,MATR 是唯一结合 Transformer 和 CNNs 的技术,能显著提高 SOD 性能。
在这里插入图片描述

4.2.6 视频小目标检测Small Object Detection in Videos

在 ImageNet VID 数据集上,Deformable DETR 与 FAQ 结合取得了最高性能,但 mAP@[0.5, 0.95] 仍较低,视频中的 SOD 仍有很大研究空间。

5 讨论

对比了基于 Transformer 的方法和基于 CNN 的方法的分类,发现一些策略在两者中都有应用,而 Transformer 通过时空变压器或更新对象查询来处理时空分析。
指出预训练和多尺度学习是提高性能的关键策略,但 Transformers 存在参数多、训练时间长、依赖大规模数据集和计算资源等问题。
小目标检测面临的主要挑战是漏检和重复检测框问题,可通过使用高分辨率图像、增强特征金字塔和优化解码器中的对象查询来解决。
除了通用和航空图像应用,Transformers 在其他应用中的发展相对不足,特别是在医学成像等关键领域。

6 结论

本文综述了 60 多篇关于 Transformers 用于小目标检测的研究论文,从七个不同角度进行了分析,并比较了与 CNN 框架的异同,还介绍了相关数据集,未来研究可探索小目标检测在各应用中的独特挑战,以及使用 Transformer 模型的优势和改进策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

calico安装

3.20 版本 https://blog.csdn.net/weixin_42094245/article/details/131633980 手动创建了/var/lib/calico/nodename 手动更新了这2个资源 ll /etc/cni 摆烂了 装个3.8.0的 curl 172.30.30.64:32568 curl: (7) Failed connect to 172.30.30.64:32568; Connection timed o…

修复线上问题,又造成了个Bug

项目场景 这是一位朋友给我分享的实际线上问题,看似简单却害了项目再次造出一个bug来。 场景:线上环境中,需要查询某某业务数据,条件是状态,之前产品只要求查两个状态的,但现在让他再多查一个状态的。 自…

编程思维模式比编程语言内容等更重要也更难传授-2024-机器人篇

历程 在2015年起步,然后不断迭代更新优化。 2019:机器人编程实践-ROS2基础与应用- 第四版纲要 里面的重点就是机器人编程的方法论! 2022:机器人编程实践-ROS2基础与应用-第⑦版 2022:ROS2机器人编程实践基础与应用…

macOS系统(intel)编译MAVSDK安卓平台so库

1.克隆mavsdk源码: git clone https://github.com/mavlink/MAVSDK.git --recursive 生成makefile前先手动修改protobuf版本为最新的(如:27.3) 下载的与你安装的版本要一致: 手动编译并安装libLZMA与openssl 如proto文件有修改,需要手动运行 ./tools/generate_from_protoc.sh重…

9 正则表达式:Java爬虫和正则表达式、String中的正则表达式方法(基本语法7)

文章目录 前言一、正则表达式1 [ ] 语法(1)[ABC] 和 [^ABC](2)[A-Z]和[a-zA-Z]小总结2 特殊字符语法(\w 这些)3 数量符4 \ 、()、 |5 锚点 ^ 和 $,\b,\B6 (?i) : 忽略其后面的大小写 ---- 这个Java是可以的,其他语言我不知道(正则表达式虽然大多通用,但也有部分是…

2018年高教社杯全国大学生数学建模竞赛(ABCD题)题目及附件

数学建模练习,老师发了一个2018年的C题论文,让我们复现,结果找题目附件找好长时间,都是泪……好在最后找到了,给大家分享一下。 2018年的数学建模C题不知道官网的链接打不开了已经,找附件找了好长时间………

第1章-03-VS Code开发工具安装

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲。 🎉欢迎 👍点赞✍评论⭐收…

智能微气候:精准调控背后的算法革命

( 于景鑫 国家农业信息化工程技术研究中心)当人工智能遇见现代农业,会擦出怎样的火花?随着数字农业、智慧农业的蓬勃发展,人工智能技术正以前所未有的速度渗透到农业生产的方方面面。其中,以深度学习为代表的前沿算法,尤其是大语言模型(LLM),正在成为驱…

【实战教程】一键升级CentOS 7.9.2009至OpenSSL 1.0.2u:加固你的Linux服务器安全防线!

文章目录 【实战教程】一键升级CentOS 7.9.2009至OpenSSL 1.0.2u:加固你的Linux服务器安全防线!一、 背景二、 升级步骤2.1 检查 OpenSSL 版本2.2 安装 OpenSSL 依赖包2.3 下载 OpenSSL 的新版本2.4 解压缩下载的文件2.5 编译并安装 OpenSSL2.5.1 切换到…

Android Forensics with Belkasoft

本课程专为需要在工作中处理 Android 设备并希望增强知识并获得 Android 获取和分析实践经验的数字取证调查员而设计。 您将学到什么? 如何使用Android采集的基本和高级方法,例如基于ADB和APK降级采集 可以使用哪些特定于芯片组的采集方法 如何分析 Andr…

Android实战:实现注册界面

目录 前言 布局图 实现过程 1.导入图片 2.创建分割线样式 3.创建文本样式 4.创建输入框样式 5.XML布局文件 测试 6.实现注册功能 前言 在前面,我们已经学习了一些常见的界面布局和界面控件,那么本篇我们就来结合前面所学的知识,来…

导入导出常见的空指针异常NULLPointException

使用row.getCell()方法去判断是否为空 若不为空再获取 不确定excel文件里的单元格类型 可以使用row.getCell().getCellTypeEnum() 去判断是什么类型 若要把从数据库查询出来的数据导出到excel表格中 要先判断内容是否为空

Spring Boot + MyBatis-Plus 实现 MySQL 主从复制动态数据源切换

Spring Boot MyBatis-Plus 实现 MySQL 主从复制动态数据源切换 一、前言1. 添加依赖2. 配置主从数据源3. 创建数据源配置类4. 创建数据源上下文5. 定义数据源类型6. 配置数据源切换7. 创建DynamicDataSourceConfig8. 创建DynamicRoutingDataSource9. 创建注解10. 使用注解 一、…

1.Java:集合

集合作用: 1.动态保存任意多个对象。 2.提供操作对象方法比如add,remove,set,get等方法。 3.使用集合添加,删除代码简洁。 集合分类 集合分为单列集合以及双列集合。 单列集合: 双列集合: Collection接口特点 1.Collection…

【Nginx】 Nginx Rewrite 相关功能

Nginx服务器利用 ngx_http_rewrite_module 模块解析和处理rewrite请求 此功能依靠 PCRE(perl compatible regular expression),因此编译之前要安装PCRE库 rewrite是nginx服务器的重要功能之一,用于实现URL的重写,URL的重写是非常有用的功能 比…

智慧环卫与智慧城市:以人文本的创新发展之路

智慧环卫与智慧城市:以人文本的创新发展之路 前言智慧环卫与智慧城市 前言 智慧环卫和智慧城市的建设是当今社会发展的重要趋势,它们对于提升城市管理水平、改善居民生活质量具有至关重要的意义。随着国家政策对新型城市建设的大力推动,智慧…

学习 node.js 六 Markdown 转为 html,zlib

目录 Markdown 转为 html 安装 ejs语法 标签含义 1. 纯文本标签 2. 输出经过 HTML 转义的内容 3. 输出非转义的内容(原始内容) marked browserSync zlib gzip deflate gzip 和 deflate 区别 http请求压缩 Markdown 转为 html 什么是markdown? Markdo…

数据库系列之GaussDB数据库高可用部署方案

GaussDB数据库主备架构的基本组件,以及基于华为云底座和轻量化部署TPOPS两种方式的典型高可用部署场景介绍。 1、GaussDB数据库组件 1.1 GaussDB数据库集中式主备集群基本组件 CM由CM Agent、CM Server和OM monitor构成: CM Agent:管理服务组件,由OMM拉起(周期1秒),主要…

ARM32开发——PWM高级定时器

🎬 秋野酱:《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 需求高级定时器通道互补输出开发流程通道配置 打开互补保护电路完整代码 需求 点亮2个灯,采用互补pwm的方式 高级定时…

【Unity脚本】使用脚本修改游戏对象静态属性

【知识链】Unity -> -> 脚本系统 -> 访问游戏对象 -> 静态属性【摘要】本文介绍了Unity中游戏对象的静态和动态类型,并说明了如何修改静态属性。 文章目录 第一章 Unity中的静与动第二章 静态和动态对象1. 静态对象(Static Objects&#xf…