SCI论文解读复现【NO.1】基于Transformer-YOLOv5的侧扫声纳图像水下海洋目标实时检测

news2024/12/26 8:06:59

       此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮助大家解答疑惑。解读的系列文章,本人已进行创新点代码复现,有需要的朋友可关注私信我。

一、摘要

针对传统人工检测侧扫声纳(SSS)图像中水下目标的不足,提出了一种实时自动目标识别(ATR)方法。该方法包括图像预处理、采样、变压器模块与YOLOv 5s集成的ATR(即TR-YOLOv 5s)和目标定位。针对SSS图像目标稀疏、特征贫乏的特点,提出了一种新的TR-YOLOv 5s网络和降采样原理,并引入注意机制,以满足水下目标识别的精度和效率要求。实验结果表明,该方法的平均准确率(mAP)为85.6%,实时识别速度约为0.068s/幅图像。  

二、网络模型及核心创新点

 广泛应用实时水下目标检测的关键是找到一种合适的检测算法,该算法平衡了速度和精度,并且由于甲板单元的缓慢更换和船上AUV的有限尺寸,该算法还应该具有尽可能低的计算要求。YOLOv 5是SOTA目标检测算法,具有快速检测速度和精确精度,在COCO val 2017数据集上获得了72%的AP@0.5。此外,YOLOv 5s的最小型号大小仅为14兆,部署方便。然而,YOLOv 5s是使用光学样本集构建的,该光学样本集不完全适用于SSS图像。此外,水下目标样本的数量远小于光学样本。单独使用YOLOv 5s进行实时检测并不能满足需求,需要结合侧扫声纳图像与光学图像的具体差异对YOLO进行改进。与光学图像相比,由于分辨率的限制,声纳图像具有稀疏特征,而由于海域过于广阔,声纳图像往往在目标周围具有稀疏特征。因此,本文专门在YOLOv 5s中增加了一个变换器模块,以关注目标自身特征,忽略目标周围的特征,即:在YOLOv 5s中引入了注意机制,提出了一种改进的实时目标检测算法TR-YOLOv 5s,如图6所示。

三、应用数据集

我们收集了两个SSS图像集A和B,用于探测器训练和测试。数据集A主要包括来自Google检索的经过辐射校正、斜距校正等后处理的图像。而数据集B主要包括未经任何优化的原始灰度图像。数据集A和B的一些示例如图12所示。

 四、实验效果(部分展示)

为了评估由预训练加权和变压器模块引起的探测器性能增加,进行了消融研究。我们比较了四种情况下的精确度、召回率、mAP、macro-F2评分和GFLOPs,包括从头训练的YOLOv 5、通过预训练加权初始化的YOLOv 5、从头训练的TR-YOLOv 5和通过预训练加权初始化的TR-YOLOv 5,测试集见表4。

 与SSS测量后的目标检测相比,所提出的实时检测对于现场的快速目标检测和定位是非常有效的。为了进一步评估该方法的性能,还将该方法与现有的主要实时水下目标检测方法进行了比较,如表8所示。

五、实验结论

该方法集原始图像预处理、采样、TR-YOLOv 5s检测器和定位于一体,实现了侧扫声纳瀑布图像中水下目标的自动检测,具有较高的精度和效率,能够满足实时水下目标检测的要求。根据SSS图像的特点和目标在检测图像中的分布情况,给予相应的变换模块、下采样等措施是非常必要的,这对提高水下目标实时检测的精度和效率是非常有益的。为了获得更好的性能,可以考虑声纳数据增强、少样本学习甚至零炮学习方法,并研究模型压缩技术等更灵活的网络结构进行实时检测。此外,还应考虑基于SSS图像特性的特殊模块或底层计算模式。

六、投稿期刊介绍

 

注:论文原文出自Real-Time Underwater Maritime Object Detection in Side-Scan Sonar Images Based on Transformer-YOLOv5. 本文仅用于学术分享,如有侵权,请联系后台作删文处理。

解读的系列文章,本人已进行创新点代码复现,有需要的朋友可关注下面公众号,私信我。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/133029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三旗舰焕新发布引领品牌向上 长城汽车登陆2022广州车展

近日,长城汽车携哈弗、魏牌、欧拉、坦克、长城炮以及沙龙六大品牌,登陆第二十届广州国际汽车展览会(以下简称“2022广州车展”)。魏牌全新旗舰蓝山DHT-PHEV、坦克500 PHEV长续航版、大型高性能豪华皮卡山海炮等车型联袂而至&#…

创建静态库存文件 ansible(3)

目录 创建一个名为/home/student/ansible/inventory的静态库存文件如下所示: (1)node1是dev主机组的成员 (2)node2是test主机组的成员 (3)node1和node2是prod主机组的成员 (4&am…

【Qt】控件——QPlainTextEdit使用简单介绍:常用方法及信号、逐行读取编辑框的内容、使用自带的快捷菜单、作为日志显示窗口

Qt控件-QPlainTextEdit使用 参考链接: https://blog.csdn.net/seniorwizard/article/details/109726147; https://blog.csdn.net/seniorwizard/article/details/109726147 文章目录Qt控件-QPlainTextEdit使用QPlainTextEdit控件简单介绍1. 逐行读取文本编辑框的内容…

【PCB专题】什么是金属化孔(PTH)和非金属化孔(NPTH)

计出来的,并不是放在那里好看的,每个不同的孔洞都有其目的。一般来说孔洞越多,PCB的成本也越高。 PCB中的孔类型大体上可以被区分为PTH(Plating Through Hole)电镀导通孔,和NPTH(None Plating Through Hole)非电镀导通孔两大类。这里说的通孔是指从PCB的一面直接贯穿到…

Spark数据倾斜性能调优

目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 知识拓展 coalesce 和 repartition 的区别 数据倾斜的解决方案 解决方案一&am…

【哈工大大一年度项目经验与感想】立项篇 中(2021.9.17~2021.11.17)

第四步:立项报告书写 立项报告的目的在于向答辩老师或者投资方阐述你的项目是什么?做什么的?解决什么问题?打算怎么解决这些问题?有什么创新点、特色?目标?所以一篇立项报告正文需要包括以下内容…

21级数据结构考前模拟题

说明: 此试卷为21级数据结构考前模拟题,老师并未给出标准答案,故以下所有答案均为博主给出,并只供参考,不保证其正确性!!! 只更新了部分,还在写题中!&#xf…

同步+异步日志系统(C++实现)

对于一个服务器而言,不论是在调试中还是在运行中,都需要通过打日志的方式来记录程序的运行情况。本文设计的日志系统实现了同步与异步两种功能,原理见下图: 同步日志:日志写入函数与工作线程串行执行,由于涉…

人脸识别与美颜算法实战-基于机器学习的人脸识别

机器学习根据输出的类型一般分为两类,分类和回归。分类的输出一般是离散值,回归输出的值一般是连续的。比如,人脸识别这种就属于分类问题,房价预测一般是一个回归问题。 鸢尾花分类 # -*- coding: UTF-8 -*- # 导入数据集 from sklearn.datasets import load_iris iris =…

InnoDB事务原理理解(redo log,undo log,锁,MVCC的理解)

目录事务事务的四大特性ACID事务相关SQL语句事务原理事务如何解决隔离性隔离性总结事务如何解决原子性、一致性、持久性redo log 重做日志CheckPoint 检查点机制Double Writer 双写磁盘undo log 回滚日志锁表级锁表读锁、表写锁元数据锁MDL意向锁行级锁行读锁,行写锁…

coremail邮件安全网关产品详细学习笔记(上)

声明 本文是学习中国企业邮箱安全性研究报告. 下载地址而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 钓鱼邮件 钓鱼邮件的规模 在本章内容中,钓鱼邮件是指含有恶意欺诈信息的邮件,包括OA钓鱼邮件、鱼叉邮件、钓鲸邮件、CEO仿…

PHP代码审计

1. "" 与 “” 在进行比较的时候,会先将字符串类型转化成相同,如果整型跟字符型比较字符或从左往右提取整型直到遇到字符结束,再比较。 在进行比较的时候,会先判断两种字符串的类型是否相等,当等号两边类…

nodejs调用matlab的.m文件

1、问题的提出: 在一些web服务中,后台采用nodejs轻量化服务器接口,而matlab的.m文件编写了算法模块,两者调用时,官方没有提供相应的文档(当然也可能我没找到)。因此,本文提出了matl…

上岸学姐的浙大MPA复试流程和内容经验介绍

管理类考研笔试落下帷幕,大家有没有因为周末不上课,平时不刷题而感到生活好像缺了些啥呢?没关系,复试已经可以开始准备啦,尤其是对于我们报考MPA项目的同学们来说。 预计二月份下旬笔试成绩会先出来了&#xff0c…

逻辑回归-sklearn

1.概述 逻辑回归,是一种线性分类器。其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。 最小二乘法就是用来求解线性回归中参数的数学方法。 2.sklearn中的逻辑回归 (1)逻辑回归分类器(又叫l…

Eth08-EthCtrlConfig:以太网控制器的硬件操作的timeout值配置

文章目录 1 EthCtrlConfig:以太网控制器的硬件操作的timeout值配置传送门 ==>> AutoSAR入门和实战系列总目录 1 EthCtrlConfig:以太网控制器的硬件操作的timeout值配置 /MICROSAR/Eth_Enet/Eth/EthConfigSet/EthCtrlConfig: Configuration of the individual control…

【Python应用】tkinter简介

简介 tkinter是Python自带的GUI库。 tkinter的全称是Tk Interface。 其中Tk是开发桌面应用的GUI工具库,它是Tcl的标准GUI,而Tcl全称Tool Command Language,是一种动态编程语言,可用于桌面应用开发。关于Tk和Tcl,可以…

顺序表中基本操作的具体思路与实现(C语言版)

顺序表中基本操作的具体思路与实现(C语言版)一、操作前的准备工作(1)定义操作算法中用到的预定义常量和类型(2)定义线性表中可能拥有的元素的最大个数(3)定义顺序表类型二、具体操作…

ZC706P+ADRV9009连接RADIOVERSE详解之一

第一步是:安装WINDOWS软件。 从下面网页里面下载所需要的软件和文件: https://www.analog.com/en/design-center/landing-pages/001/transceiver-evaluation-software.html 下载下图中的软件,这是运行在WINDOWS系统上的,通过网…

寒假本科创新学习——机器学习(一)

绪论1.1什么是机器学习1.1.1 Arthur Samuel给出的定义1.1.2 显著式编程和非显著式编程1.1.3 Tom Mitshell给出的定义1.2基本术语1.1什么是机器学习 1.1.1 Arthur Samuel给出的定义 Arthur Samuel是机器学习领域的先驱之一, 他编写了世界上第一个棋类游戏的人工智能…