【SCI论文解读复现NO.1】基于Transformer-YOLOv5的侧扫声纳图像水下海洋目标实时检测

news2025/4/18 5:21:04

前言

此前出了目标改进算法专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读最新目标检测算法论文，帮助大家解答疑惑。解读的系列文章，本人已进行创新点代码复现，有需要的朋友可关注私信我。

一、摘要

针对传统人工检测侧扫声纳（SSS）图像中水下目标的不足，提出了一种实时自动目标识别（ATR）方法。该方法包括图像预处理、采样、变压器模块与YOLOv 5s集成的ATR（即TR-YOLOv 5s）和目标定位。针对SSS图像目标稀疏、特征贫乏的特点，提出了一种新的TR-YOLOv 5s网络和降采样原理，并引入注意机制，以满足水下目标识别的精度和效率要求。实验结果表明，该方法的平均准确率（mAP）为85.6%，实时识别速度约为0.068s/幅图像。

二、网络模型及核心创新点

广泛应用实时水下目标检测的关键是找到一种合适的检测算法，该算法平衡了速度和精度，并且由于甲板单元的缓慢更换和船上AUV的有限尺寸，该算法还应该具有尽可能低的计算要求。YOLOv 5是SOTA目标检测算法，具有快速检测速度和精确精度，在COCO val 2017数据集上获得了72%的AP@0.5。此外，YOLOv 5s的最小型号大小仅为14兆，部署方便。然而，YOLOv 5s是使用光学样本集构建的，该光学样本集不完全适用于SSS图像。此外，水下目标样本的数量远小于光学样本。单独使用YOLOv 5s进行实时检测并不能满足需求，需要结合侧扫声纳图像与光学图像的具体差异对YOLO进行改进。与光学图像相比，由于分辨率的限制，声纳图像具有稀疏特征，而由于海域过于广阔，声纳图像往往在目标周围具有稀疏特征。因此，本文专门在YOLOv 5s中增加了一个变换器模块，以关注目标自身特征，忽略目标周围的特征，即：在YOLOv 5s中引入了注意机制，提出了一种改进的实时目标检测算法TR-YOLOv 5s，如图6所示。

三、应用数据集

我们收集了两个SSS图像集A和B，用于探测器训练和测试。数据集A主要包括来自Google检索的经过辐射校正、斜距校正等后处理的图像。而数据集B主要包括未经任何优化的原始灰度图像。数据集A和B的一些示例如图12所示。

四、实验效果（部分展示）

为了评估由预训练加权和变压器模块引起的探测器性能增加，进行了消融研究。我们比较了四种情况下的精确度、召回率、mAP、macro-F2评分和GFLOPs，包括从头训练的YOLOv 5、通过预训练加权初始化的YOLOv 5、从头训练的TR-YOLOv 5和通过预训练加权初始化的TR-YOLOv 5，测试集见表4。

与SSS测量后的目标检测相比，所提出的实时检测对于现场的快速目标检测和定位是非常有效的。为了进一步评估该方法的性能，还将该方法与现有的主要实时水下目标检测方法进行了比较，如表8所示。

五、实验结论

该方法集原始图像预处理、采样、TR-YOLOv 5s检测器和定位于一体，实现了侧扫声纳瀑布图像中水下目标的自动检测，具有较高的精度和效率，能够满足实时水下目标检测的要求。根据SSS图像的特点和目标在检测图像中的分布情况，给予相应的变换模块、下采样等措施是非常必要的，这对提高水下目标实时检测的精度和效率是非常有益的。为了获得更好的性能，可以考虑声纳数据增强、少样本学习甚至零炮学习方法，并研究模型压缩技术等更灵活的网络结构进行实时检测。此外，还应考虑基于SSS图像特性的特殊模块或底层计算模式。

六、投稿期刊介绍