英文论文（sci）解读复现【NO.20】TPH-YOLOv5++：增强捕获无人机的目标检测跨层不对称变压器的场景

news2026/2/13 2:40:06

此前出了目标检测算法改进专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文，并对相应的SCI期刊进行介绍，帮助大家解答疑惑，助力科研论文投稿。解读的系列文章，本人会进行 创新点代码复现，有需要的朋友可关注私信我获取。

一、摘要

无人机拍摄图像中的目标检测是近年来的一项热门任务。作为无人机总是在不同的高度导航，物体的比例变化很大，这给优化带来了负担的模型。此外，高速和低空飞行会导致密集的运动模糊这带来了巨大的挑战。为了解决上述两个问题，基于YOLOv5，我们添加了一个额外的预测头来检测微小规模的物体，并取代了基于CNN的预测头预测头与变压器预测头（TPH），构建TPH-YOLOv5模型。提出了TPH-YOLOv5++，以显著降低计算成本并改进检测TPH-YOLOv5的速度。在TPH-YOLOv5++中，跨层不对称变压器（CA Trans）是其被设计为在保持该预测头的知识的同时替换附加的预测头。通过使用稀疏局部注意力（SLA）模块，在附加头部之间的不对称信息并且可以有效地捕捉其他头部，丰富了其他头部的特征。在VisDrone中挑战2021，TPH-YOLOv5获得第四名，并取得与第一名相当的成绩模型（AP 39.43%）。基于TPH-YOLOv5和CA Trans模块，TPH-YOLOv5++可以进一步提高效率，同时实现可比性和更好的结果。

二、网络模型及核心创新点

三、实验效果（部分展示）

五、实验结论

无人机捕获图像上的目标检测具有三个主要挑战：尺寸变化，高密度和大的对象覆盖范围。在YOLOv5的基础上，我们添加了一些切割技术，即变压器编码器块、CBAM和一些经验丰富的技巧
以提高无人机捕获场景中的检测性能。然后，为了缓解在保持性能的同时，我们设计了计算和推理时间成本一种新型跨层不对称变压器模块，构建TPH-YOLOv5++模型用稀疏取代视觉变换器中原有的多头自注意局部注意，跨层不对称变压器模块可以丰富的特点小路在小路的帮助下。我们的TPH-YOLOv5在VisDrone中获得第四名挑战2021。在两个基准数据集上进行了广泛的实验表明我们的两个模型实现了新的SOTA结果，并且TPH-YOLOv5++可以显著降低计算和内存成本，同时实现可比或更好的性能性能优于TPH-YOLOv5。

注：论文原文出自TPH-YOLOv5++: Boosting Object Detection on Drone-Captured Scenarios with Cross-Layer Asymmetric Transformer 本文仅用于学术分享，如有侵权，请联系后台作删文处理。