一、背景
无人机(UAVs)在城市自动巡逻中发挥着重要作用,但它们在图像识别方面面临挑战,尤其是小目标检测和目标遮挡问题。此外,无人机的高速飞行要求检测系统具备实时处理能力。
为解决这些问题,我们提出了一种新的实时目标检测网络(RTD-Net),它结合了卷积神经网络(CNN)和Transformer的优势。RTD-Net特别设计了特征融合模块(FFM)和高效卷积Transformer块(ECTB),以增强小目标和遮挡目标的检测能力。同时,轻量级特征提取模块(LEM)确保了网络的高效运行,满足实时性需求。
我们的实验表明,RTD-Net在UAV图像数据集上实现了高精度和高速度的检测性能,且在嵌入式设备上也表现出良好的实时检测能力,为智能城市监控提供了一种有效的技术解决方案。
二、相关工作
无人机(UAV)在智能监控和城市巡逻中的应用日益增多,它们为自动目标检测提供了新的视角。然而,UAV图像的目标检测面临几个挑战:
- 小目标检测:由于UAV飞行高度较高,地面目标在图像中呈现较小,难以检测。
- 目标遮挡:城市环境中的遮挡物,如树木和建筑物,会阻断目标的视觉连续性,影响检测性能。
- 实时性能要求:无人机的快速移动要求检测系统具备高速处理能力。
为了应对这些挑战,研究人员已经探索了多种方法:
-
传统方法:早期的研究依赖于手工特征提取和机器学习分类器,如SIFT和SVM,这些方法依赖于专家知识且不够灵活。
-
基于CNN的方法:随着深度学习的发展,基于CNN的方法已经成为主流。这些方法通过端到端学习提高了检测精度,但通常计算量大,难以满足实时性要求。
-
基于Transformer的方法:最近,Transformer因其在处理序列数据中的长距离依赖关系的能力而受到关注。将其应用于图像检测,可以增强模型对遮挡目标的识别能力,但计算成本较高。
本研究提出的RTD-Net,通过结合CNN和Transformer的优势,旨在实现对UAV图像中小目标和遮挡目标的高效检测。我们通过设计轻量级特征提取模块和高效的Transformer块,减少了计算量,同时通过特征融合模块提升了小目标的检测性能。
三、提出的网络框架
为了提高无人机在复杂环境下的目标检测能力,我们提出了一个名为RTD-Net的实时目标检测网络,其整体结构如图1所示:
图1:RTD-Net体系结构概述
这个网络特别设计以应对小目标检测、遮挡目标识别和实时处理的需求。RTD-Net的关键组成部分包括:
1.RTD-Net概述
- RTD-Net是一个单阶段检测网络,它直接从输入图像预测目标的位置和类别,然后通过非最大抑制(NMS)处理来获取最终检测结果。
- 网络设计考虑了检测精度和速度的平衡,特别适用于资源受限的嵌入式设备。
2.轻量级特征提取模块(LEM):
LEM是网络的骨干部分,它使用同质多分支架构来减少计算量和参数数量。如图2所示,通过1x1的卷积核整合通道信息,然后通过3x3的卷积核进行特征提取,有效降低了模型的复杂性:
图2:LEM
3.高效卷积Transformer块(ECTB):
设计了一个基于CNN和变压器的ECTB,标准变压器块主要由MHSA层和线性层组成,如图3所示:
图3:不同变压器块的结构。(a)标准变压器块。(b)瓶颈变压器(BoT)块。©拟议的ECTB。
ECTB是网络的核心创新之一,它结合了CNN和Transformer的优势。通过引入卷积多头自注意力(CMHSA)机制,ECTB能够提取图像的全局特征,并通过上下文信息改善遮挡目标的识别。
4.特征融合模块(FFM):
FFM基于双向特征金字塔网络(BiFPN)设计,用于融合不同层级的特征。通过特征融合,FFM增强了模型对小目标的检测能力,提高了特征的表达能力。
5.注意力预测头(APH):
- APH采用了基于归一化的注意力模块(NAM),用于提高模型对复杂场景中目标的注意力集中能力。
- APH通过通道和空间两个独立的维度来推断输入图像的注意力,如图4所示,并将其应用于输入特征图,以提升检测精度。
图4:(a)通道注意机制。(b)空间注意机制
这些组件共同工作,使得RTD-Net能够在保持高检测精度的同时,满足UAV在资源受限环境中的实时性要求。
四、实验
为了全面评估RTD-Net的性能,我们在多个方面进行了实验,包括在自定义的UAV图像数据集和标准的MS COCO2017数据集上的评估,以及在嵌入式平台上的实时性能测试。
1.数据集准备:
我们收集并创建了一个包含9630张图像的UAV图像数据集,这些图像涵盖了不同的天气条件、光照环境和城市郊区背景。
数据集被分为训练集(60%)、验证集(20%)和测试集(20%),包含七种常见的地面目标类别:轿车、行人、摩托车、自行车、卡车、公交车和三轮车。
图像中的目标根据平均面积比例(AAR)被分为大、中、小三类,以模拟真实世界中UAV检测的挑战。
2.在UAV图像数据集上的结果:
我们使用平均精度(mAP)作为主要的评估指标,以衡量模型在不同类别和不同大小目标上的检测性能。RTD-Net在该数据集上达到了86.4%的mAP,超过了其他现有的最先进方法,同时在NVIDIA GTX1080Ti上实现了312帧/秒的高检测速度。
我们还进行了详尽的对比实验,将RTD-Net与多种最新的目标检测模型进行了比较,包括Faster R-CNN、SSD、YOLO系列等,证明了RTD-Net在检测精度和速度上的优势。
3.在MS COCO2017数据集上的结果:
为了测试RTD-Net的泛化能力,我们在标准的MS COCO2017数据集上进行了额外的评估。
RTD-Net在COCO2017数据集上的表现与UAV图像数据集上的表现一致,显示出良好的泛化能力和在不同场景下的适用性,COCO2017中的可视化结果:
4.嵌入式平台测试:
我们在NVIDIA Jetson TX2嵌入式平台上测试了RTD-Net的实时性能,这是评估其在实际UAV应用中的适用性的关键步骤。
- 在不使用TensorRT优化的情况下,RTD-Net在TX2上达到了33.4帧/秒的检测速度,满足了实时检测的要求。
- 使用TensorRT优化后,检测速度略有下降,但模型的检测精度提高了,证明了RTD-Net在资源受限设备上的实际应用潜力。
通过这些详细的实验,我们全面验证了RTD-Net在目标检测任务中的高性能,特别是在UAV视觉系统中的实际应用价值。
五、结论
本研究成功开发了一种名为RTD-Net的实时目标检测网络,专为无人机(UAV)视觉系统设计,以应对城市自动巡逻中的复杂挑战。通过精心设计的网络结构,包括轻量级特征提取模块(LEM)、高效卷积Transformer块(ECTB)和特征融合模块(FFM),RTD-Net在检测精度和速度上均取得了显著的性能。
- 检测精度:在UAV图像数据集上,RTD-Net实现了86.4%的mAP,特别是在小目标和遮挡目标的检测上,相比现有技术有显著提升。
- 实时性能:在NVIDIA Jetson TX2嵌入式设备上,RTD-Net展现了满足实时处理需求的能力,检测速度达到33.4帧/秒,证明了其在资源受限环境中的实用性。
- 泛化能力:在MS COCO2017数据集上的测试进一步证实了RTD-Net良好的泛化能力,表明该模型不仅适用于特定的UAV视觉任务,也能泛化到其他目标检测场景。
总之,RTD-Net的有效性在多个层面得到了验证,其在智能监控和自动化巡逻等领域具有广泛的应用前景。未来的工作将探索该模型在更多样化的实际场景中的应用,并进一步优化其性能。