IROS24新鲜出炉:PRL-Track,最先进的无人机视觉目标跟踪系统!

news2025/1/10 21:09:10

导读:

近年来,随着无人机技术的飞速发展,视觉目标跟踪在无人机的自主应用中扮演着越来越重要的角色,然而,在复杂多变的环境中,实现高精度的目标跟踪并非易事。无人机在飞行过程中,常常会遇到目标的纵横比变化、遮挡以及光照变化等问题。

针对上述困难,研究者们提出了一种全新的渐进式表征学习框架,称为PRL-Track,该框架将表征学习过程分为粗表征学习和细表征学习两个阶段,通过交织粗目标表征,进一步细化目标特征,从而提升跟踪的精确度和稳健性。

在实际应用中,PRL-Track在配备边缘智能相机的典型无人机平台上,实现了每秒42.6帧的高效跟踪速度。©️【深蓝AI】编译

1. 引入

稳健的视觉目标跟踪在智能无人机应用中至关重要,例如任务规划、生物多样性保护和目标定位等。在这些广泛的应用中,无人机跟踪器的目标是从第一帧的初始位置开始,预测目标在后续帧中的位置。受益于具有手动标注的大规模数据集,Siamese跟踪器通过采用卷积神经网络(CNN)来学习目标表示,取得了令人鼓舞的性能。然而,当面对复杂的动态环境(如目标的纵横比变化和遮挡)时,由于轻量级CNN(如AlexNet)表示能力的限制,这些跟踪器难以获得稳健的目标表示。尽管采用更深层骨干网络(如ResNet)的跟踪器可以更好地学习目标表示,但它们无法满足无人机有限计算资源所要求的实时性。因此,在复杂动态环境中,为无人机跟踪生成稳健的目标表示仍然是一个亟待解决的挑战。

一种有前景的解决方案是探索针对无人机跟踪任务的多尺度特征。具体而言,通过卷积操作聚合来自不同层的多尺度特征,有助于缓解无人机跟踪过程中因遮挡导致的特征退化。然而,由于卷积核的感受野有限,CNN缺乏对长距离依赖关系的建模能力,难以捕获多尺度特征之间的全局上下文信息。近年来,视觉Transformer(ViT)凭借注意力机制在建模长距离依赖方面展现了巨大的潜力。将ViT引入Siamese跟踪器,弥补了传统基于CNN的跟踪器在学习全局信息方面的不足。此外,ViT固有的全局建模能力在处理外观变化(如纵横比变化)时表现出优势。然而,与CNN相比,ViT倾向于忽略局部空间信息,降低了对图像目标的辨别能力。此外,注意力机制的高计算复杂度和内存消耗,也是其在计算资源有限的无人机嵌入式处理器上广泛应用的障碍。因此,如何提取更可靠的信息,为无人机跟踪生成稳健的目标表示,值得深入研究。

为充分利用全局上下文信息和局部空间信息,将CNN和ViT有机结合是一种有前途的策略。CNN在快速收敛和过滤冗余信息方面具有优势,适合从图像中提取目标的局部信息,形成粗略的目标表示。随后,ViT利用这些粗略的目标表示,细化并增强对全局上下文信息的理解,从而生成稳健的精细目标表示。然而,由于CNN和ViT在特征空间上的差异,直接将它们连接会导致性能下降。因此,如何有效地整合CNN和ViT,用于实时无人机跟踪,是一个值得深入探索的问题。

本研究提出了一种新颖的渐进式表征学习框架,称为PRL-Track,由基于CNN的粗略表征学习和基于ViT的精细表征学习组成。通过利用CNN和ViT的互补优势,PRL-Track能够学习稳健的精细目标表示,在无人机跟踪过程中面对遮挡和纵横比变化等挑战时,取得了令人满意的性能。实验结果显示,PRL-Track在无人机跟踪中的表现出色,在平均精度和成功率方面优于其他多种先进的跟踪器。

本研究的主要贡献如下:

●提出了一种新颖的渐进式表征学习框架PRL-Track,通过从粗到精的方式为无人机跟踪学习稳健的精细目标表示,提升了跟踪性能。

●开发了创新的外观感知调节器,用于减轻外观干扰,并从浅层特征中提取有用信息,支持粗略表征学习。此外,设计了简洁的语义感知调节器,以捕获语义信息,促进深层特征的聚焦。

●提出了一种新的分层建模生成器,通过融合粗略的目标表示,增强对上下文信息的理解,用于精细表征学习,进一步为无人机跟踪生成稳健的精细目标表示。

●通过全面评估证实了PRL-Track的先进性能,验证了所提出框架的有效性。在典型的无人机平台上进行的实际测试表明,PRL-Track在实际场景中表现出卓越的效率和鲁棒性。

2. 具体方法与实现

如图1所示,作者提出的PRL-Track框架分为「粗略表征学习」和「精细表征学习」两个阶段。首先,粗略表征学习生成目标的粗略表示,获取目标的局部空间信息。在此基础上,精细表征学习进一步生成稳健的精细目标表示,用于无人机跟踪。通过这种从粗到精的渐进式方法,所提出的框架在复杂动态环境(如遮挡和纵横比变化)中能够保持优异的跟踪性能。这里笔者对图1进行一个更深入的解读,在粗略表征学习阶段,作者采用了外观感知调节器和语义感知调节器来生成粗略的目标表示,这些表示突出强调了图像的不同特征。

接着,在精细表征学习阶段,首先将粗略的目标表示进行分块,然后依次经过投影、拆分和重组,分别得到M3、M4和M5。最后,通过分层交叉注意力机制将这些特征融合起来,从而获得更为稳健的目标表示,用于无人机的精准跟踪。看完图1,我们能够了解到本文的追踪模块主要分为粗细两个部分,接下来的解读中,笔者将按照由粗到细逐步分析具体的方法实现。

图1|全文方法总览©️【深蓝AI】编译

2.1 粗表征学习

粗表征阶段主要由外观感知调节器(AR)和语义感知调节器(SR)两个部分组成,目的是通过解构追踪物体的外观和语义实现对于追踪物体的初步表征。

AR 的主要作用是调整特征的权重,以强调目标的外观信息。其激活函数(ReLU)定义如下:

α c = ReLU ( Conv ( Concat ( I 1 , I 2 ) ) ) \alpha_c = \text{ReLU}\left( \text{Conv}\left( \text{Concat}\left( I_1, I_2 \right) \right) \right) αc=ReLU(Conv(Concat(I1,I2)))

其中, Conv \text{Conv} Conv表示卷积操作, Concat \text{Concat} Concat表示特征拼接, I 1 I_1 I1 I 2 I_2 I2是输入特征。AR还使用了残差连接和激活函数,以加速网络的学习并避免梯度消失问题。

接着,权重图 α c \alpha_c αc与第三层的特征 F 3 F_3 F3进行逐元素相乘,再通过残差连接得到AR的输出:

W 3 = CNR ( F 3 + α c ⋅ F 3 ) W_3 = \text{CNR}\left( F_3 + \alpha_c \cdot F_3 \right) \quad W3=CNR(F3+αcF3)

其中, CNR \text{CNR} CNR表示卷积(Conv)、归一化(Norm)和激活函数(ReLU)的组合操作。

值的注意的是:全局控制器(GC)用于控制特征的流动,从而提升目标表示的质量。在学习过程中, 1 × 1 1 \times 1 1×1卷积能够自适应地保留有效信息或滤除冗余信息,增强目标表示的表达能力。

接下来我们分析一下语义感知调节器SR,SR的目的是从深层特征(第四层和第五层)中学习语义信息。它通过融合浅层和深层特征,动态地整合上下文信息。SR接收前一层的输出 W i W_i Wi和当前层的特征 F j F_j Fj作为输入。用于粗略表征学习的两个SR的输出 W 4 W_4 W4 W 5 W_5 W5定义为:

W 4 = CNR ( F 4 + F 4 ⋅ Conv ( BLI ( W 3 ) ) ) , W 5 = CNR ( F 5 + F 5 ⋅ Conv ( BLI ( W 4 ) ) ) \begin{aligned} W_4 &= \text{CNR}\left( F_4 + F_4 \cdot \text{Conv}\left( \text{BLI}\left( W_3 \right) \right) \right), \\ W_5 &= \text{CNR}\left( F_5 + F_5 \cdot \text{Conv}\left( \text{BLI}\left( W_4 \right) \right) \right) \quad \end{aligned} W4W5=CNR(F4+F4Conv(BLI(W3))),=CNR(F5+F5Conv(BLI(W4)))

其中, BLI \text{BLI} BLI表示双线性插值,用于确保特征维度的一致性。第一条公式对应于图2上半部分的SR,主要细化来自第四层 F 4 F_4 F4的特征;第二条公式对应于图2下半部分的SR,主要增强来自第五层 F 5 F_5 F5的特征。

值的注意的是,SR从深层特征中提取有用信息,并将其传递给精细表征学习阶段。通过利用来自AR的外观信息,SR显著提高了对场景的理解能力,这对于无人机跟踪非常有益。AR与SR的流程可以进一步结合图2进行理解,结合文字讲解和图2,相信读者对粗表征这一块的内容已经有了初步的认识,请大家带着对于粗表征这一块的理解进一步阅读细表征部分的内容,可以对比感受两个模块在表征精度上的差异。

图2|AR与SR的流程图示©️【深蓝AI】编译

2.2 细表征学习

在精细表征学习阶段,我们设计了分层建模生成器(HMG),用于融合粗略目标表示之间的交互信息。首先,将之前生成的粗略目标表示划分为若干小块(patch),然后在通道维度上进行拼接。

如图3所示,由粗略目标表示聚合的标记 X X X被分解为不同层次的QKV(查询、键、值)对,分别为M3、M4和M5。然后,通过交互操作后在ViT特征空间中执行交叉注意力,这些特征被交织在一起。该策略使模型能够捕获不同层次粗略目标特征之间的关系,从而提升模型的表征能力。

具体而言,首先通过线性投影将输入 X X X分解为查询向量( Q ^ \hat{Q} Q^)、键向量( K ^ \hat{K} K^)和值向量( V ^ \hat{V} V^)。对于查询向量( Q ^ \hat{Q} Q^),在通道层面上进一步拆分,得到Q3,Q4,Q5。对 K ^ \hat{K} K^ V ^ \hat{V} V^也进行类似的操作。从第 3 层到第 5 层,在每个层级上使用相应的查询、键和值对重新组合 QKV,对应关系可以表示为:

M i = Concat ( Q i , K i , V i ) , 对于  i = 3 , 4 , 5 M_i = \text{Concat}(Q_i, K_i, V_i), \quad \text{对于 } i = 3, 4, 5 Mi=Concat(Qi,Ki,Vi),对于 i=3,4,5

在所提出的HMG中,设计了分层交叉注意力机制,以增强不同层次表示之间的交互。为了建立层次连接,在M3和M4、M3和M5以及M4和M5之间执行交互操作。在交互过程中,将 K ^ \hat{K} K^的键拼接,同样地,值 V ^ \hat{V} V^也进行拼接,表达式为:

K i j = Concat ( K i , K j ) , V i j = Concat ( V i , V j ) , \begin{aligned} K_{ij} &= \text{Concat}(K_i, K_j), \\ V_{ij} &= \text{Concat}(V_i, V_j), \quad \end{aligned} KijVij=Concat(Ki,Kj),=Concat(Vi,Vj),

接下来重点来了,在粗表征阶段出现的ViT在这里进一步被使用,利用交叉注意力机制整合信息,公式如下:

H att 34 = Softmax ( Q 4 ⋅ [ K 3 , K 4 ] T d ) ⋅ [ V 3 , V 4 ] , H att 35 = Softmax ( Q 5 ⋅ [ K 3 , K 5 ] T d ) ⋅ [ V 3 , V 5 ] , H att 45 = Softmax ( Q 5 ⋅ [ K 4 , K 5 ] T d ) ⋅ [ V 4 , V 5 ] , \begin{aligned} H_{\text{att}}^{34} &= \text{Softmax}\left( \frac{Q_4 \cdot [K_3, K_4]^\mathrm{T}}{\sqrt{d}} \right) \cdot [V_3, V_4], \\ H_{\text{att}}^{35} &= \text{Softmax}\left( \frac{Q_5 \cdot [K_3, K_5]^\mathrm{T}}{\sqrt{d}} \right) \cdot [V_3, V_5], \\ H_{\text{att}}^{45} &= \text{Softmax}\left( \frac{Q_5 \cdot [K_4, K_5]^\mathrm{T}}{\sqrt{d}} \right) \cdot [V_4, V_5], \quad \end{aligned} Hatt34Hatt35Hatt45=Softmax(d Q4[K3,K4]T)[V3,V4],=Softmax(d Q5[K3,K5]T)[V3,V5],=Softmax(d Q5[K4,K5]T)[V4,V5],

其中, d d d表示拼接键的维度, H att 34 H^{\text{att}}{34} Hatt34 H att 35 H^{\text{att}}{35} Hatt35 H att 45 H^{\text{att}}{45} Hatt45分别是分层表示的注意力映射。

值的注意的是:精细表征学习接受了纯化后的粗略目标表示,重点关注跨越不同层次表示的信息融合。在交叉注意力中排除低层次的查询,有助于简化不同表示层次之间相关信息的整合,从而降低计算成本。

随后,将 H att 34 H^{\text{att}}{34} Hatt34 H att 35 H^{\text{att}}{35} Hatt35 H att 45 H^{\text{att}}{45} Hatt45在通道维度上进行拼接,并与输入 X X X进行残差连接,表示为:

W c = Norm ( Concat ( H att 34 , H att 35 , H att 45 ) + X ) W_c = \text{Norm}\left( \text{Concat}\left( H_{\text{att}}^{34}, H_{\text{att}}^{35}, H_{\text{att}}^{45} \right) + X \right) Wc=Norm(Concat(Hatt34,Hatt35,Hatt45)+X)

最后一步则是将处理后的结果通过前馈神经网络和归一化进行进一步调整,因此,HMG的输出可表示为:

X o = Norm ( FFN ( W c ) + W c ) X_o = \text{Norm}\left( \text{FFN}\left( W_c \right) + W_c \right) Xo=Norm(FFN(Wc)+Wc)

这里需要注意的是,战略性地融合交叉注意力机制,促进了不同层次特征的精确交互和有效融合。此外,通过迭代地融合粗略目标表示,所提出的HMG逐步捕获了局部和全局信息,以提高在复杂动态环境中的性能。

图3|细表征模块框架©️【深蓝AI】编译

通过以上的粗表征和细表征的学习过程,目前整个框架已经有了很强的追踪能力,能够由粗到精的分析追踪物体的信息,并在复杂动态条件下进行准确无误的追踪,具体的效果如何可以从接下来的实验部分体会。

3. 实验

首先作者进行了非常庞大且丰富的数值对比实验,由图4可以看到作者一次性对比了十来种相似的方法,并计算了数值评估指标,不同的方法往往各有优势,被设计出来应对不同的追踪条件和场景,但从图4来看,本文方法基本上可以领先所有对比的方法,这得益于本文由粗到精的表征学习,能够从本质上改善追踪面临的诸多问题,因此综合表现非常出色。

图4|数值对比实验结果©️【深蓝AI】编译

接下来作者进行了一个复杂的测试,即人为改变无人机的姿态和追踪物体的可视条件,比如进行刻意地遮挡,大幅度改变无人机的位姿等等,并在这个条件下测试本文方法,从结果上来看,无论怎么“折腾”无人机或者追踪目标,本文方法都能够死死的咬住目标,取得了最好的结果。

图5|复杂条件测试实验©️【深蓝AI】编译

在图5中作者可视化了部分实验结果,可以看到在出现于目标相似的物体,或者将视角拉远之后,对比方法都会出现或多或少的问题,但是本文方法依旧可以牢牢地锁定目标

图6|实验结果可视化©️【深蓝AI】编译

随后作者进行了实机部署测试,如图7所示,实机部署测试的意义在于验证方法在低算力设备上的运行结果,从图7中可以看到,即便是在低算力的边缘设备上,本文方法依旧能够体现出其优秀的跟踪能力,并且有不错的实时性。

图7|实机部署测试©️【深蓝AI】编译

4. 总结

在本研究中,作者提出了一种新颖的渐进式表征学习框架,即PRL-Track,用于为无人机跟踪提取稳健的目标表示。

在所提出的PRL-Track中,使用了两个基于CNN的调节器来创建粗略的目标表示。此外,采用了基于ViT的分层建模生成器来充分利用这些粗略的目标表示。这个渐进的学习过程使得跟踪器(即PRL-Track)能够生成稳健的目标表示,从而更好地应对复杂无人机场景中的各种挑战。©️【深蓝AI】

本文首发于公众号【深蓝AI】,移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能自动驾驶+机器人+AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2202237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

介绍几个电池充电管理芯片(TP4056、SGM40561)

TP4056 上一篇我们介绍了个TP4055,那么跟TP4055相比,TP4056肯定是做了升级的。 首先是有最高1000mA的充电电流,而TP4055是500mA。 一般来说我们尽可能的让充电电流接近电池容量的一半,这样对电池比较好。 充电电压都是4.2V。 …

winform实现托盘语音提醒

测试环境: visual studio 2022 window 10 .net framework 4.6 本文实现的功能有: 1 托盘最小化 2 语音定时播放 3 检测到操作系统被客户点静音后,需要程序控制开启音量(在运行过程中,由于语音重复播放,客户很烦&#…

【Protobuf】基本使用总结+项目实践

概述 序列化与反序列化 网络传输中使用,可以实现将对象转换为二进制序列,然后将二进制序列转换为对象,这一个交互的过程就是序列化。生成的数据,持久化存储到磁盘上的过程,也需要经过序列化和反序列化才可以实现。 序…

SpringBoot实现的美发门店客户关系管理(CRM)系统

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

浅谈2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者

目录 1.概述 1.1. 跨学科的融合 1.2. 推动科学研究的工具 1.3. 对科学界的激励 1.4. 技术的社会影响 2.机器学习与神经网络的发展前景 2.1.具体应用与作用 2.1.1. 医疗健康 2.1.2. 金融 2.1.3. 制造业 2.1.4. 交通与物流 2.1.5. 零售 2.2.未来展望 2.3.科学研究与…

C# 实现调用函数,打印日志(通过反射代理、非IOC)

🎈个人主页:靓仔很忙i 💻B 站主页:👉B站👈 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:C# 🤝希望本文对您有所裨益,如有不足之处&#xff…

宝塔面板配置FTP服务结合内网穿透实现其他设备远程连接上传文件

文章目录 前言1. Linux安装Cpolar2. 创建FTP公网地址3. 宝塔FTP服务设置4. FTP服务远程连接小结 5. 固定FTP公网地址6. 固定FTP地址连接 前言 本文主要介绍宝塔FTP文件传输服务如何搭配内网穿透工具,实现随时随地远程连接局域网环境搭建的宝塔FTP文件服务并进行文件…

电商数据淘宝/京东/1688商品SKU数据采集||电商API接口

电商数据采集接口数据分析是一个涉及多个步骤的过程,以下是一个详细的指南: 一、数据采集接口的选择与接入 选择合适的电商数据采集接口: 根据需求选择提供所需数据的电商平台接口。考虑接口的稳定性、数据更新频率及准确性。 接口接入准备&…

《网络数据安全管理条例》正式公布,规范数据处理活动,保障网络数据安全

近日,《网络数据安全管理条例》(以下简称《条例》)正式公布,自2025年1月1日起施行。 《条例》旨在规范网络数据处理活动,保障网络数据安全,促进网络数据依法合理有效利用,保护个人、组织的合法权…

java时间复杂度与空间复杂度的排序

怎么理解时间复杂度和空间复杂度 时间复杂度和空间复杂度一般是针对算法而言,是衡量一个算法是否高效的重要标准。先纠正一个误区,时间复杂度并不是算法执行的时间,再纠正一个误区,算法不单单指冒泡排序之类的,一个循…

获取期货股票历史数据以及均线策略分析

【数据获取】银河金融数据库(yinhedata.com)能够获取国内外金融股票、期货历史行情数据,包含各分钟级别。 【搭建策略】均线策略作为一种广泛应用于股票、期货等市场的技术分析方法,凭借其简单易懂、操作性强等特点,深…

CV图像处理小工具——json文件转P格式mask

CV图像处理小工具——json文件转P格式mask import cv2 import json import numpy as np import osdef func(file_path: str) -> np.ndarray:try:with open(file_path, moder, encoding"utf-8") as f:configs json.load(f)# 检查JSON是否包含必要的字段if "…

【专题】2024年中国电商市场研究报告合集PDF分享(附原数据表)

原文链接:https://tecdat.cn/?p37835 在全球电商持续发展的背景下,中国电商市场面临新态势。 增长压力与机遇并存,从综合电商与直播电商发展的放缓,到企业 3C 数码商用品电商采购的趋势,以及零售业拥抱“性价比时代…

校园网站设计怎么做

校园网站设计是一项复杂而又具有挑战性的任务,因为它需要考虑到学校内各种不同的需求和利益。一个成功的校园网站应该能够满足学生、教职员工、家长和管理人员的需求,同时提供清晰、易用且富有吸引力的界面。以下是一些设计校园网站的关键方面&#xff0…

腾讯全文检索引擎 wwsearch 正式开源

背景 企业微信作为典型企业服务系统,其众多企业级应用都需要全文检索能力,包括员工通讯录、企业邮箱、审批、汇报、企业CRM、企业素材、互联圈子等。下图是一个典型的邮件检索场景。 由于过去几年业务发展迅速,后台检索架构面临挑战&#xf…

学霸都在用的秘密武器!盘点3款语音识别转文字软件,学习力MAX!

现在科技这么发达,手写笔记好像越来越不流行了。在这个什么都讲究快的时代,怎么又快又好地记下重要信息,是大家都想要的。正好,现在市面上有很多能把语音转换成文字的工具,它们特别有用,正在慢慢改变我们学…

pipe和pipefd

Linux 中 pipe 的详细介绍 在 Linux 中,pipe 是一个系统调用,用于创建一个管道,这是一种用于进程间通信(IPC)的机制。管道允许两个进程之间进行单向数据传输,通常是一个进程向管道写入数据,而另…

【机器学习】金融预测 —— 风险管理与股市预测

我的主页:2的n次方_ 在金融领域,机器学习(ML)已经成为了不可或缺的工具。金融预测,尤其是风险管理和股市预测,涉及海量数据和复杂模式的分析,而这些正是机器学习擅长处理的领域。通过分析历…

什么是矩阵系统,怎么选择矩阵系统,怎么oem贴牌,怎么源码搭建

一、架构设计方面 采用微服务架构 将矩阵系统拆分为多个小型的、独立的服务模块。每个微服务专注于特定的业务功能,如用户管理、内容发布、数据分析等。这样可以独立地开发、部署和扩展每个服务,而不会影响整个系统。例如,当用户量增加导致用…

机器学习与神经网络荣膺诺贝尔物理学奖:跨学科融合的时代来临

近日,2024年诺贝尔物理学奖颁发给了机器学习与神经网络领域的研究者,这一消息犹如一颗重磅炸弹,迅速在全球学术界和科技界引起了轰动和热议。这是诺贝尔物理学奖首次将桂冠授予计算机科学领域的研究者,标志着物理学与计算机科学的…