IROS24新鲜出炉：PRL-Track，最先进的无人机视觉目标跟踪系统！

导读：

近年来，随着无人机技术的飞速发展，视觉目标跟踪在无人机的自主应用中扮演着越来越重要的角色，然而，在复杂多变的环境中，实现高精度的目标跟踪并非易事。无人机在飞行过程中，常常会遇到目标的纵横比变化、遮挡以及光照变化等问题。

针对上述困难，研究者们提出了一种全新的渐进式表征学习框架，称为PRL-Track，该框架将表征学习过程分为粗表征学习和细表征学习两个阶段，通过交织粗目标表征，进一步细化目标特征，从而提升跟踪的精确度和稳健性。

在实际应用中，PRL-Track在配备边缘智能相机的典型无人机平台上，实现了每秒42.6帧的高效跟踪速度。©️【深蓝AI】编译

1. 引入

稳健的视觉目标跟踪在智能无人机应用中至关重要，例如任务规划、生物多样性保护和目标定位等。在这些广泛的应用中，无人机跟踪器的目标是从第一帧的初始位置开始，预测目标在后续帧中的位置。受益于具有手动标注的大规模数据集，Siamese跟踪器通过采用卷积神经网络（CNN）来学习目标表示，取得了令人鼓舞的性能。然而，当面对复杂的动态环境（如目标的纵横比变化和遮挡）时，由于轻量级CNN（如AlexNet）表示能力的限制，这些跟踪器难以获得稳健的目标表示。尽管采用更深层骨干网络（如ResNet）的跟踪器可以更好地学习目标表示，但它们无法满足无人机有限计算资源所要求的实时性。因此，在复杂动态环境中，为无人机跟踪生成稳健的目标表示仍然是一个亟待解决的挑战。

一种有前景的解决方案是探索针对无人机跟踪任务的多尺度特征。具体而言，通过卷积操作聚合来自不同层的多尺度特征，有助于缓解无人机跟踪过程中因遮挡导致的特征退化。然而，由于卷积核的感受野有限，CNN缺乏对长距离依赖关系的建模能力，难以捕获多尺度特征之间的全局上下文信息。近年来，视觉Transformer（ViT）凭借注意力机制在建模长距离依赖方面展现了巨大的潜力。将ViT引入Siamese跟踪器，弥补了传统基于CNN的跟踪器在学习全局信息方面的不足。此外，ViT固有的全局建模能力在处理外观变化（如纵横比变化）时表现出优势。然而，与CNN相比，ViT倾向于忽略局部空间信息，降低了对图像目标的辨别能力。此外，注意力机制的高计算复杂度和内存消耗，也是其在计算资源有限的无人机嵌入式处理器上广泛应用的障碍。因此，如何提取更可靠的信息，为无人机跟踪生成稳健的目标表示，值得深入研究。

为充分利用全局上下文信息和局部空间信息，将CNN和ViT有机结合是一种有前途的策略。CNN在快速收敛和过滤冗余信息方面具有优势，适合从图像中提取目标的局部信息，形成粗略的目标表示。随后，ViT利用这些粗略的目标表示，细化并增强对全局上下文信息的理解，从而生成稳健的精细目标表示。然而，由于CNN和ViT在特征空间上的差异，直接将它们连接会导致性能下降。因此，如何有效地整合CNN和ViT，用于实时无人机跟踪，是一个值得深入探索的问题。

本研究提出了一种新颖的渐进式表征学习框架，称为PRL-Track，由基于CNN的粗略表征学习和基于ViT的精细表征学习组成。通过利用CNN和ViT的互补优势，PRL-Track能够学习稳健的精细目标表示，在无人机跟踪过程中面对遮挡和纵横比变化等挑战时，取得了令人满意的性能。实验结果显示，PRL-Track在无人机跟踪中的表现出色，在平均精度和成功率方面优于其他多种先进的跟踪器。

本研究的主要贡献如下：

●提出了一种新颖的渐进式表征学习框架PRL-Track，通过从粗到精的方式为无人机跟踪学习稳健的精细目标表示，提升了跟踪性能。

●开发了创新的外观感知调节器，用于减轻外观干扰，并从浅层特征中提取有用信息，支持粗略表征学习。此外，设计了简洁的语义感知调节器，以捕获语义信息，促进深层特征的聚焦。

●提出了一种新的分层建模生成器，通过融合粗略的目标表示，增强对上下文信息的理解，用于精细表征学习，进一步为无人机跟踪生成稳健的精细目标表示。

●通过全面评估证实了PRL-Track的先进性能，验证了所提出框架的有效性。在典型的无人机平台上进行的实际测试表明，PRL-Track在实际场景中表现出卓越的效率和鲁棒性。

2. 具体方法与实现

如图1所示，作者提出的PRL-Track框架分为「粗略表征学习」和「精细表征学习」两个阶段。首先，粗略表征学习生成目标的粗略表示，获取目标的局部空间信息。在此基础上，精细表征学习进一步生成稳健的精细目标表示，用于无人机跟踪。通过这种从粗到精的渐进式方法，所提出的框架在复杂动态环境（如遮挡和纵横比变化）中能够保持优异的跟踪性能。这里笔者对图1进行一个更深入的解读，在粗略表征学习阶段，作者采用了外观感知调节器和语义感知调节器来生成粗略的目标表示，这些表示突出强调了图像的不同特征。

接着，在精细表征学习阶段，首先将粗略的目标表示进行分块，然后依次经过投影、拆分和重组，分别得到M3、M4和M5。最后，通过分层交叉注意力机制将这些特征融合起来，从而获得更为稳健的目标表示，用于无人机的精准跟踪。看完图1，我们能够了解到本文的追踪模块主要分为粗细两个部分，接下来的解读中，笔者将按照由粗到细逐步分析具体的方法实现。

图1｜全文方法总览©️【深蓝AI】编译

2.1 粗表征学习

粗表征阶段主要由外观感知调节器（AR）和语义感知调节器（SR）两个部分组成，目的是通过解构追踪物体的外观和语义实现对于追踪物体的初步表征。

AR 的主要作用是调整特征的权重，以强调目标的外观信息。其激活函数（ReLU）定义如下：

$\alpha_c = \text{ReLU}\left( \text{Conv}\left( \text{Concat}\left( I_1, I_2 \right) \right) \right)$

其中， $\text{Conv}$ 表示卷积操作， $\text{Concat}$ 表示特征拼接， $I_1$ 和 $I_2$ 是输入特征。AR还使用了残差连接和激活函数，以加速网络的学习并避免梯度消失问题。

接着，权重图 $\alpha_c$ 与第三层的特征 $F_3$ 进行逐元素相乘，再通过残差连接得到AR的输出：

$W_3 = \text{CNR}\left( F_3 + \alpha_c \cdot F_3 \right) \quad$

其中， $\text{CNR}$ 表示卷积（Conv）、归一化（Norm）和激活函数（ReLU）的组合操作。

值的注意的是：全局控制器（GC）用于控制特征的流动，从而提升目标表示的质量。在学习过程中， $\times 1$ 卷积能够自适应地保留有效信息或滤除冗余信息，增强目标表示的表达能力。

接下来我们分析一下语义感知调节器SR，SR的目的是从深层特征（第四层和第五层）中学习语义信息。它通过融合浅层和深层特征，动态地整合上下文信息。SR接收前一层的输出 $W_i$ 和当前层的特征 $F_j$ 作为输入。用于粗略表征学习的两个SR的输出 $W_4$ 和 $W_5$ 定义为：

$\begin{aligned} W_4 &= \text{CNR}\left( F_4 + F_4 \cdot \text{Conv}\left( \text{BLI}\left( W_3 \right) \right) \right), \\ W_5 &= \text{CNR}\left( F_5 + F_5 \cdot \text{Conv}\left( \text{BLI}\left( W_4 \right) \right) \right) \quad \end{aligned}$

其中， $\text{BLI}$ 表示双线性插值，用于确保特征维度的一致性。第一条公式对应于图2上半部分的SR，主要细化来自第四层 $F_4$ 的特征；第二条公式对应于图2下半部分的SR，主要增强来自第五层 $F_5$ 的特征。

值的注意的是，SR从深层特征中提取有用信息，并将其传递给精细表征学习阶段。通过利用来自AR的外观信息，SR显著提高了对场景的理解能力，这对于无人机跟踪非常有益。AR与SR的流程可以进一步结合图2进行理解，结合文字讲解和图2，相信读者对粗表征这一块的内容已经有了初步的认识，请大家带着对于粗表征这一块的理解进一步阅读细表征部分的内容，可以对比感受两个模块在表征精度上的差异。

图2｜AR与SR的流程图示©️【深蓝AI】编译

2.2 细表征学习

在精细表征学习阶段，我们设计了分层建模生成器（HMG），用于融合粗略目标表示之间的交互信息。首先，将之前生成的粗略目标表示划分为若干小块（patch），然后在通道维度上进行拼接。

如图3所示，由粗略目标表示聚合的标记 $X$ 被分解为不同层次的QKV（查询、键、值）对，分别为M3、M4和M5。然后，通过交互操作后在ViT特征空间中执行交叉注意力，这些特征被交织在一起。该策略使模型能够捕获不同层次粗略目标特征之间的关系，从而提升模型的表征能力。

具体而言，首先通过线性投影将输入 $X$ 分解为查询向量（ $\hat{Q}$ ）、键向量（ $\hat{K}$ ）和值向量（ $\hat{V}$ ）。对于查询向量（ $\hat{Q}$ ），在通道层面上进一步拆分，得到Q3，Q4，Q5。对 $\hat{K}$ 和 $\hat{V}$ 也进行类似的操作。从第 3 层到第 5 层，在每个层级上使用相应的查询、键和值对重新组合 QKV，对应关系可以表示为：

$M_i = \text{Concat}(Q_i, K_i, V_i), \quad \text{对于 } i = 3, 4, 5$

在所提出的HMG中，设计了分层交叉注意力机制，以增强不同层次表示之间的交互。为了建立层次连接，在M3和M4、M3和M5以及M4和M5之间执行交互操作。在交互过程中，将 $\hat{K}$ 的键拼接，同样地，值 $\hat{V}$ 也进行拼接，表达式为：

$\begin{aligned} K_{ij} &= \text{Concat}(K_i, K_j), \\ V_{ij} &= \text{Concat}(V_i, V_j), \quad \end{aligned}$

接下来重点来了，在粗表征阶段出现的ViT在这里进一步被使用，利用交叉注意力机制整合信息，公式如下：

$\begin{aligned} H_{\text{att}}^{34} &= \text{Softmax}\left( \frac{Q_4 \cdot [K_3, K_4]^\mathrm{T}}{\sqrt{d}} \right) \cdot [V_3, V_4], \\ H_{\text{att}}^{35} &= \text{Softmax}\left( \frac{Q_5 \cdot [K_3, K_5]^\mathrm{T}}{\sqrt{d}} \right) \cdot [V_3, V_5], \\ H_{\text{att}}^{45} &= \text{Softmax}\left( \frac{Q_5 \cdot [K_4, K_5]^\mathrm{T}}{\sqrt{d}} \right) \cdot [V_4, V_5], \quad \end{aligned}$

其中， $d$ 表示拼接键的维度， $H^{\text{att}}{34}$ 、 $H^{\text{att}}{35}$ 和 $H^{\text{att}}{45}$ 分别是分层表示的注意力映射。

值的注意的是：精细表征学习接受了纯化后的粗略目标表示，重点关注跨越不同层次表示的信息融合。在交叉注意力中排除低层次的查询，有助于简化不同表示层次之间相关信息的整合，从而降低计算成本。

随后，将 $H^{\text{att}}{34}$ 、 $H^{\text{att}}{35}$ 和 $H^{\text{att}}{45}$ 在通道维度上进行拼接，并与输入 $X$ 进行残差连接，表示为：

$W_c = \text{Norm}\left( \text{Concat}\left( H_{\text{att}}^{34}, H_{\text{att}}^{35}, H_{\text{att}}^{45} \right) + X \right)$

最后一步则是将处理后的结果通过前馈神经网络和归一化进行进一步调整，因此，HMG的输出可表示为：

$X_o = \text{Norm}\left( \text{FFN}\left( W_c \right) + W_c \right)$

这里需要注意的是，战略性地融合交叉注意力机制，促进了不同层次特征的精确交互和有效融合。此外，通过迭代地融合粗略目标表示，所提出的HMG逐步捕获了局部和全局信息，以提高在复杂动态环境中的性能。

通过以上的粗表征和细表征的学习过程，目前整个框架已经有了很强的追踪能力，能够由粗到精的分析追踪物体的信息，并在复杂动态条件下进行准确无误的追踪，具体的效果如何可以从接下来的实验部分体会。

3. 实验

首先作者进行了非常庞大且丰富的数值对比实验，由图4可以看到作者一次性对比了十来种相似的方法，并计算了数值评估指标，不同的方法往往各有优势，被设计出来应对不同的追踪条件和场景，但从图4来看，本文方法基本上可以领先所有对比的方法，这得益于本文由粗到精的表征学习，能够从本质上改善追踪面临的诸多问题，因此综合表现非常出色。