Efficient RGB-T Tracking via Cross-Modality Distillation

摘要

目前大多数RGB-T跟踪器采用双流结构来提取单个RGB和热红外特征，并采用复杂的融合策略来实现多模态特征融合，这需要大量的参数，阻碍了它们的实际应用。另一方面，一个紧凑的RGB-T跟踪器可能具有计算效率，但由于特征表示性能的减弱，会遇到不可忽视的性能下降。为了解决这种情况，提出了一种跨模态蒸馏框架来弥合紧凑跟踪器和强大跟踪器之间的性能差距。本文提出了一种特定公共特征蒸馏模块，将模态公共信息和特定模态的信息从较深的双流网络转换为较浅的单流网络。此外，提出了一种多路径选择蒸馏模块，指导简单的融合模块从设计良好的融合机制中学习更准确的多模态信息。我们在三个RGB-T基准测试上通过大量的实验验证了我们的方法的有效性，这实现了最先进的性能，但消耗了更少的计算资源。

介绍

RGB-T跟踪是一种估计RGB-T视频序列的每一帧中任意目标的状态的任务。由于热红外（TIR）传感器的可承受性，RGB-T跟踪引起了越来越多的研究兴趣。如图1 (a)所示，大多数现有的RGB-T跟踪模型首先采用双流结构分别提取多级单峰RGB和TIR特征，然后利用精心设计的多模态特征融合模块来利用多模态数据中的互补信息。最后，他们从融合的特征中推导出目标状态，通常由一个边界框表示。最后，他们从融合的特征中推导出目标状态，通常由一个边界框表示。虽然已经取得了很大的进展，但这些强大的RGB-T跟踪模型在单模态特征提取和多模态特征融合阶段，通常需要较高的计算成本和较大的模型规模来处理两种模态的信息。

有两种直接的解决方案来解决复杂性和效率的问题。一种是采用卷积层较少的单流特征提取器，另一种是采用更简单的多模态特征融合模块，如图1 (b).所示。虽然这种紧凑的模型可以降低计算复杂度，但由于单模态特征表示能力和多模态互补信息探索能力的减弱，它们不可避免地会带来不可忽视的性能下降。例如，一个具有双流结构和复杂多模态特征融合模块的强大RGB-T跟踪器在经过上述模型简化操作后性能严重下降（RGBT234数据集的精度为84.4%vs精度为78.1%），如图2所示。

现在，研究的问题变成了：我们可以在不牺牲性能的情况下缩小RGB-T跟踪器吗？本文利用知识蒸馏技术回答了这个问题，使紧凑的模型能够以较小的成本获得复杂模型的相似能力。我们称这个复杂但功能强大的模型为教师模型，并称这个紧凑的模型为学生模型。虽然一些工作取得了相当大的进步知识蒸馏的任务，他们未能进行深入调查师生之间的巨大特征差异在单模态特征提取阶段以及在多模态特征融合阶段，从而导致次优效率的知识转换。为此，提出了一种新的师生知识蒸馏训练框架，即交叉模态蒸馏（CMD），从单模态特征提取、多模态特征融合和目标估计估计三个阶段精心指导有效模仿，如图1 ©.所示。

具体来说，在单模态特征提取阶段，正如许多前人的著作所指出的那样，单模态特征的浅层通常包含丰富的低层次空间细节，这通常依赖于模态。不同的是，单模态特征的深层往往包含许多高级语义线索，这些线索往往具有强烈的模态一致性。学生模型使用紧凑的单流网络提取RGB特征和TIR特征，不仅缺乏浅层提取特定模态信息的能力，而且缺乏深层对模态公共信息的探索。这些有趣的观察结果启发我们设计一个特定公共特征蒸馏（SCFD）模块，该模块将模态公共信息从双流较深的网络转换为单流较浅的网络。

其次，在多模态特征融合阶段，教师模型中的复杂多模态特征融合模块在各种场景下都表现出很大的优势，而学生模型中的简单融合策略在某些特定场景下通常是有效的。由于巨大的特征差异，一个学生模型采用单一的简单融合策略，很难从一个复杂的教师模型中学习到更有效的互补信息挖掘能力。因此，我们在学生模型中设计了一个具有多种简单融合策略的融合模块，表示为多路径选择蒸馏（MPSD）模块。在从教师模型学习的过程中，学生模型可以自适应地结合不同类型的融合特征，以弥补单一简单融合策略缺乏互补的信息挖掘能力的不足。

最后，在目标状态估计阶段，随着学生模型的特征表示能力的减弱，跟踪器对干扰物的识别能力也会降低。为此，我们进一步提出了一个硬聚焦反应蒸馏（HFRD）模块，通过缓解目标和背景之间的数据不平衡问题来提高学生模型的辨别能力，它使用了由教师模型生成的响应图来指导学生专注于从硬负样本中区分目标。

如图2所示，我们提出的每个模块在没有明显增加参数数量的情况下，不断缩小了学生模型与教师模型之间的表现差距。综上所述，我们的工作显著地改进了RGB-T跟踪器，因为它有以下两个贡献：

提出了一种跨模态蒸馏（CMD）框架，通过单模态特征提取、多模态特征融合和目标状态估计三个阶段来弥补紧凑的学生模型和强大的教师模型之间的性能差距。据我们所知，我们首先引入了用于多模态跟踪的知识蒸馏技术。
实验结果表明，我们提出的方法有助于学生模型在具有挑战性的GTOT、RGBT234 和LasHer上达到最先进的性能，同时减少了参数的数量和计算复杂度。

Distilled RGB-T Tracking

给出了一个强大的RGB-T跟踪教师模型，所提出的CMD框架旨在促使一个更有效的学生模型从教师模型中学习。将教师模型中的知识转移到学生模型中，以模拟更有效的特征表示。本节首先概述了建议的CMD框架。然后，我们简要介绍了被雇佣的教师和学生模型。最后，详细介绍了所提出的三个知识蒸馏模块（即SCFD、MPSD和HFRD）。

概述

如图3所示，所提出的CMD框架包括一个教师模型、一个学生模型和三个知识蒸馏模块。

教师模型以一对RGB-T图像为输入，分别采用双流特征提取器和几个复杂的多模态特征融合模块进行单模态特征提取和多模态融合。最后，将融合后的特征输入目标状态估计模块，得到最终的跟踪结果。

与教师模型不同，学生模型使用了一个单流特征提取器和几个有效的多模态融合模块。虽然学生模型具有较高的运行速度，但模型的简化不可避免地会导致跟踪性能的下降。

为了弥补学生模式和教师模式之间的巨大的表现差距，提出的CMD框架试图从三个阶段来指导学生模型的学习过程：单模态特征提取、多模态特征融合和目标状态估计。因此，在第一阶段，通过使用提出的SCFD模块，强大的双流特征提取网络将这些特定模态信息和模态公共信息转移到学生模型的单流网络中，以增强其对单模态特征的表示能力。在第二阶段，我们将提出一个MPSD模块来缩小教师模型获得的融合特征与学生模型通过多路径优化策略获得的融合特征之间的差异。在第三阶段，我们提出一个HFRD模块，采用空间注意形式的教师模型生成的响应图，指导学生模型关注对困难样本的辨别，从而提高其辨别能力。上述三个阶段的改进将有效地缩小学生模型与教师模型之间的表现差距，使学生模型能够实现与教师模型相匹配的竞争性跟踪结果，但具有更少的参数和更高的计算效率。

教师和学生模型

在本节中，我们将描述所雇佣的教师和学生模型的架构，它们都是基于最近的RGB跟踪器DiMP。如图4所示，教师模型和学生模型均可分为三个阶段：单模态特征提取、多模态特征融合和目标状态估计。

Feature extraction

在教师模型中，两个特征提取器，即 $E_{rgb}$ 和 $E_{the}$ ，并行地考虑RGB和TIR模式。这两个特征提取器均采用ResNet50为骨干，提取多级RGB和TIR特征，如图4 (a).所示。不同的是，在学生模型中，只有一个特征提取器，即 $E_{stu}$ ，可以同时考虑RGB和TIR模式。如图4 (b)所示， $E_{stu}$ 只是采用ResNet18为骨干进行简化。与原始的DiMP跟踪器类似，在教师模型和学生模型中，我们使用第3块和第4块的特征进行回归，并且只使用第4块的特征进行分类。从教师模型中提取的RGB和TIR特征分别表示为 $ft^i_{rgb}$ 和 $ft^i_{tir}$ ，和从学生模型中提取的RGB和TIR特征分别表示为 $fs^i_{rgb}$ 和 $fs^i_{tir}$ ，其中i∈{1、2、3、4}指标的特征水平。

Multi-modal feature fusion

通过对RGB和TIR特征的3、4层进行多模态融合模块，分别得到了教师模型中的融合特征 $ft^3_{fus}$ 和 $ft^4_{fus}$ ，以及学生模型中的融合特征 $fs^3_{fus}$ 和 $fs^4_{fus}$ 。我们的教师模型采用了一个模态差分补偿（MDC）模块和一个特征再选择模块（FRS），用于多模态特征融合。不同的是，我们的学生模型利用了所提出的MPSD模块来进行多模态特征融合。MPSD的细节将在第3.4节中介绍。

Classification and regression

最后，这些融合的特征将被输入到分类和回归头中，它们与原始的DiMP具有相同的架构。特别是在这一阶段，学生模型和教师模型都应用了DiMP中的原始分类头和回归头。有关更多细节，请请读者参阅。

Specific-Common Feature Distillation(SCFD)

本节阐述了提出的两阶段单模态特征蒸馏SCFD模块，该模块使学生模型中的单流特征提取模块能够从教师模型中学习模态公共信息以及特定模态的信息，如图5 (a).所示

我们首先对教师模型中的单模态RGB特征和TIR特征进行跨模态交互，分别突出不同层的模态公共信息和模态特定信息，以便更好地指导学生模型的学习。具体来说，如图5 (b)所示，给定教师模型中浅层的单模态特征（即{ $ft^i_{rgb}$ |i = 1,2,3}和{ $ft^i_{tir}$ |i = 1,2,3}），利用所提出的特定增强模块（SEMs），通过减法和乘法获得了具有更多模态交互信息的 $fe^i_{rgb}$ 和 $fe^i_{tir}$ （i = 1,2,3）。数学上，

其中 $\ominus \oplus \otimes $ 分别表示元素减法、元素加法和元素乘法。$ft^i_{rgb} \otimes ft^i_{tir} $反映了 r g b 和 t i r 特性中的联合有效信息。而$ ft^i_{rgb} \ominus ft^{i_{tir}$代表了rgb模态与tir模态的特异性信息。同样，关于RGB模态的TIR的模态信息可以通过$ft}i_{tir} \ominus ft^{i_{rgb}$获得。因此，$fe}i_{rgb} $和$ fe^{i_{tir}$在共同保留有效信息外，还强调了这些特定的信息，可用于指导浅层学生模型的特征学习。另外，对于深层的RGB和TIR特征（$ft}4_{rgb}、ft^4_{tir} $），采用提出的一致性增强模块（ CEM ）通过加法和乘法获得具有更多模态公共信息的模交互特征$ fc^4$，如图5 ©.所示。数学上，

在此，通过对$ft^4_{rgb}、ft4_{tir} $应用元素级加法，可以进一步增强多模态数据中高级语义线索的一致性。因此，$ fc^4$可以更好地指导学生模型的深层学习。

利用教师模型的形态交互特征，下一步是调整学生模型的特征通道维度，使其与教师模型的特征通道维度保持一致。在此，受知识评论思想的启发，我们采用了一系列基于注意力的融合（ABF）模块来调整单模态特征的通道维度，并在学生模型中动态聚合跨层特征。修改学生模型的特征（即{ $fu^i_{rgb}|i=1,2,3,4$ }和{ $fu^i_{tir}|i=1,2,3,4$ }）和教师模型的模态交互特征（即{ $fe^{1-3}_{rgb},fc^4$ },{ $fe^{1-3}_{tir},fc^4$ }），迫使学生模型通过提出的特征学习模拟教师模型的具体通用信息，蒸馏损失 $L_{SCFD}$ ，表述为：

其中，l（∗）表示中所使用的标准MSE损失。

Multi-path Selection Distillation（MPSD）

为了更有效地从教师模型中学习互补信息的探索能力，我们在学生模型中设计了一个使用多种融合策略的融合模块，表示为多路径选择蒸馏（MPSD）模块。在从教师模型出发的学习过程中，学生模型可以自适应地优化路径，以减少特征差异。

具体来说，在学生模型中，所提出的MPSD模块首先从模态差异、模态共性和模态互补三个典型角度进行多模态特征融合。给出原本的RGB特征 $fs^i_{rgb}$ 和TIR特征 $fs^i_{tir}$ 从学生模型中的第三和第四层，计算三种初始融合特征 $fs^i_{fus,1}、fs^i_{fus,2}和fs^i_{fus,3}$ :

这里，sa（∗）表示空间注意机制，首先利用核大小为1×1的卷积层和softmax层得到一个双通道权重图。然后将双通道权值图分为两个可靠性权值图，分别选择RGB特征和TIR特征。从数学上讲，自我注意机制表现为：

其中，cat（∗）表示连接操作，conv（∗，θ1）表示1×1的卷积层，其参数为θ1。.σ（∗）表示sigmoid层。特征 $fs^i_{fus,1}$ 主要反映了多模态数据中的互补信息。特征 $fs^i_{fus,2}和fs^i_{fus,3}$ 分别再现了它们的交互信息和差异信息。

然后， $fs^i_{fus,1}、fs^i_{fus,2}和fs^i_{fus,3}$ 通过加权融合的方式进一步组合在一起，即：

其中，gmp（∗）和fc（∗）分别表示全局最大池化层和全连接层。softmax（∗）表示softmax操作。

特征权重 $w^i_1、w^i_2、w^i_3$ 反映了不同融合特性对当前场景的重要性。$\odot $表示广播乘法操作。

利用教师模型和学生模型分别得到的融合特征{ $ft^i_{fus}i|i=3,4$ }和{ $fs^i_{fus}i|i=3,4$ }，我们计算了特征之间的融合蒸馏损失 $L_{fus}$ ：

此外，为了使学生模型能够自适应地选择一个在不同场景下与教师模型更相似的融合路径，我们引入了一个额外的惩罚 $L_p$ 来提高训练过程中知识转换的效率。更具体地说，我们首先选择学生模型的初始融合特征与教师模型的融合特征之间差异最小的融合类型，

其中， $λ^i$ =1、2或3表示根据师生模型之间的融合特征差异所选择的初始融合特征类型。

然后，通过MPSD中的自适应选择部分，学生模型本身也将预测一种适合于当前跟踪场景的初始融合特征，即：

其中， $ν^i =1、2或3$ 表示学生模型中初始融合特征的预测类型。

$w^i_{v^i}$ 和 $w^i_{λ^i}$ 一起，在教师模型的指导下，我们可以使用一个惩罚来帮助学生模型选择一个更适合当前场景的融合路径，

通过最小化 $L_p，w^i_{v^i}和w^i_{λ^i}$ 将趋于一致，从而使学生模型能够根据教师模型自适应地选择融合路径，从而提高互补信息的探索能力。

除此之外，在多模态融合阶段的整体蒸馏损失可以通过以下方法得到：

Hard-focused Response Distillation(HFRD)

为了缓解数据不平衡的问题，我们提出了硬聚焦反应蒸馏（HFRD）模块来指导学生专注于区分目标和硬负样本。

首先，我们从教师模型中得到响应图 $R_t∈R^{H×W}$ 。然后，为了防止教师模型在某些场景中对目标区域没有高反应，我们使用由地面-真值边界框构造的高斯形掩模 $R_g∈R^{H×W}$ 来修正教师模型 $R_t$ 的响应图如下：

其中，i，j分别为响应图的水平坐标和垂直坐标。校正后的掩模 $R_c∈R^{H×W}$ 不仅对阳性样本，而且对硬阴性样本也有较高的响应值。在学生模型的训练过程中，在教师模型中校正后的掩码响应图 $R_c$ 的帮助下，学生模型可以通过提出的硬焦点反应蒸馏损失 $L_{HF RD}$ 来区分目标和硬负样本，以缓解数据不平衡问题：

其中，r（∗）表示L2损失函数。

Overall loss

蒸馏总损失为 $L_{SCFD}、L_{MPSD}和L_{HF RD}$ 之和。我们对学生模型的总损失进行训练如下：

其中，α和β是平衡蒸馏损失的超参数。 $L_{original}$ 是跟踪的原始损失。蒸馏损失 $L_{SCFD}、L_{MPSD}$ 只是在特征图上计算出来的，可以很容易地应用于不同的跟踪器或其他多模态视觉任务。

实验

更多实验，看原文。

结论

本文提出了一种新的师生知识精馏训练框架，以减少强大的教师模型和紧凑的学生模型之间的绩效差距。具体来说，该框架将知识从具有复杂多模态特征融合模块的深度双流网络提取到具有高效特征融合模块的单流网络。利用所提出的SCFD模块，可以在单模态特征提取阶段将模态公共信息和模态特定信息从双流网络转换为单流网络，从而增强了单峰特征的表示。此外，通过使用所提出的MPSD模块，学生模型可以自适应地组合由各种简单融合策略生成的多个融合特征，从而更深入地探索多模态数据中的互补信息。此外，还提出了一个HFRD模块，通过缓解目标状态估计阶段的数据不平衡问题，来提高学生模型对干扰物的鉴别能力。实验结果表明，该方法在显著降低参数数量和计算复杂度的同时，大大降低了最先进的性能。