论文笔记：LAFF 文本到视频检索的新基准

news2025/4/27 3:45:28

整理了ECCV2022 Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval 论文的阅读笔记

背景
模型
- 问题定义
- LAFF(Lightweight Attention Feature Fusion)
- LAFF Block
实验
- 消融实验
- 可视化
- 对比试验

这篇文章提出了一种新颖灵活的特征融合方式，尽管很简单，但似乎是这一领域的经典基准之一，读了很多遍，感觉还是很有可取之处，所以写了这篇笔记。不过论文中提到的融合方法在其他领域不一定有效，需要根据实际情况调整。

背景

文本到视频检索是指从大量未标记的视频中直接检索到文本查询的视频。视频和文本都必须嵌入到一个或多个跨模态公共空间，以进行文本到视频的匹配。本文讨论如何融合来自不同模型提取的视频/文本表示，来获取最佳的匹配表示，这是文本到视频检索的一个重要但尚未充分探索的主题。
给定由不同特征表示的视频/文本样本，特征融合旨在回答一个基本的研究问题，即什么是组合这些特征的最佳方式？所谓最优，是指融合后的检索性能达到最大。同时，融合过程应该是可解释的，以解释单个特征的重要性。

模型

问题定义

本文提出了视频端和文本端的可训练特征融合。具体来说，对于一个特定的视频 $x$ ，可能获得一组 $k_1$ 个视频级特征表示 ${f_{v,1}(x),…,f_{v,k_1} (x)}$ ，这些表示是使用不同的网络提取的。相似的，对于一个特定的文本查询 $q$ ，由一组 $k_2$ 个句子级特征 ${f_{t,1}(q),…,f_{t,k_2} (q)}$ 。作者的目标是构建两个特征融合块，融合这些特征形成视频和查询文本的 $d$ 维跨模态嵌入 $e (x)$ 和 $e (q)$ ，这样，我们可以通过计算 $e (x)$ 和 $e (q)$ 之间的语义相似度进行文本-视频匹配，即：
$e(x):=fusion_v({f_{v,1}(x),…,f_{v,k_1} (x)})$ $e(q):=fusion_t({f_{t,1}(q),…,f_{t,k_2} (q)})$ $s (x, q) := s imi l a r i t y (e (x), e (q))$ 对给定查询 $q$ 的文本到视频检索是通过根据 $s (x, q)$ 降序对测试集合中的所有视频进行排序来实现的。

LAFF(Lightweight Attention Feature Fusion)

本文提出了一个非常简化的特征融合块，称为轻量级注意特征融合(LAFF)。其结构如图所示，LAFF是通用的，可用于视频和文本端。
在这里插入图片描述
在特定的LAFF块中，使用学习到的组合权重来优化跨模态文本到视频的匹配。在特征级别进行融合，可以被视为一种早期的融合方法。同时，使用多头注意的技巧，可以在单个网络中部署多个LAFFs，并以后期融合方式将其产生的相似性组合在一起，进一步提升网络性能。

LAFF Block

对于要进行融合操作的 $k$ 个不同特征 ${f_1,…, f_k}$ ，由于不同的提取器可能具有不同的维度，首先要使用特征转换层将不同的特征校正为相同的长度。要将 $i$ 维特征转换为新的 $d$ 维特征，使用： $f'_i=\sigma(Linear_{d_i×d}(f_i))$ 虽然转换后的特征{f ’ i}现在是可比较的，但它们对于表示视频/文本内容并不同等重要。因此我们考虑加权融合，即： $\hat f=\sum^k_i\alpha_if'_i$ ，这些权重是通过一个线性变换和softmax函数得到的： $\{\alpha_1,...,\alpha_k\}=softmax(Linear_{d×1}(\{f'_1,...,f'_k\}))$ 如图1所示，当将权重强制为均匀时，即 $a_i = 1/k$ 时，无注意力特征融合块是LAFF的一种特殊情况。相对于这种情况（Attention-free）, LAFF需要学习的参数更多，见表2。
在这里插入图片描述 LAFF可以作为融合函数被直接应用在文本到视频检索中。然而，由于视频和文本内容的高度复杂性，作者假设单一配置对于跨模态表示和匹配是次优的。借用MHSA的多头思想，通过部署 $h$ 对LAFFs，其中每对LAFFs共同确定视频文本匹配的潜在公共空间，设计了多头LAFF。具体来说，一个特定的LAFFs对，表示为 $LAFF_{v,i}, LAF F_{t,i}>$ ，将视频/文本特征聚合到一个d维跨模态嵌入向量 $e_i(x)/e_i(q)$ 中，即： $e_i(x):=LAFF_{v,i}(x)$ $e_i(q):=LAFF_{t,i}(q)$ $s_i(x,q):=\frac1h\sum^h_{i=1}s_i(x,q)$ 最终使用的相似度就是这些多头相似度的平均。这一结构如图2：
在这里插入图片描述
到目前为止，我们假设要融合的功能都在视频级。事实上，由于LAFF具有很高的灵活性，它可以很容易地扩展为多级变体，以处理不同帧级和视频级特征共存的情况。图3显示了这种变体，称之为 $L A FF - m l$ 。 $L A FF - m l$ 以自下而上的方式工作，其中一组特定的帧级特征通过特定的LAFF块聚合以产生视频级特征。假设有两个不同的帧级特征，例如clip和rx101。每个都有自己的LAFF块。(由此产生的)不同的视频特征然后通过视频级LAFF块融合。
在这里插入图片描述

实验

为了评估LAFF的有效性，作者在MSR-VTT上进行消融研究，以从多个方面评估LAFF。然后，将基于laff的检索模型与最先进的MSR-VTT和其他三个流行的基准(包括MSVD, TGIF和VATEX)进行比较。为了在更大的集合上评估，在TRECVID AVS基准系列上进行了评估。
消融实验使用了这些模型提取特征，如果是细粒度的，则进行平均池化。
在这里插入图片描述

消融实验

作者首先进行了消融实验，对于视频和查询文本两端，控制一端不变，只改变另一端的特征，通过逐步添加预训练模型来获得性能曲线，如图4：
在这里插入图片描述为了比较特征融合块。通过将图2中的LAFF分别替换为MHSA和Attention-free来比较三种特征融合块。结果如表4所示，LAFF取得了最佳效果：

可视化

为了探索模型的可解释性作者对特征选择的LAFF权重进行可视化，图5显示了MV-test3k测试集中选择的视频及其相关字幕的LAFF权重。我们观察到，当视频内容包含更多的运动时，3D-CNN特征得到的权重更大，如图5(b)所示。对于每个特征，其权重在样本上的平均值反映了其对检索性能的贡献。作者用排名前三的视频/文本特征重新训练模型。与完整设置(mAP为0.358)相比，简化模型的mAP为0.353，这意味着性能损失相对较小，仅为1.4%。因此，LAFF权重有助于特征选择：

在这里插入图片描述

对比试验

作者进一步纳入MSVD、TGIF和VATEX。对于MSVD和TGIF，遵循他们的官方数据分割。对于VATEX，遵循HGR中使用的数据分割。对于MSR-VTT，除了官方的MVtest3k分割外，作者还报告了另一种流行的数据分割的性能，其中9k视频用于训练，1k用于测试。称之为分裂MV-test1k。实验结果如表7所示：
在这里插入图片描述
由于包含了更好的clip-ft特征，其性能比消融研究中报道的要好。基线(JE, w2vv++， SEA和MMT)比使用单个特征(clip-ft)得到的结果更差。结果表明，不能想当然地认为添加更好的特征就会产生更好的性能，需要对特征融合进行智能设计。所提出的LAFF在所有测试集上始终表现最好。LAFF-ml优于LAFF，说明在多个层次上灵活使用LAFF可以进一步提高性能。