paper:
code:
简介:
长篇自我中心视频的视觉查询定位需要时空搜索和指定对象的定位。之前的工作开发了复杂的多级管道,利用完善的对象检测和跟踪方法来执行 VQL(视觉查询定位)。然而,每个阶段都是独立训练的,管道的复杂性导致推理速度缓慢。 VQLoC是一种新颖的单阶段 VQL 框架,可进行端到端训练。关键思想是首先建立对查询视频关系的整体理解,然后以单次方式执行时空定位。具体来说,通过联合考虑查询与每个视频帧之间的查询到帧对应关系以及附近视频帧之间的帧到帧对应关系来建立查询视频关系。准确率提高了 20%,推理速度提高了 10 倍。
图 1:视觉查询本地化 (VQL):(左)目标是本地化长视频中的视觉查询对象,如黄色边界框标记的响应轨迹所示。这项任务的复杂性源于需要适应视频中出现的具有不同尺度、视点和状态的开放集对象查询; (右)我们的方法 VQLoC 首先通过联合 推理查询到帧(空间)和 帧到帧(时间)对应关系,建立对查询视频关系的整体理解,然后在单阶段中定位响应并结束端到端可训练方式。
VQL 任务的自我中心性质:对象所在的视频可能变化很大,比如方向、大小、上下文和照明条件,经历模糊和遮挡。在现实世界中,以自我为中心的视频可能会持续几分钟、几小时或几天,而对象本身可能只出现几秒钟,从而导致“大海捞针”的问题。
之前的工作通过三个阶段的自下而上的框架来解决 VQL:
- 在每个视频帧中,检测所有对象并与视觉查询进行成对比较,以获得与查询最相似的建议;
- 识别整个视频中的相似性得分峰值;
- 围绕最近的峰值执行双向跟踪以恢复时空响应。
限制:很依赖通过独立查看每帧来检测目标的第一阶段。帧级对象检测中的错误可能会导致整个系统失败,因为框架不是端到端可微分的,并且早期阶段的错误可能无法在后期纠正。此外,由于与冗余目标建议进行两两比较的复杂性较高,推理速度较慢。
结构:VQLoC联合建模查询与每个视频帧之间的查询-帧关系以及相邻视频帧之间的帧-帧关系(图1),然后以单阶段、端到端可训练的方式进行时空定位。具体来说,
- 通过使用DINO预训练的ViT主干提取视觉查询和每个视频帧的图像特征,并使用交叉注意transformer建立查询中图像区域与视频帧之间的对应关系,从而建立查询到帧的关系。
- 然后,使用自注意transformer随时间传播这些对应关系,利用视频的时间连续性产生的帧对帧关系来捕获整体查询-视频关系。
- 最后,使用卷积预测头,通过利用查询-视频关系进行时空定位来进行帧级预测。
模型在单一阶段运行,即没有具有专用后处理步骤的中间定位输出,并且是端到端可训练的,因为它只使用可微模块来获得最终预测。与之前的分阶段方法相比,VQLoC的优点:
- 与之前在视频帧中显式生成对象建议并将其与视觉查询进行比较的工作不同,VQLoC通过在视觉查询特征和视频帧特征之间执行基于注意力的推理,隐式地建立了查询帧关系。该方法有效地利用背景和非查询对象的图像区域作为上下文信息进行推理。
- 隐式查询框架关系的计算速度明显快于显式生成建议和执行两两比较,这对于现实世界的情景记忆应用程序至关重要。
- 最后,VQLoC是端到端可训练的,性能更好。