Video Grounding

news2025/4/22 0:37:21

一些工作能够检测包含特定动作的视频片段，一般称为动作检测（action detection）或视频中的时序动作定位（Temporal Action Grounding in Videos，TAGV）

然而， TAGV 受限于预先定义的动作类别集合，不能完全覆盖所有的活动。因此，引入自然语言描述复杂多样的活动更为合理，视频中的时序定位（Temporal Sentence Grounding in Videos， TSGV）就是这样一项任务：使一个句子查询与视频中具有相同语义的一个片段（也被称作时刻）相匹配。 TSGV 的目标是预测目标片段在原视频中的起点和终点。

TSGV 可以作为各种下游视觉 - 语言任务的中间任务，例如视频问答和视频内容检索。

由于以下原因， TSGV 更具挑战性：

• 视频和句子查询都是具有丰富的语义和时序性的。因此，视频和句子之间的匹配关系相当复杂，

需要以更精细的方式建模，以实现准确的时间定位。

• 与查询相对应的目标片段在空间和时间尺度上是相当灵活的。如果通过滑动窗口获取候选视频片

段，计算成本会很高。因此，如何有效地全面覆盖目标片段，也是 TSGV 面临的挑战。

• 视频中的活动通常不是独立出现的，它们往往有内部的语义关联和时间上的相互依赖。因此，对

视频上下文信息在句子语义引导下的内在逻辑关系进行建模也十分重要。

根据是否生成候选片段和监督方式的不同，可以将 TSGV 模型分为四大类。

早期的工作采用了两阶段的架构，即首先扫描整个视频，并通过滑动窗口或提案生成网络（proposal generationnetwork）预先生成候选片段，然后根据跨模态匹配模块对候选片段进行排名。然而，候选片段的重叠导致了太多的冗余计算，而且单独的成对的片段查询匹配也可能忽略了上下文的视频信息。

一些研究人员开始尝试以端到端方式解决 TSGV 问题。这种端到端模型没有预先切割出候选片段作为模型的输入。有的方法采用长短期记忆（ LSTM ）或卷积神经网络（ CNN ）依次维护在每一时间步结束的多尺度候选片段，它们被称为基于锚点（ anchor-based ）的方法。其他一些端到端方法预测每个视频单元（即帧级或片段级）是目标片段起点和终点的概率，或者根据整个视频和

句子查询的多模态特征直接回归目标起点和终点坐标。这些方法不依赖任何生成候选片段的过程，被称为无锚点（anchor-free ）的方法。

值得注意的是，有些工作借助深度强化学习技术解决 TSGV 问题，将这个任务视为一个顺序决策

过程，这也是无锚点的。除了上述三类全监督方法，为了减少标注真实标签的时刻边界所需的大量人力，也有人提出了只用视频级标注的弱监督方法。

两阶段方法

基于滑动窗口的方法

MCN [23] 和 CTRL [16] 是开创性的工作，它们定义了TSGV 任务并构建了基准数据集。 Hendricks 等人 [23] 提出 MCN ，它通过滑动窗口机制采样得到候选片段，然后将视频片段表示和查询表示嵌入到同一个向量空间。在这个空间中，句子查询和相应的目标视频片段之间的 L2 距离被最小化，以监督模型的训练（参见图 3 （a））。

Gao 等人 [16] 提出了 CTRL ，这是第一个将 R-CNN[20] 从物体检测适应到 TSGV 的方法。 CTRL

利用滑动窗口获得不同长度的候选片段。如图 3 （b）

所示，它利用多模态处理模块将候选片段的表征与句子表征相融合，然后将融合后的表征送入另一个全连接层，以预测候选片段的对齐分数以及候选段和目标段之间的位置偏移。

考虑到基于滑动窗口方法的缺点，一些研究致力于减少候选片段的数量，被称为提案生成法。这

种方法仍然采用两阶段方案，但通过不同种类的提案网络来避免密集的滑动窗口采样。

尽管两阶段方法取得了一定的成功，但也有一些缺点。为了达到较高的定位精度（即候选片段中至少应该有一个接近真实标注），候选片段的长度和位置分布应该是多样化的，从而不可避免地增加了候选片段的数量，导致后续匹配过程的计算效率低下。

端到端方法

基于锚点的模型

TGN [5] 是一个典型的端到端深度神经网络结构，它可以单程内定位目标时刻，而不用处理大量重叠的预分割候选片段。TGN 通过细粒度逐词帧交互动态匹配句子和视频单元。在每个时间步，定位器会同时对结束于该时间步的一组不同时长的候选片段进行评分。

Yuan 等人 [73] 提出了 SCDM，利用分层的时间卷积网络进行目标片段定位，如图 4 所示，这个多

模态融合模块以细粒度的方式融合整个句子和每个视频片段。将融合的表示作为输入，语义调制

的时间卷积模块在时间卷积过程中进一步关联与句子相关的视频内容，动态调制与句子相关的时

间特征图。

尽管基于锚点的方法取得了卓越的性能，但其性能对人工设计的启发式规则（即锚点的数量和尺

度）很敏感。因此，这种基于锚点的方法不适用于视频长度可变的情况。同时，虽然不需要像两阶段方法那样进行预分割，但它的结果仍取决于被提案出的候选片段的排名，这也会影响其效率。

无锚点的模型

无锚点的方法没有对大量的候选方案进行排名，而是着眼于更精细的视频单元，如帧或片段，

旨在预测每一帧 / 片段是目标片段的起点和终点的概率，或者直接从全局角度回归起点和终点。

Yuan 等人提出了 ABLR [75] 。为了保留上下文信息，ABLR 首先通过双向 LSTM 网络对视频和句子进行编码。然后，引入多模态协同注意力机制，既生成能反映全局视频结构的视频注意力，还生成能突出时间定位关键细节的句子注意力。最后，设计了一个基于注意力的坐标预测模块，对时刻坐标进行回归。

与基于锚点的方法相比，无锚点的方法具有更高的计算效率和对可变时长视频的鲁棒性。虽然无

锚点的方法具有这些显著的优势，但它很难捕捉到多模态交互的片段级特征。

基于强化学习的方法

作为另一种无锚点方法，基于强化学习的框架将这样的任务视为一个连续的决策过程。每一步的行动空间是一组人为设计的基本操作（如移位、缩放）

He 等人 [22] 首先引入深度强化学习技术解决 TSGV 任务，将 TSGV 形式化为一个顺序决策问

题，在每个时间步骤中，观察网络输出环境的当前状态，供演员 - 评论员（ actor-critic ）模块生

成行动策略，在此基础上，智能体执行行动来调整时间边界。

弱监督方法

之后， TSGV 被扩展到训练阶段无法获得基准事实片段位置的弱监督场景下，即弱监督 TSGV 。弱监督方法大致可分为基于多实例学习（Multi-Instance Learning， MIL ）和基于重建两类。

一些工作 [12, 17, 43, 55] 采用多实例学习，整个视频被视为具有袋级标注的实例袋，对实例（视频段提案）的预测被聚合为袋级预测.

TGA [43] 是一种典型的基于 MIL 的方法，它通过将视频和其对应描述的匹配分数最大化，同时将

视频和其他描述的匹配分数最小化来学习视频层面的视觉 - 文本对齐。它提出了文本引导的注意力（Text-Guided Attention ， TGA ）来获得特定文本的全局视频表征、学习视频和视频级描述的联合表征。

评估

指标

TSGV 有两类指标，即 mIoU （即平均 IoU ）和 R@n , IoU ＝ m 。 IoU 在物体检测中被广泛用于评估两个边界框之间的相似性，TSGV 也类似，采用时序 IoU 衡量片段相似性。指标 mIoU 通过平均所有样本的时序 IoU 来评估结果。另一个常用的指标是 R@ n , IoU＝ m [25] 。对于样本 i ，如果当前 n 个被检索的片段中存在一个与基准片段的时间 IoU 超过 m 的片段时，则视为检索成功。R@ n , IoU ＝ m 是检索成功的样本占所有样本的百分比。研究者习惯设置 n ∈ {1, 5, 10} 和 m ∈ {0.3, 0.5, 0.7} 。通常，当方法采用无提案方式（即属于无锚点或基于强化学习的框架）时，n =1 。

时空定位视频中的时空语句定位是 TSGV 的另一个扩展，它主要从视频中通过自然语言描述将

指定对象或实例定位为连续的时空管道（即边界框序列）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/520691.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！