0.来源

2018年 Cross-modal Moment Localization in Videos

1.摘要

一种称为“语言-时间注意力网络”的方法，该方法利用视频中的时间上下文信息学习单词的注意力。因此，我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。

2.介绍

以一个具有代表性的查询来说：一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好，作者认为建立一个语言处理模型，对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。
在这里插入图片描述
如图1所示作者提出了一个跨模态时刻定位网络（ROLE），它可以共同学习查询表示和时间段定位。首先，作者设计了一个语言-时间注意力模块，用于生成有效的查询表示，根据查询文本信息和时刻上下文信息自适应地重新加权每个单词的特征。然后，作者使用一个多模态处理模块来联合建模查询和时间上下文特征。最后，作者训练了一个多层感知器（MLP）网络来估计所需时刻的相关性分数和位置。

3.模型

3.1语言-时间注意网络

在这里插入图片描述

文本进行word 编码得到et，再双向lstm得到每个word representations，再将时间时刻上下文输入注意力模型，该模型能够分配具有更高重要性分数的更有用的单词。
在这里插入图片描述

在这里插入图片描述
在查询中建立了每个单词的集中嵌入后，我们可以构造查询的表示为：

然后q和c一起用MLP训练，输出向量o_L =[s_cq, δ_s, δ_e ]组成。匹配分数s_cq和定位偏差δ_s = ts−τs和δ_e= te−τe。

3.2损失函数

3.2.1对齐损失

和TALL方式一样，给定从视频V和查询Q中提取的一组时刻候选C，我们将时刻查询对分为两组：对齐的P和不对齐的N。
在这里插入图片描述

3.2.2位置损失

在这里插入图片描述
c表示当前的候选视频片段，q表示文本描述， δs和δe分别表示c的起始帧与结束帧在视频中的时间戳，δs∗和δe∗分别表示q所描述的时刻段的起始帧与结束帧在视频中的时间戳。

训练阶段，偏移回归损失只在正样本上执行。作为测试阶段，一旦我们获得了一个对齐得分最高的候选矩，我们就可以添加具有偏移值的预测位置

3.2.2损失函数

在这里插入图片描述

4.实验

4.1数据集

Charades-STA：TALL论文中提出的数据集
DiDeMo：MCN模型论文提出的数据集

4.2性能比较

在这里插入图片描述

作者认为

MCN表现最差，它简单地将整个时刻集作为每个候选时刻的上下文特征，就会引入噪声特征并导致负转移，而且模态融合也不够好。
CTRL也不够理想，他对于整个查询进行了整体编码，忽视了查询文本当中的关键单词。
作者的ROLE表现的比较好
Note：由于在DiDeMo数据集中，由于正样本查询对对齐得很好（即，它们之间没有位置偏移），我们只利用对齐损失来训练CTRL和ROLE。