Cross-modal Moment Localization in Videos论文笔记
- 0.来源
- 1.摘要
- 2.介绍
- 3.模型
- 3.1语言-时间注意网络
- 3.2损失函数
- 3.2.1对齐损失
- 3.2.2位置损失
- 3.2.2损失函数
- 4.实验
- 4.1数据集
- 4.2性能比较
- 4.3 ROLE的几种变体
- 5.未来工作
0.来源
2018年 Cross-modal Moment Localization in Videos
1.摘要
一种称为“语言-时间注意力网络”的方法,该方法利用视频中的时间上下文信息学习单词的注意力。因此,我们的模型可以自动选择“听哪些单词”以定位所需的瞬间。
2.介绍
以一个具有代表性的查询来说:一个摩天轮首先进入视野。之前的模型对于第一次这个特点体现的不够好,作者认为建立一个语言处理模型,对基于不同的视频上下文从查询中自适应地选择关键文本词至关重要。
如图1所示作者提出了一个跨模态时刻定位网络(ROLE),它可以共同学习查询表示和时间段定位。首先,作者设计了一个语言-时间注意力模块,用于生成有效的查询表示,根据查询文本信息和时刻上下文信息自适应地重新加权每个单词的特征。然后,作者使用一个多模态处理模块来联合建模查询和时间上下文特征。最后,作者训练了一个多层感知器(MLP)网络来估计所需时刻的相关性分数和位置。
3.模型
3.1语言-时间注意网络
文本进行word 编码得到et,再双向lstm得到每个word representations,再将时间时刻上下文输入注意力模型,该模型能够分配具有更高重要性分数的更有用的单词。
在查询中建立了每个单词的集中嵌入后,我们可以构造查询的表示为:
然后q和c一起用MLP训练,输出向量oL =[scq, δs, δe ]组成。匹配分数scq和定位偏差δs = ts−τs和δe= te−τe。
3.2损失函数
3.2.1对齐损失
和TALL方式一样,给定从视频V和查询Q中提取的一组时刻候选C,我们将时刻查询对分为两组:对齐的P和不对齐的N。
3.2.2位置损失
c表示当前的候选视频片段,q表示文本描述, δs和δe分别表示c的起始帧与结束帧在视频中的时间戳,δs∗和δe∗分别表示q所描述的时刻段的起始帧与结束帧在视频中的时间戳。
训练阶段,偏移回归损失只在正样本上执行。作为测试阶段,一旦我们获得了一个对齐得分最高的候选矩,我们就可以添加具有偏移值的预测位置
3.2.2损失函数
4.实验
4.1数据集
Charades-STA:TALL论文中提出的数据集
DiDeMo:MCN模型论文提出的数据集
4.2性能比较
作者认为
- MCN表现最差,它简单地将整个时刻集作为每个候选时刻的上下文特征,就会引入噪声特征并导致负转移,而且模态融合也不够好。
- CTRL也不够理想,他对于整个查询进行了整体编码,忽视了查询文本当中的关键单词。
- 作者的ROLE表现的比较好
Note:由于在DiDeMo数据集中,由于正样本查询对对齐得很好(即,它们之间没有位置偏移),我们只利用对齐损失来训练CTRL和ROLE。
4.3 ROLE的几种变体
- ROLE_NT:每个单词的注意值只与查询和当前时刻相关,而不考虑其视频上下文。
- ROLE_NV:只依赖于查询词嵌入的查询注意模型,而不是使用语言-时间上的注意。也就是说,消除了所有的时间视觉信息。
- ROLE_BI:用Bi-LSTM的最后一个输出的连接作为查询嵌入。
- ROLE_EQ:意思是我们将等式中的权重设置为单词数量的平均值,即1/T。具体来说,T是输入句子的单词数,这种设置有利于平衡每个单词的贡献。
5.未来工作
- 把相应帧的空间信息整合到我们的模型中
- 强化学习纳入我们的模型,以自适应地决定下一步看哪里和何时预测,而不需要通过多尺度滑动窗口分割生成候选时刻。
- 我们计划将哈希模块合并到我们的模型中,以加快检索过程。