Hierarchical Video-Moment Retrieval and Step-Captioning

背景

为了激发人们对使用机器学习系统从这些基于文本查询的大型视频语料库中提取和总结重要信息的兴趣，在视频检索、时刻检索、视频摘要和视频字幕方面取得了进展。以前的工作通常侧重于独立解决这些任务；然而，所有这些任务都有一个共同的目标，即以不同的尺度和通过不同的模态从视频语料库中检索信息。因此，在这项工作中，引入了一种新的分层基准测试，它将所有四项任务结合在一起，以实现新颖而有用的现实世界应用程序。例如，基于文本的搜索服务从大型视频语料库中找到相关视频，从该视频中提取最相关的时刻，将该时刻划分为重要步骤，并为其添加字幕，以便于索引和检索。

因此，在这项工作中，我们引入了一种新的分层基准测试，它将所有四项任务结合在一起，以实现新颖而有用的现实世界应用程序。例如，基于文本的搜索服务从大型视频语料库中找到相关视频，从该视频中提取最相关的时刻，将该时刻划分为重要步骤，并为其添加字幕，以便于索引和检索。为了支持这一点，我们引入了HIREST，这是一个分层教学视频数据集，用于从视频语料库中检索信息的整体基准（见第3节）。HIREST由四个注释组成：1）关于开放域指令（例如，“如何在黑暗中发光”）和视频的3.4K对文本查询，2）1.1K视频中的相关时刻时间戳，其中只有一部分视频（<75%）与文本查询相关，3）带有时间戳的几个教学步骤中的时刻分解（每个视频7.6个步骤，总共8.6K个步骤），4）每个步骤都有一个手动策划的英文标题（例如“将洗发水倒入容器中”）。我们在两步注释过程中收集HIREST的细粒度分步注释，在线众包工作者对HowTo100M[23]数据集的教学文本视频对进行注释（见第3.1节）。教学视频通常带有清晰的分步说明，允许将视频细粒度分割为短步骤。虽然存在带有步骤注释的现有视频数据集，但它们基于少量预定义的任务名称[36，46]（因此步骤标题并不多样），或者仅限于单个主题（例如烹饪[45]）。HIREST涵盖了各种领域，并提供了由人工注释器编写的带有时间戳的不同步骤标题（见表1），

使用HIREST数据集，我们对四项任务进行了基准测试：1）视频检索，2）瞬间检索，3）瞬间分割，以及4）步进字幕（见图1和第3.3节）。在视频检索任务中，模型必须识别与给定文本查询最相关的视频,在即时检索任务中，模型必须通过修剪与文本查询无关的部分来选择视频的相关跨度（图1中的蓝色边界）。在瞬间分割任务中，模型必须将相关部分分解为几个指导步骤，并确定每个步骤的开始-结束边界（图1中的绿色边界）。。最后，在步骤字幕任务中，模型必须生成教学步骤的步骤字幕（例如“在地毯上喷洒温水”）。为了给社区提供新任务层次结构的良好起点，我们展示了HIREST上最新基线模型的性能。对于基线，我们使用强大的模型，包括CLIP[27]、EVA-CLIP[8]、Frozenin Time[2]、BMT[13]和SwinBERT[20]。在所有四项任务中，我们发现HIREST上的微调模型可以提高性能；然而，仍有很大的改进空间。

贡献

我们在本文中总结了我们的贡献：1）我们提出了HIREST数据集，并提出了一个新的基准，该基准涵盖了教学视频语料库中的信息检索和视觉/文本摘要的层次结构。2）与现有的基于预定义任务名称或仅限于单个主题的步骤标题的视频数据集不同，我们的HIREST提供了由人工注释器编写的具有时间戳的多样化、高质量的步骤标题。3）我们提供了一个联合基线模型，该模型可以使用单个架构执行时刻检索、时刻分割和步骤字幕。4）我们提供了全面的数据集分析，并展示了每个任务的基线模型实验，其中有很大的空间来提高模型性能。我们希望HIREST能够促进未来在大型视频语料库上进行整体信息检索和摘要的端到端系统的工作。此外，我们的手动注释步骤标题也可以是训练和测试大型多模态语言模型的逐步推理的良好来源[40，44]。

HIREST：分层检索和分步字幕数据集

我们展示了HIREST，这是一个视频数据集，由3.4K个文本视频对、1.8K个矩和8.6K个步长字幕注释组成。它涵盖了从不同的教学视频语料库中进行视频/瞬间检索和逐步字幕的层次结构。视频数据集中的先前步骤注释使用了词汇量较小的预定义任务描述[36，46]或仅限于单个领域（例如烹饪[45]）。相比之下，HIREST的步骤标题是由人工注释器手动编写的，并且涵盖了具有大量词汇表的不同领域（见表1）。我们描述了数据收集过程（第3.1节）、数据集分析（第3.2节）以及源自数据集的四个层次任务（第3.3节）。

Dataset Collection

在下文中，我们将描述两阶段的数据收集过程。在附录中，我们提供了每个阶段和工人资格鉴定过程的数据收集界面截图。

第一阶段：视频和瞬间检索。我们从HowTo100M[23]数据集中收集了成对的文本查询和相关视频。由于视频最初是从YouTube自动收集的，我们通过人工注释确保所有视频实际上与查询相关。我们雇佣了亚马逊机械Turk1的众包工作者，并要求他们标记视频是否正确回答/解决了相关的文本查询。如果视频被标记为与文本查询相关，那么我们从视频中收集相关的“瞬间”注释，方法是要求众筹人员将视频修剪为与文本直接相关的部分（即删除与文本查询无关的视频部分，如介绍或其他主题）。如果与查询相关的时刻小于原始视频长度的75%，我们将视频定义为可剪辑到某个时刻。一个可以从视频中检索瞬间的系统将帮助人们直接观看他们感兴趣的视频部分，并节省时间。对于检索到的时刻，我们通过将时刻划分为步骤并为每个步骤加上字幕来收集更细粒度的注释。我们在下面解释力矩注释。

第二阶段：瞬间分割和步骤字幕。在这个阶段，我们收集检索到的矩的细粒度、逐步的注释。我们要求众筹人员观看检索到的时刻，将它们分为几个步骤，并标记每个步骤的开始时间戳。然后，对于每个标记的瞬间片段，他们被要求写一个步骤说明，描述要完成的具体步骤（例如，“向蜡烛中加入蜡笔”、“用热水在碗中融化”、“搅拌均匀直到变干”）。我们从HowTo100M[23]中的文本查询是从“如何”开始的教学问题，我们希望步骤标题作为瞬间/步骤的简短文本摘要。我们要求众筹人员以动作动词（例如“add”、“apply”）开头每个标题，并将标题的长度限制在七个单词以内。

Dataset Analysis

任务类别分布。我们的视频和文本查询是从HowTo100M[23]数据集收集的，因此我们的类别标签与它们的匹配。如图2所示，最常见的类别（对于所有文本视频对，而只是带有步骤说明的视频）是“爱好和手工艺”、“食物和娱乐”以及“家和花园”。虽然这些是最常见的类别（类似于HowTo100M最常见的分类），但其他类别在我们的数据集中仍然存在。

数据集统计信息。我们总共收集了3.4K对文本视频，平均长度为287秒，总时长为270小时。在3.4K个视频中，有1.8K个视频可以即时剪辑；即只有一个短剪辑（＜原始视频的75%）与文本查询相关。平均时长为148秒，相当于原始视频的55%。在1.8K个矩中，我们为随机选择的1.1K个矩提供了矩分割和步长注释。1.1K的力矩平均分解为7.6步，总计8.6K步。每个步骤都用一个开始-结束时间戳和一个步骤标题进行注释。步骤标题平均长4.42个单词，有633个独特的起始动词和3382个独特的单词。图4显示了步骤标题中最频繁的起始动词和最频繁的单词（不包括起始词和停止词）。图3显示了350个随机步长字幕样本的前三个单词（忽略停止单词）。如可视化所示，HIREST的手动编写的步骤标题涵盖了开放域指令步骤，并具有不同的词汇表。

与具有步骤标题的其他数据集的比较。表1将我们的HIREST数据集与其他具有步骤注释的视频数据集进行了比较。HIREST涵盖了各种开放域视频，每个视频有许多步骤注释，以及由人工注释器编写的高质量步骤说明。虽然COIN[36]和CrossTask[46]也为开放域视频提供了步骤级注释，但它们仅限于一组预定义的步骤。相反，HIREST的所有步骤标题都是手动编写的，以回答输入文本查询。

数据拆分。由于存在从同一查询中检索多个视频的情况，我们通过查询而不是视频将数据集拆分为train/val/test拆分。我们将查询分为546/292/546（1507/477/1391视频），分别用于训练/评估/测试拆分。

Hierarchical Tasks Enabled by HIREST

在下文中，我们将介绍四个基于HIREST数据集的层次结构中连接的任务。有关任务的概述和可视化示例，请参见图1。

视频检索。这项任务为模型提供了一个指导性文本查询（例如“如何制作内存罐”），模型需要确定哪些视频是相关的，并检索最重要的结果。模型必须在4.2K测试分割视频中检索视频（1.4K视频与文本查询配对+HowTo100M[23]中的2.8K干扰视频）。分心视频是负面例子（因此是“分心者”），类似于Revaud等人[30]。我们将这些干扰因素包括在内，以帮助增加视频检索任务的难度。

力矩检索。在这项任务中，目标是提取与给定文本查询直接相关的视频部分（即从视频的开始/结束处删除任何不必要的信息）。

瞬间分割。在这项任务中，模型应该从检索到的视频相关时刻中识别出所有相关的关键“步骤”。模型应该为给定视频中的每个关键步骤生成一个开始和结束时间列表。

步骤标题。此任务要求模型为视频中检索到的每个步骤生成简短的文本步骤标题。模型提供了每个步骤的源视频和开始/结束时间。然后，他们应该为每个步骤生成一个简短的教学步骤说明。

Experiments

对于所有四个HIREST任务，我们使用特定任务的基线模型（第4.1节）和联合基线模型（第一4.2节）进行实验，并使用不同的标准度量对其进行评估（第4.3节）。如果没有指定，我们将每个视频表示为32帧，间隔均匀。

Task-specific Models

视频检索。我们对CLIP（ViTB/32）[27]、EVA-CLIP（ViT-G/14）[8]、Frozen in Time[2]和MIL-NCE（S3D）[22]进行了实验，它们分别是预训练的文本到图像（CLIP/EVA-CLIP）和文本到视频（Frozen inTime/MI-NCE）检索模型。对于CLIP和EVA-CLIP，我们通过对帧嵌入进行平均来获得视频嵌入。我们通过视频和文本查询嵌入之间的余弦相似性来计算匹配分数。按照最初的设置，我们使用4帧用于“冻结时间”，使用32帧用于MIL-NCE。

时刻检索。我们实验了两种基于CLIP的启发式方法和BMT[13]的事件建议模块，这是一种在ActivityNet字幕[14]上预训练的密集视频字幕模型。使用CLIP，我们计算所有帧和文本查询之间的余弦相似度，并找到得分最高的帧。然后，我们用两种不同的启发式方法确定时刻的开始/结束边界：1）选取相似性得分从最高得分帧下降一定阈值（例如，0.10）的帧；2）拾取左侧和右侧的8个帧，总计多达17个（=8+1+8）帧（详见附录）。此外，我们对BMT[13]事件建议模块进行了实验，该模块预测具有中心/长度/置信度值的视频事件建议。我们允许BMT生成各种事件，然后将事件的最小开始时间和最大结束时间作为检索时刻。对于BMT，我们为模型提供了整个视频的I3D[5]RGB+Flow特征和VGGish[11]音频特征，以1fps提取。

瞬间分割。我们实验了1）结构相似性指数测度（SSIM）[39]的逐帧差异，以及2）BMT[13]的事件建议模块。对于SSIM，如果两个相邻帧的SSIM低于某个阈值（例如0.85），我们将其标记为阶跃边界。对于BMT，我们提供整个视频的模型I3D和VGGish特征（以1fps提取），并直接使用视频事件建议预测。

步骤标题。我们对BMT和SwinBERT[20]进行了实验，这是一个经过预训练的视频字幕模型。对于BMT，我们使用每个步骤的I3D和VGGish特征，以1fps提取。我们不将其事件建议模块用于此任务，因为我们给出了基本事实步骤边界内的特征。对于SwinBERT，我们使用YouCook2[45]检查点和每个步骤的32个视频帧作为模型的输入。

我们还试验了一个端到端的联合基线模型，该模型使用单个架构处理时刻检索、时刻分割和步骤字幕任务。如图5所示，我们的模型建立在四个现有的预训练模型上：EVA-CLIP[8]、Whisper[28]、MiniLM[29]和CLIP4Caption[35]。EVA-CLIP视觉编码器将视频帧映射到视觉嵌入，EVACLIP文本编码器将文本查询映射到文本嵌入，Whisper从音频中提取语音转录，MiniLM文本编码器将语音转录映射到文本嵌入式。为了适应视频、文本和音频嵌入，我们对从CLIP4Caption（MSRVT[41]检查点）初始化的两层多模式编码器和两层文本解码器进行了微调。我们以循环方式在多任务设置中训练联合模型，方法是在每个步骤从一个数据加载器中采样一批[6]。

输入嵌入。我们通过组合1）EVA-CLIP视频帧嵌入，2）EVA-CLIP文本查询嵌入（平铺到视频帧的数量），3）和MiniLM语音转录嵌入（在时间上扭曲到每个帧中），以及4）任务特定掩码嵌入，来构建到转换器的多模态输入嵌入。对于时刻检索和时刻分割任务，我们提供相同的多模式嵌入，同时屏蔽掉不感兴趣的帧。

瞬间检索和瞬间分割。根据基于跨度的文本问答模型[7，32]，我们学习预测力矩和步长边界的线性层。具体来说，我们使用三个线性层来预测力矩开始、力矩结束和步长边界。对于力矩检索，我们的联合开始和结束预测器并行预测力矩边界，并且我们不屏蔽视频输入。对于矩分割，我们的联合模型通过掩蔽自回归预测每个步骤的边界；即，我们屏蔽1）在该时刻之外的帧和2）包括在先前步骤中的帧。对于这两项任务，我们以1fps的格式提供视频。

步骤标题。按照CLIP4Caption[35]，我们从每个步骤中采样20帧。自回归文本解码器通过交叉注意力处理多模式编码器输出，并独立生成每个步骤的字幕。

在这项工作中，我们提出了HIREST数据集，并提出了一个新的基准，该基准涵盖了教学视频语料库中信息检索和摘要的层次结构。我们的基准测试由四项任务组成：视频检索、瞬间检索以及我们新的瞬间分割和步进字幕任务。与现有的带有步骤标题的视频数据集不同，我们的HIREST提供了独特、多样、高质量的指令步骤，这些步骤带有由人工注释器编写的时间戳。我们提供了全面的数据集分析，并以每个任务的几个特定任务和端到端联合基线模型为起点进行了实验。我们希望HIREST能够促进未来在多模式系统方面的工作，用于整体视频信息检索、摘要和逐步推理。