Hierarchical Video-Moment Retrieval and Step-Captioning

news2024/9/23 15:46:10

背景

为了激发人们对使用机器学习系统从这些基于文本查询的大型视频语料库中提取和总结重要信息的兴趣,在视频检索、时刻检索、视频摘要和视频字幕方面取得了进展。以前的工作通常侧重于独立解决这些任务;然而,所有这些任务都有一个共同的目标,即以不同的尺度和通过不同的模态从视频语料库中检索信息。因此,在这项工作中,引入了一种新的分层基准测试,它将所有四项任务结合在一起,以实现新颖而有用的现实世界应用程序。例如,基于文本的搜索服务从大型视频语料库中找到相关视频,从该视频中提取最相关的时刻,将该时刻划分为重要步骤,并为其添加字幕,以便于索引和检索。

因此,在这项工作中,我们引入了一种新的分层基准测试,它将所有四项任务结合在一起,以实现新颖而有用的现实世界应用程序。例如,基于文本的搜索服务从大型视频语料库中找到相关视频,从该视频中提取最相关的时刻,将该时刻划分为重要步骤,并为其添加字幕,以便于索引和检索。为了支持这一点,我们引入了HIREST,这是一个分层教学视频数据集,用于从视频语料库中检索信息的整体基准(见第3节)。HIREST由四个注释组成:1)关于开放域指令(例如,“如何在黑暗中发光”)和视频的3.4K对文本查询,2)1.1K视频中的相关时刻时间戳,其中只有一部分视频(<75%)与文本查询相关,3)带有时间戳的几个教学步骤中的时刻分解(每个视频7.6个步骤,总共8.6K个步骤),4)每个步骤都有一个手动策划的英文标题(例如“将洗发水倒入容器中”)。我们在两步注释过程中收集HIREST的细粒度分步注释,在线众包工作者对HowTo100M[23]数据集的教学文本视频对进行注释(见第3.1节)。教学视频通常带有清晰的分步说明,允许将视频细粒度分割为短步骤。虽然存在带有步骤注释的现有视频数据集,但它们基于少量预定义的任务名称[36,46](因此步骤标题并不多样),或者仅限于单个主题(例如烹饪[45])。HIREST涵盖了各种领域,并提供了由人工注释器编写的带有时间戳的不同步骤标题(见表1),

使用HIREST数据集,我们对四项任务进行了基准测试:1)视频检索,2)瞬间检索,3)瞬间分割,以及4)步进字幕(见图1和第3.3节)。在视频检索任务中,模型必须识别与给定文本查询最相关的视频,在即时检索任务中,模型必须通过修剪与文本查询无关的部分来选择视频的相关跨度(图1中的蓝色边界)。在瞬间分割任务中,模型必须将相关部分分解为几个指导步骤,并确定每个步骤的开始-结束边界(图1中的绿色边界)。。最后,在步骤字幕任务中,模型必须生成教学步骤的步骤字幕(例如“在地毯上喷洒温水”)。为了给社区提供新任务层次结构的良好起点,我们展示了HIREST上最新基线模型的性能。对于基线,我们使用强大的模型,包括CLIP[27]、EVA-CLIP[8]、Frozenin Time[2]、BMT[13]和SwinBERT[20]。在所有四项任务中,我们发现HIREST上的微调模型可以提高性能;然而,仍有很大的改进空间。

贡献

我们在本文中总结了我们的贡献:1)我们提出了HIREST数据集,并提出了一个新的基准,该基准涵盖了教学视频语料库中的信息检索和视觉/文本摘要的层次结构。2) 与现有的基于预定义任务名称或仅限于单个主题的步骤标题的视频数据集不同,我们的HIREST提供了由人工注释器编写的具有时间戳的多样化、高质量的步骤标题。3) 我们提供了一个联合基线模型,该模型可以使用单个架构执行时刻检索、时刻分割和步骤字幕。4) 我们提供了全面的数据集分析,并展示了每个任务的基线模型实验,其中有很大的空间来提高模型性能。我们希望HIREST能够促进未来在大型视频语料库上进行整体信息检索和摘要的端到端系统的工作。此外,我们的手动注释步骤标题也可以是训练和测试大型多模态语言模型的逐步推理的良好来源[40,44]。

HIREST:分层检索和分步字幕数据集

我们展示了HIREST,这是一个视频数据集,由3.4K个文本视频对、1.8K个矩和8.6K个步长字幕注释组成。它涵盖了从不同的教学视频语料库中进行视频/瞬间检索和逐步字幕的层次结构。视频数据集中的先前步骤注释使用了词汇量较小的预定义任务描述[36,46]或仅限于单个领域(例如烹饪[45])。相比之下,HIREST的步骤标题是由人工注释器手动编写的,并且涵盖了具有大量词汇表的不同领域(见表1)。我们描述了数据收集过程(第3.1节)、数据集分析(第3.2节)以及源自数据集的四个层次任务(第3.3节)。

Dataset Collection

在下文中,我们将描述两阶段的数据收集过程。在附录中,我们提供了每个阶段和工人资格鉴定过程的数据收集界面截图。

第一阶段:视频和瞬间检索。我们从HowTo100M[23]数据集中收集了成对的文本查询和相关视频。由于视频最初是从YouTube自动收集的,我们通过人工注释确保所有视频实际上与查询相关。我们雇佣了亚马逊机械Turk1的众包工作者,并要求他们标记视频是否正确回答/解决了相关的文本查询。如果视频被标记为与文本查询相关,那么我们从视频中收集相关的“瞬间”注释,方法是要求众筹人员将视频修剪为与文本直接相关的部分(即删除与文本查询无关的视频部分,如介绍或其他主题)。如果与查询相关的时刻小于原始视频长度的75%,我们将视频定义为可剪辑到某个时刻。一个可以从视频中检索瞬间的系统将帮助人们直接观看他们感兴趣的视频部分,并节省时间。对于检索到的时刻,我们通过将时刻划分为步骤并为每个步骤加上字幕来收集更细粒度的注释。我们在下面解释力矩注释。

第二阶段:瞬间分割和步骤字幕。在这个阶段,我们收集检索到的矩的细粒度、逐步的注释。我们要求众筹人员观看检索到的时刻,将它们分为几个步骤,并标记每个步骤的开始时间戳。然后,对于每个标记的瞬间片段,他们被要求写一个步骤说明,描述要完成的具体步骤(例如,“向蜡烛中加入蜡笔”、“用热水在碗中融化”、“搅拌均匀直到变干”)。我们从HowTo100M[23]中的文本查询是从“如何”开始的教学问题,我们希望步骤标题作为瞬间/步骤的简短文本摘要。我们要求众筹人员以动作动词(例如“add”、“apply”)开头每个标题,并将标题的长度限制在七个单词以内。

Dataset Analysis

任务类别分布。我们的视频和文本查询是从HowTo100M[23]数据集收集的,因此我们的类别标签与它们的匹配。如图2所示,最常见的类别(对于所有文本视频对,而只是带有步骤说明的视频)是“爱好和手工艺”、“食物和娱乐”以及“家和花园”。虽然这些是最常见的类别(类似于HowTo100M最常见的分类),但其他类别在我们的数据集中仍然存在。

数据集统计信息。我们总共收集了3.4K对文本视频,平均长度为287秒,总时长为270小时。在3.4K个视频中,有1.8K个视频可以即时剪辑;即只有一个短剪辑(<原始视频的75%)与文本查询相关。平均时长为148秒,相当于原始视频的55%。在1.8K个矩中,我们为随机选择的1.1K个矩提供了矩分割和步长注释。1.1K的力矩平均分解为7.6步,总计8.6K步。每个步骤都用一个开始-结束时间戳和一个步骤标题进行注释。步骤标题平均长4.42个单词,有633个独特的起始动词和3382个独特的单词。图4显示了步骤标题中最频繁的起始动词和最频繁的单词(不包括起始词和停止词)。图3显示了350个随机步长字幕样本的前三个单词(忽略停止单词)。如可视化所示,HIREST的手动编写的步骤标题涵盖了开放域指令步骤,并具有不同的词汇表。 

与具有步骤标题的其他数据集的比较。表1将我们的HIREST数据集与其他具有步骤注释的视频数据集进行了比较。HIREST涵盖了各种开放域视频,每个视频有许多步骤注释,以及由人工注释器编写的高质量步骤说明。虽然COIN[36]和CrossTask[46]也为开放域视频提供了步骤级注释,但它们仅限于一组预定义的步骤。相反,HIREST的所有步骤标题都是手动编写的,以回答输入文本查询。

数据拆分。由于存在从同一查询中检索多个视频的情况,我们通过查询而不是视频将数据集拆分为train/val/test拆分。我们将查询分为546/292/546(1507/477/1391视频),分别用于训练/评估/测试拆分。

Hierarchical Tasks Enabled by HIREST

在下文中,我们将介绍四个基于HIREST数据集的层次结构中连接的任务。有关任务的概述和可视化示例,请参见图1。

视频检索。这项任务为模型提供了一个指导性文本查询(例如“如何制作内存罐”),模型需要确定哪些视频是相关的,并检索最重要的结果。模型必须在4.2K测试分割视频中检索视频(1.4K视频与文本查询配对+HowTo100M[23]中的2.8K干扰视频)。分心视频是负面例子(因此是“分心者”),类似于Revaud等人[30]。我们将这些干扰因素包括在内,以帮助增加视频检索任务的难度。

力矩检索。在这项任务中,目标是提取与给定文本查询直接相关的视频部分(即从视频的开始/结束处删除任何不必要的信息)。

瞬间分割。在这项任务中,模型应该从检索到的视频相关时刻中识别出所有相关的关键“步骤”。模型应该为给定视频中的每个关键步骤生成一个开始和结束时间列表。

步骤标题。此任务要求模型为视频中检索到的每个步骤生成简短的文本步骤标题。模型提供了每个步骤的源视频和开始/结束时间。然后,他们应该为每个步骤生成一个简短的教学步骤说明。

Experiments

对于所有四个HIREST任务,我们使用特定任务的基线模型(第4.1节)和联合基线模型(第一4.2节)进行实验,并使用不同的标准度量对其进行评估(第4.3节)。如果没有指定,我们将每个视频表示为32帧,间隔均匀 。

Task-specific Models

视频检索。我们对CLIP(ViTB/32)[27]、EVA-CLIP(ViT-G/14)[8]、Frozen in Time[2]和MIL-NCE(S3D)[22]进行了实验,它们分别是预训练的文本到图像(CLIP/EVA-CLIP)和文本到视频(Frozen inTime/MI-NCE)检索模型。对于CLIP和EVA-CLIP,我们通过对帧嵌入进行平均来获得视频嵌入。我们通过视频和文本查询嵌入之间的余弦相似性来计算匹配分数。按照最初的设置,我们使用4帧用于“冻结时间”,使用32帧用于MIL-NCE。

时刻检索。我们实验了两种基于CLIP的启发式方法和BMT[13]的事件建议模块,这是一种在ActivityNet字幕[14]上预训练的密集视频字幕模型。使用CLIP,我们计算所有帧和文本查询之间的余弦相似度,并找到得分最高的帧。然后,我们用两种不同的启发式方法确定时刻的开始/结束边界:1)选取相似性得分从最高得分帧下降一定阈值(例如,0.10)的帧;2) 拾取左侧和右侧的8个帧,总计多达17个(=8+1+8)帧(详见附录)。此外,我们对BMT[13]事件建议模块进行了实验,该模块预测具有中心/长度/置信度值的视频事件建议。我们允许BMT生成各种事件,然后将事件的最小开始时间和最大结束时间作为检索时刻。对于BMT,我们为模型提供了整个视频的I3D[5]RGB+Flow特征和VGGish[11]音频特征,以1fps提取。

瞬间分割。我们实验了1)结构相似性指数测度(SSIM)[39]的逐帧差异,以及2)BMT[13]的事件建议模块。对于SSIM,如果两个相邻帧的SSIM低于某个阈值(例如0.85),我们将其标记为阶跃边界。对于BMT,我们提供整个视频的模型I3D和VGGish特征(以1fps提取),并直接使用视频事件建议预测。

步骤标题。我们对BMT和SwinBERT[20]进行了实验,这是一个经过预训练的视频字幕模型。对于BMT,我们使用每个步骤的I3D和VGGish特征,以1fps提取。我们不将其事件建议模块用于此任务,因为我们给出了基本事实步骤边界内的特征。对于SwinBERT,我们使用YouCook2[45]检查点和每个步骤的32个视频帧作为模型的输入。

我们还试验了一个端到端的联合基线模型,该模型使用单个架构处理时刻检索、时刻分割和步骤字幕任务。如图5所示,我们的模型建立在四个现有的预训练模型上:EVA-CLIP[8]、Whisper[28]、MiniLM[29]和CLIP4Caption[35]。EVA-CLIP视觉编码器将视频帧映射到视觉嵌入,EVACLIP文本编码器将文本查询映射到文本嵌入,Whisper从音频中提取语音转录,MiniLM文本编码器将语音转录映射到文本嵌入式。为了适应视频、文本和音频嵌入,我们对从CLIP4Caption(MSRVT[41]检查点)初始化的两层多模式编码器和两层文本解码器进行了微调。我们以循环方式在多任务设置中训练联合模型,方法是在每个步骤从一个数据加载器中采样一批[6]。

输入嵌入。我们通过组合1)EVA-CLIP视频帧嵌入,2)EVA-CLIP文本查询嵌入(平铺到视频帧的数量),3)和MiniLM语音转录嵌入(在时间上扭曲到每个帧中),以及4)任务特定掩码嵌入,来构建到转换器的多模态输入嵌入。对于时刻检索和时刻分割任务,我们提供相同的多模式嵌入,同时屏蔽掉不感兴趣的帧。

瞬间检索和瞬间分割。根据基于跨度的文本问答模型[7,32],我们学习预测力矩和步长边界的线性层。具体来说,我们使用三个线性层来预测力矩开始、力矩结束和步长边界。对于力矩检索,我们的联合开始和结束预测器并行预测力矩边界,并且我们不屏蔽视频输入。对于矩分割,我们的联合模型通过掩蔽自回归预测每个步骤的边界;即,我们屏蔽1)在该时刻之外的帧和2)包括在先前步骤中的帧。对于这两项任务,我们以1fps的格式提供视频。

步骤标题。按照CLIP4Caption[35],我们从每个步骤中采样20帧。自回归文本解码器通过交叉注意力处理多模式编码器输出,并独立生成每个步骤的字幕。

在这项工作中,我们提出了HIREST数据集,并提出了一个新的基准,该基准涵盖了教学视频语料库中信息检索和摘要的层次结构。我们的基准测试由四项任务组成:视频检索、瞬间检索以及我们新的瞬间分割和步进字幕任务。与现有的带有步骤标题的视频数据集不同,我们的HIREST提供了独特、多样、高质量的指令步骤,这些步骤带有由人工注释器编写的时间戳。我们提供了全面的数据集分析,并以每个任务的几个特定任务和端到端联合基线模型为起点进行了实验。我们希望HIREST能够促进未来在多模式系统方面的工作,用于整体视频信息检索、摘要和逐步推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2157907.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科研绘图系列:R语言连线点图(linechart dotplot)

文章目录 介绍加载R包导入数据数据预处理画图组合图形导出数据系统信息介绍 不同物种的强度和微生物的组成情况 加载R包 library("here") library("tidyverse") library("reshape2") library("vegan")

照片写真记录摄影作品记录网站源码

完美适应iPad&#xff0c;平板&#xff0c;手机竖屏不支持lazy&#xff0c;横屏可以&#xff0c;但建议使用平板查看效果&#xff0c; 有服务器直接上传解压使用&#xff0c;环境nginxphp&#xff0c; 没有服务器也没关系&#xff0c;可以直接使用html

Cherry Studio:开启AI智能工作的新篇章

引言 在当今快速发展的科技时代&#xff0c;如何高效利用人工智能技术提升工作效率&#xff0c;成为了各行各业专业人士的共同追求。&#x1f352; Cherry Studio 正是为此而生&#xff0c;它是一款支持多模型服务的桌面客户端&#xff0c;内置了超过 30 个行业的智能助手&…

Could not load library libcudnn_cnn_train.so.8 问题及(非常简单)解决方案

问题描述 Could not load library libcudnn_cnn_train.so.8. Error: /usr/local/cuda-11.8/lib64/libcudnn_cnn_train.so.8: undefined symbol: _ZN5cudnn3cnn34layerNormFwd_execute_internal_implERKNS_7backend11VariantPackEP11CUstream_stRNS0_18LayerNormFwdParamsERKNS…

对抗攻击的详细解析:原理、方法与挑战

对抗攻击的详细解析&#xff1a;原理、方法与挑战 对抗攻击&#xff08;Adversarial Attack&#xff09;是现代机器学习模型&#xff0c;尤其是深度学习模型中的一个关键安全问题。其本质在于&#xff0c;通过对输入数据添加精微的扰动&#xff0c;人类难以察觉这些扰动&#…

教你一招:在微信小程序中为用户上传的图片添加时间水印

在微信小程序开发过程中&#xff0c;我们常常需要在图片上添加水印&#xff0c;以保护版权或增加个性化元素。本文将为大家介绍如何在微信小程序中为图片添加时间水印&#xff0c;让你的小程序更具特色。 实现步骤&#xff1a; 1. 创建页面结构 在pages目录下创建一个名为upl…

使用思科搭建企业网规划训练,让网络全部互通,使用规则提高工作效率。

1. 企业背景&#xff1a; 某企业分为销售部、行政部、人力资源部、财务部、业务部、接待中心等主要六个部门&#xff1b;配置网管中心&#xff0c;允许网络管理员登录企业交换机和路由器对企业网络进行管理&#xff1b;配置服务器集群&#xff0c;设置FTP、DNS、WEB服务器&am…

一个基于 Tauri、Vite 5、Vue 3 和 TypeScript 构建的即时通讯系统,牛啊牛啊!(附源码)

这段时间正在学习桌面端开发&#xff0c;目前了解了Electron和Tauri,在搜索教程的时候发现了一位大佬用Tauri开发了个即时通讯的软件&#xff0c;并且技术栈用的也是VUE3和TypeScript&#xff0c;所以今天就给大家分享一下这个项目——HuLa HuLa HuLa 是一个基于 Tauri、Vite …

Skyeye 云智能制造 v3.14.6 发布,ERP 商城

Skyeye 云智能制造&#xff0c;采用 Springboot winUI 的低代码平台、移动端采用 UNI-APP。包含 30 多个应用模块、50 多种电子流程&#xff0c;CRM、PM、ERP、MES、ADM、EHR、笔记、知识库、项目、门店、商城、财务、多班次考勤、薪资、招聘、云售后、论坛、公告、问卷、报表…

【Elasticsearch系列廿一】ES7 SQL 新特性

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

嵌入式设备网口down后再up时不能link?

&#x1f3c6;本文收录于《CSDN问答解惑-专业版》专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收…

[ComfyUI]又降了,只需10G显存玩转CogVideoX5B图生视频,效果太惊艳!

在数字艺术和创意领域&#xff0c;[ComfyUI]一直致力于为用户提供最优质的技术和工具。今天&#xff0c;我们激动地宣布&#xff0c;[ComfyUI]再次取得重大突破——只需10G显存&#xff0c;用户就能轻松玩转CogVideoX5B图生视频&#xff0c;创造出令人惊艳的效果&#xff01; …

【人工智能】在大型活动中的应用案例

人工智能在娱乐大型活动中的应用 ## 作者主页: 知孤云出岫 目录 **人工智能在娱乐大型活动中的应用****1. 引言****2. 智能票务与入场管理****2.1 动态定价与票务预测****2.2 生物识别技术快速入场****2.3 区块链技术防伪票务管理** **3. 智能观众互动与个性化体验****3.1 个性…

Java语言程序设计基础篇_编程练习题**18.35(H 树分形)

目录 题目&#xff1a;**18.35(H 树分形) 代码示例 代码解释 输出结果 题目&#xff1a;**18.35(H 树分形) 一个H 树分形(本章开始部分介绍过&#xff0c;如图18-1)如下定义: 1)从字母H开始。H的三条线长度一样&#xff0c;如图 18-1a 所示。 2)字母H(以它的 sans-serif …

归并算法实现

1.归并算法图解 2.归并算法代码 package com.suanfa.sort;import java.util.Arrays;/*** 归并算法*/ public class MergeSort {/*** 拆的时间复杂度logn * 并的时间复杂度n nlogn** param arr* param left* param right*/public static void sortMerge(int[] arr, int left, …

第十一章 从0-1搭建一个简单的JavaWeb系统(三)

目录 一、工程代码结构 二、代码实现 三、运行效果 四、未完待续 本章节的每一段代码&#xff0c;建议全部自己敲一遍&#xff0c;加深印象&#xff0c;切勿直接复制黏贴。 一、工程代码结构 本章节实现注销&#xff08;退出&#xff09;功能&#xff0c;以下图片中标红的…

19个邮件群发小技巧,最大水平充分利用邮件营销

邮件群发在现代通信中占据着非常重要的位置。无论是在商业环境还是个人生活中&#xff0c;它都有着广泛的应用。无论您是公司的市场推广专家&#xff0c;还是社交团体的筹办者&#xff0c;掌握有效的邮件群发技巧会帮助您更好地传递信息、节约时间和提升工作效率。 确定目标受众…

【Ubuntu】Ubuntu安装编译C/C++环境简易版教程

环境 操作系统&#xff1a;ubuntu-22.04.4-desktop-amd64.iso 安装 第一步:更新软件包列表&#xff0c;检查可用的软件包更新 sudo apt update在这一步&#xff0c;我们可以确保系统中的软件包列表是最新的&#xff0c;以便后续的软件包管理操作。 第二步&#xff1a;安装…

craco-less使用问题

craco-less使用问题 问题背景 前端是用React搭建&#xff0c;使用craco配置&#xff0c;相关库或插件版本如下 "craco/craco": "^7.1.0","react-scripts": "^5.0.1","craco-less": "^3.0.1"在生产环境&#xff…

JAVA开源项目 甘肃非物质文化网站 计算机毕业设计

本文项目编号 T 043 &#xff0c;文末自助获取源码 \color{red}{T043&#xff0c;文末自助获取源码} T043&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…