Video Grounding

news2025/2/26 18:10:55

一些工作能够检测包含特定动作的视频片段,一般称 为动作检测(action detection)或视频中的时序动作定位(Temporal Action Grounding in VideosTAGV)

然而, TAGV 受限于预先定义的动作类别集合,不能 完全覆盖所有的活动。因此,引入自然语言描述复杂多样的活动更为合理,视频中的时序定位(Temporal Sentence Grounding in Videos, TSGV)就是这样一项 任务 :使一个句子查询与视频中具有相同语义的一个片段(也被称作时刻)相匹配。 TSGV 的目标是预测目标片段在 原视频中的起点和终点。

 

TSGV 可以 作为各种下游视觉 - 语言任务的中间任务,例如视 频问答和视频内容检索。
由于以下原因, TSGV 更具挑战性 :
视频和句子查询都是具有丰富的语义和时序 性的。因此,视频和句子之间的匹配关系相当复杂,
需要以更精细的方式建模,以实现准确的时间定位。
与查询相对应的目标片段在空间和时间尺度上 是相当灵活的。如果通过滑动窗口获取候选视频片
段,计算成本会很高。因此,如何有效地全面覆盖目标片段,也是 TSGV 面临的挑战。
视频中的活动通常不是独立出现的,它们往往有内部的语义关联和时间上的相互依赖。因此,对
视频上下文信息在句子语义引导下的内在逻辑关系进行建模也十分重要。
根据是否生成候选片段和监督方 式的不同,可以将 TSGV 模型分为四大类。

 

早期的 工作采用了两阶段的架构,即首先扫描整个视频, 并通过滑动窗口或提案生成网络(proposal generationnetwork)预先生成候选片段,然后根据跨模态匹配模块对候选片段进行排名。然而,候选片段的重叠导致了太多的冗余计算,而且单独的成对的片段查询匹配也可能忽略了上下文的视频信息。
一些研究人员开始尝试以端 到端方式解决 TSGV 问题。这种端到端模型没有预 先切割出候选片段作为模型的输入。有的方法采用 长短期记忆( LSTM )或卷积神经网络( CNN )依次 维护在每一时间步结束的多尺度候选片段,它们被 称为基于锚点( anchor-based )的方法。其他一些端 到端方法预测每个视频单元(即帧级或片段级)是 目标片段起点和终点的概率,或者根据整个视频和
句子查询的多模态特征直接回归目标起点和终点坐标。这些方法不依赖任何生成候选片段的过程,被称为无锚点(anchor-free )的方法。
值得注意的是,有些工作借助深度强化学习技术解决 TSGV 问题,将这个任务视为一个顺序决策
过程,这也是无锚点的。除了上述三类全监督方法,为了减少标注真实标签的时刻边界所需的大量人力,也有人提出了只用视频级标注的弱监督方法。
两阶段方法
基于滑动窗口的方法
MCN [23] CTRL [16] 是开创性的工作,它们定义 了TSGV 任务并构建了基准数据集。 Hendricks 等人 [23] 提出 MCN ,它通过滑动窗口机制采样得到候选片段, 然后将视频片段表示和查询表示嵌入到同一个向量 空间。在这个空间中,句子查询和相应的目标视频 片段之间的 L2 距离被最小化,以监督模型的训练(参 见图 3 (a))。
Gao 等 人 [16] 提出了 CTRL ,这是第一个将 R-CNN[20] 从物体检测适应到 TSGV 的方法。 CTRL
利用滑动窗口获得不同长度的候选片段。如图 3 (b)
所示,它利用多模态处理模块将候选片段的表征与 句子表征相融合,然后将融合后的表征送入另一个 全连接层,以预测候选片段的对齐分数以及候选段 和目标段之间的位置偏移。
考虑到基于滑动窗口方法的缺点,一些研究致 力于减少候选片段的数量,被称为提案生成法。这
种方法仍然采用两阶段方案,但通过不同种类的提 案网络来避免密集的滑动窗口采样。
尽管两阶段方法取得了一定的成功,但也有一些 缺点。为了达到较高的定位精度(即候选片段中至少 应该有一个接近真实标注),候选片段的长度和位置 分布应该是多样化的,从而不可避免地增加了候选片 段的数量,导致后续匹配过程的计算效率低下。

 

端到端方法
基于锚点的模型
TGN [5] 是一个典型的端到端深度神经网络结构, 它可以单程内定位目标时刻,而不用处理大量重叠 的预分割候选片段。TGN 通过细粒度逐词帧交互动 态匹配句子和视频单元。在每个时间步,定位器会 同时对结束于该时间步的一组不同时长的候选片段 进行评分。
Yuan 等人 [73] 提出了 SCDM,利用分层的时间卷 积网络进行目标片段定位,如图 4 所示,这个多
模态融合模块以细粒度的方式融合整个句子和每 个视频片段。将融合的表示作为输入,语义调制
的时间卷积模块在时间卷积过程中进一步关联与 句子相关的视频内容,动态调制与句子相关的时
间特征图。

 

尽管基于锚点的方法取得了卓越的性能,但其 性能对人工设计的启发式规则(即锚点的数量和尺
度)很敏感。因此,这种基于锚点的方法不适用于 视频长度可变的情况。同时,虽然不需要像两阶段 方法那样进行预分割,但它的结果仍取决于被提案 出的候选片段的排名,这也会影响其效率。
无锚点的模型
无锚点的方法没有对大量的候选方案进行排 名,而是着眼于更精细的视频单元,如帧或片段,
旨在预测每一帧 / 片段是目标片段的起点和终点的 概率,或者直接从全局角度回归起点和终点。
Yuan 等人提出了 ABLR [75] 。为了保留上下文信 息,ABLR 首先通过双向 LSTM 网络对视频和句子 进行编码。然后,引入多模态协同注意力机制,既 生成能反映全局视频结构的视频注意力,还生成能 突出时间定位关键细节的句子注意力。最后,设计 了一个基于注意力的坐标预测模块,对时刻坐标进 行回归。
与基于锚点的方法相比,无锚点的方法具有更 高的计算效率和对可变时长视频的鲁棒性。虽然无
锚点的方法具有这些显著的优势,但它很难捕捉到 多模态交互的片段级特征。
基于强化学习的方法
作为另一种无锚点方法,基于强化学习的框架将 这样的任务视为一个连续的决策过程。每一步的行动 空间是一组人为设计的基本操作(如移位、缩放)
He 等人 [22] 首先引入深度强化学习技术解决 TSGV 任务,将 TSGV 形式化为一个顺序决策问
题,在每个时间步骤中,观察网络输出环境的当 前状态,供演员 - 评论员( actor-critic )模块生
成行动策略,在此基础上,智能体执行行动来调 整时间边界。
弱监督方法
之后, TSGV 被扩展到训练阶段无法获得基准 事实片段位置的弱监督场景下,即弱监督 TSGV 。弱 监督方法大致可分为基于多实例学习(Multi-Instance Learning, MIL )和基于重建两类。
一些工作 [12, 17, 43, 55] 采用多实例学习,整个视频 被视为具有袋级标注的实例袋,对实例(视频段提案) 的预测被聚合为袋级预测.
TGA [43] 是一种典型的基于 MIL 的方法,它通 过将视频和其对应描述的匹配分数最大化,同时将
视频和其他描述的匹配分数最小化来学习视频层面 的视觉 - 文本对齐。它提出了文本引导的注意力 (Text-Guided Attention TGA )来获得特定文本的 全局视频表征、学习视频和视频级描述的联合表征。
评估
指标
TSGV 有两类指标,即 mIoU (即平均 IoU )和 R@n , IoU m IoU 在物体检测中被广泛用于评估两 个边界框之间的相似性,TSGV 也类似,采用时序 IoU 衡量片段相似性。指标 mIoU 通过平均所有样本 的时序 IoU 来评估结果。另一个常用的指标是 R@ n , IoU= m [25] 。对于样本 i ,如果当前 n 个被检索的片段 中存在一个与基准片段的时间 IoU 超过 m 的片段时, 则视为检索成功。R@ n , IoU m 是检索成功的样本占 所有样本的百分比。研究者习惯设置 n {1, 5, 10} m {0.3, 0.5, 0.7} 。通常,当方法采用无提案方式(即 属于无锚点或基于强化学习的框架)时,n =1
时空定位 视频中的时空语句定位是 TSGV 的另一个扩展,它主要从视频中通过自然语言描述将
指定对象或实例定位为连续的时空管道(即边界框 序列)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/520691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于html+css的图展示57

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

母亲节:向世界上最伟大的母爱致敬

在这世间众多的亲情关系中,有一种关系无与伦比,毫不费力地凌驾于其他任何已知的地球关系之上。这种非凡的关系就是母亲与子女之间的关系。 母亲对家庭无尽的爱、奉献和忠诚使这份感情无价。为了向全球所有母亲表示敬意,母亲节在世界46个国家庆…

如何用ChatGPT拆解爆款内容(文章/脚本)、提出修改意见,再根据修改意见,最终成稿?

该场景对应的关键词库(11个): 示例内容、爆款库、内容类型、拆解角度、亮点、不足、修改建议、文案、风格、文章、脚本 提问模板(4个): 第一步:建立自己的爆款库,并选择其中1个爆款…

路径规划算法:基于鲸鱼优化的路径规划算法- 附代码

路径规划算法:基于鲸鱼优化的路径规划算法- 附代码 文章目录 路径规划算法:基于鲸鱼优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法鲸鱼…

SpringBoot通过自定义注解整合Redisson实现分布式锁(单机+集群模式)

😊 作者: 一恍过去 💖 主页: https://blog.csdn.net/zhuocailing3390 🎊 社区: Java技术栈交流 🎉 主题: SpringBoot通过自定义注解整合Redisson实现分布式锁 ⏱️ 创作时间&am…

低代码信创开发核心技术(一):基于Vue.js的描述依赖渲染DDR实现模型驱动的组件

前言 随着数字化转型的不断发展,低代码开发平台已成为企业快速建立自己的应用程序的首选方案。然而,实现这样一个平台需要具备高效、灵活和可定制化的能力。这正是基于描述依赖渲染(Description dependency rendering)所实现的。…

Jenkins 发布到 windows 主机

由于一些原因, 最近程序部署在windows 服务器上比较多, 本文以将前端程序发布到windows server 2016 为例进行介绍 流程 需考虑网络联通性, 此处我的目标服务器没有公网固定IP, 故采用vpn 工具组网 步骤: 一、使用执行SSH脚本的方式 1. 在jenkins 服务器及目标机器上安装 VP…

Windows终端中文乱码,查看系统默认编码及修改系统默认编码

最近windows升级之后出现一个问题,终端出现了乱码,导致启动程序启动不起来。 window系统如何查看系统默认编码 方式一: 在Windows平台下,winr 打开运行—》输入cmd进入cmd窗口,输入:chcp 可以得到操作系统…

会声会影2023是什么软件,会声会影和pr到底哪个好

图1是pr(premiere)平时大家可能会经常听到有人说会声会影2023,但是很多人都不知道这是什么软件。其实听它的名字就知道这是一款和声音、影像有关系的软件。下面,小编就来给大家具体介绍一下这款软件吧。 会声会影2023是什么软件&…

微信客服对接-唯一客服系统文档中心

微信客服官方网址为:https://kf.weixin.qq.com ,可以在微信内、外各个场景中接入微信客服,提供一致的咨询体验,企业可通过API接口回复消息,做好客户服务。 微信客服或者也可以叫企业微信客服,可通过API接口…

CSS平面转换和渐变

01-平面转换 简介 作用:为元素添加动态效果,一般与过渡配合使用 概念:改变盒子在平面内的形态(位移、旋转、缩放、倾斜) 平面转换也叫 2D 转换,属性是 transform 平移 transform: translate(X轴移动距…

IM即时通讯系统[SpringBoot+Netty]——梳理(三)

文章目录 七、打通业务服务器与IM服务器多端同步1、负载均衡策略—随机模式2、负载均衡策略—轮询模式3、负载均衡策略—一致性Hash4、配置负载均衡策略5、使用Apache—HttpClient封装http请求工具6、用户资料变更、群组模块回调7、数据多端同步8、封装查询用户Session工具类9、…

两分钟速览谷歌2023IO大会:AI军备竞争,全线出击

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 5月10日周三,谷歌举办了年度开发者大会Google I/O 2023,在会上…

【ARMv8 编程】A64 内存访问其他指令

A64 内存访问其他指令包括浮点和 NEON 标量加载存储指令、访问多个内存位置指令、非特权访问指令、预取内存指令、非临时加载存储对指令、内存屏障和栅栏指令、同步原语等。 一、浮点和 NEON 标量加载存储指令 加载和存储指令也可以访问浮点/NEON 寄存器。这里,大…

k8基础知识

总述 在构成扁平化网络的基础上实现Pod编排(控制、管理)、调度,再构成服务;对服务的管理有所欠缺;可以说k8s重点解决资源的问题 服务管理、应用管理;istio重点解决服务的问题 功能 开源、动态伸缩、负载…

爱奇艺2020校招Java方向笔试题(第一场)

1.计算下列程序的时间复杂度&#xff08;&#xff09; for (i1;i<n;i)for(j1;j<m;j){a1,a2,a3,a4};A.O(n) B.O(mn) C.O(m) D.O(1) 答案:B 2.求递归方程T(n)4T(n/2)n 的解 ( ) A.O(n) B.O(n^2) C.O(n^3) D.O(logn) 答案:B 用Mater公式计算 3.下列关于动态规划算法说法错…

RCWA包:光学模拟的强大工具——用于计算光子 晶体R/T 光谱 的严格耦合波分析

目录 RCWA包&#xff1a;光学模拟的强大工具 RCWA包的功能 如何开始使用RCWA包 RCWA包的特性 RCWA包的应用示例 示例代码 基本的光学概念介绍。 1. 反射率、透射率和散射率 2. 衍射和衍射光栅 3. 光子晶体 4. 布拉格镜 5. 垂直腔面发射激光器&#xff08;VCSEL&…

芒果改进YOLOv8系列:改进特征融合网络 BiFPN 结构,融合更多有效特征

芒果改进YOLOv8系列:改进特征融合网络 BiFPN 结构,融合更多有效特征 在这篇文章中,将 BiFPN 思想加入到 YOLOv8 结构中 该版本为高效简洁版,涨点多、还速度快(实际效果反馈) 本篇博客 不占用 高阶专栏的总篇数计划中 文章目录 一、BiFPN 论文理论二、效果反馈(涨点)…

华为OD机试真题 Java 实现【任务总执行时长】【2023Q1 100分】

一、题目描述 任务编排服务负责对任务进行组合调度。 参与编排的任务有两种类型&#xff0c;其中一种执行时长为taskA&#xff0c;另一种执行时长为taskB。 任务一旦开始执行不能被打断&#xff0c;且任务可连续执行。服务每次可以编排num个任务。请编写一个方法&#xff0c…

Git常用操作:基础命令、生成公钥、webhook同步

这里写目录标题 下载安装GIT基础命令克隆初始化与仓库建立连接下拉代码提交代码清空本地缓存 本地生成GIT公钥webhook&#xff08;本地-码云-服务器代码同步&#xff09; 下载安装GIT 此处只介绍windows系统下的安装&#xff0c;linux一般都是自带git&#xff08;自行百度&…