【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga

news2025/1/12 0:53:34

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Number it: Temporal Grounding Videos like Flipping Manga
作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
arXiv: https://arxiv.org/abs/2411.10332

基本信息

摘要

视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。

然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难,这些任务被称为视频时间定位(VTG)。

为了解决这一差距,我们引入了数字提示(NumPro),这是一种新颖的方法,它通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。

将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画分镜。

这使得Vid-LLMs能够“阅读”事件时间线,准确地将视觉内容与相应的时序信息联系起来。

我们的实验表明,NumPro显著提高了顶级Vid-LLMs的VTG性能,而无需额外的计算成本。

此外,在NumPro增强的数据集上进行微调为VTG定义了新的最先进水平,在关键帧检索的mIoU上超越了之前的最优方法高达6.9%,在突出检测的mAP上提高了8.5%。代码将在https://github.com/yongliang-wu/NumPro上提供。

Effectiveness of Adding Frame Numbers for Temporal Grounding

主要贡献

  • 我们引入了NumPro,这是一种新颖的方法,通过在视频帧上叠加帧号,增强了视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力,使时间定位变得与翻阅漫画时跟随编号面板一样直观。
  • 通过实验研究,我们发现了一种合适的NumPro设计(字体大小、颜色和位置),确保模型的高可检测性,同时最小程度地干扰原始视频内容。
  • 我们在无训练和微调场景下,对标准VTG基准和指标进行了彻底的NumPro评估,证明了其在各种模型和数据集上的有效性。

Number-Prompt 方法

我们的数字提示(NumPro)方法提供了一种简单而有效的解决方案,以增强现有视频大型语言模型(Vid-LLMs)的视频时间基础(VTG)能力,无论是在无训练还是微调设置下。

Attention Analysis

当前视频语言模型将视频处理为一系列帧。视频的视觉表示可以视为每个单独帧的拼接表示,将离散帧的信息汇总为全面的视频级别。这允许视频语言模型通过将帧图像的视觉表示与语言查询的文本表示对齐来理解视频。

为了探索视频时间定位(VTG)的挑战,我们分析了帧图像token表示和查询语言token之间的注意力图,然后评估了相关视频帧的时间描述。以Qwen2-VL-7B为案例研究,我们突出了VTG对视频语言模型(Vid-LLMs)的挑战:虽然Vid-LLMs可以理解视频中正在发生的事件,但它们难以将这种理解转化为描述事件开始和结束时间的文本描述。

具体来说,我们以视频和语言查询作为输入,从Qwen2-VL-7B的最终多头自注意力层中提取注意力分数。对于视频序列中的每一帧,我们聚合所有对应该帧的视觉token在所有注意力头中的注意力分数。

Attention Analysis between Video Frames and Event Query

如图2所示,注意力图揭示了事件文本查询与目标视频片段之间的强相关性。这表明Qwen2-VL-7B能够有效地聚焦于与查询相关的帧,这与模型在其他内容相关的视频理解任务中的出色表现一致。然而,模型在表述正确的时间边界方面存在困难,并产生了诸如“从200到599”这样的令人惊讶的幻觉。这一观察强调了需要机制来弥合空间特征对齐与Vid-LLMs的时间推理之间的差距,这是我们NumPro方法旨在解决的问题。

NumPro and NumPro-FT

我们的方法,编号提示(NumPro),使VidLLMs能够直接将特定视觉内容与其时间信息关联起来,将时间定位转化为视觉对齐任务。如图3所示,NumPro在无训练和微调场景下均能运行。

Framework of Our Approach in Two Settings

在无训练设置中,每个视频帧都标有相应的帧号。通过利用VidLLMs内置的光学字符识别(OCR)功能,我们使它们能够通过与视觉内容相关的帧号“读取”时间线。为了阐明添加的数字对Vid-LLMs的目的,我们在每个事件查询前添加一条简单的指令:“每个帧上的红色数字代表帧号。”这种方法允许Vid-LLMs通过直接将帧号与语言查询相联系,准确识别帧级边界。

为了提高性能,NumPro-FT在NumPro增强的数据集上微调VidLLMs。这一阶段将训练数据中的帧数与时间跨度对齐,将时间定位能力嵌入到模型的学得表示中。在微调过程中,我们冻结视觉编码器,仅微调视觉投影器和LLM组件。为了减少参数数量和训练开销,我们应用低秩自适应(LoRA)来调整LLM。我们的训练目标是最大化通过自回归语言模型生成正确答案token A \mathbf{A} A 的可能性:

P ( A ∣ V , T instruct ) = ∏ j = 1 L P θ ( A j ∣ V , X instruct , A < j ) P(\mathbf{A} \mid V, T_{\text{instruct}}) = \prod_{j=1}^{L} P_\theta(A_j \mid V, X_{\text{instruct}}, \mathbf{A}_{<j}) P(AV,Tinstruct)=j=1LPθ(AjV,Xinstruct,A<j)

其中, V V V 代表输入视频, θ \theta θ 表示可训练参数, T instruct T_{\text{instruct}} Tinstruct 表示文本指令, L L L 表示答案序列 A \mathbf{A} A 的长度, A < j \mathbf{A}_{<j} A<j 包含所有在当前token A j \mathbf{A}_{j} Aj 之前的答案token。

Design of Numerical Prompt

一个有效的NumPro设计必须确保:

  1. 数字易于模型识别;
  2. 对视觉内容的干扰最小。

先前的研究表明,视觉提示的出现和位置可以影响模型的注意力。

鉴于所有Vid-LLMs都在336 × 336的固定分辨率下运行,我们通过评估三个因素来优化NumPro:字体大小、颜色和帧编号的放置位置。

为了确定有效的NumPro设计,我们使用两个主要指标:数字准确性,评估模型识别叠加数字的能力;字幕准确性,衡量添加数字后原始字幕与帧内容的一致性。平衡这两个指标,我们可以选择数字清晰可辨且不会干扰主要视频内容的NumPro配置。

为了使设计选择在各种模型和数据集上具有鲁棒性,我们在MSCOCO数据集的子集上进行了基于CLIP的实验,分别计算了数字准确率和字幕准确率。

我们使用CLIP ViT-B/32模型生成视觉和文本表示,因为许多Vid-LLMs都使用CLIP风格的视觉编码器,这使得我们的发现能够很好地推广到Vid-LLMs。

COCO图像-字幕对作为视频帧的代理,避免了直接VTG测试的高成本和有限的可扩展性。

具体来说,我们从MSCOCO中随机选择了1,000个不同的图像-字幕对,并在各种配置下将“0”到“99”的数字叠加到图像上。

Illustration of Our NumPro Design Algorithm

如图4所示,我们首先从CLIP视觉和文本编码器中获取表示,并计算它们之间的中间相似度分数(即数字和标题相似度)。使用添加的数字和原始标题作为真实情况,我们选择具有最高相似度分数的文本数字和标题作为预测,以计算数字和标题准确率。平衡这些准确率的配置对NumPro设计最优。

The Impact of Different Number-Prompt Designs

如图5所示,我们的研究结果指出,增大字体大小可以提高数字准确性,但会降低标题准确性,这表明中等字体大小(40或60)是最优的。在颜色选择方面,标题准确性在不同颜色下相对稳定。红色在数字准确性方面表现出最佳性能,而黑色效果最差。这一发现也与先前的研究一致。

此外,将文本置于图像中心会因与关键视觉元素重叠而显著降低标题准确性,而将数字置于右下角则能在标题和数字准确性之间提供最佳平衡。最后,我们为最终的NumPro设计选择了40号的字体大小、红色和右下角的位置。这一设计搜索使NumPro能够更好地利用Vid-LLMs固有的OCR和视觉语言对齐能力,以增强视频时间定位。

在实践中,基于CLIP的设计提供的是近似而非确定的指导,对Vid-LLMs进行VTG数据集的进一步测试可能产生额外的模型特定见解。

实验

Comparison of performance on the video temporal grounding task with previous state-of-the-art methods

Performance of Applying NumPro to Various Vid-LLMs and Ablation Results on NumPro-FT

Ablation study on various NumPro designs

Qualitative Comparison with State-of-the-Art

Performance Comparison of Sampling Strategies for NumPro

The influence of applying NumPro to general videoQA

总结

本文提出了一种名为Number-Prompt(NumPro)的简单而高效的视觉提示,旨在无需努力地增强视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力。

通过在视频内容上叠加帧数,NumPro利用Vid-LLMs固有的光学字符识别(OCR)和视觉-语言对齐能力,使它们能够准确地将事件映射到特定的时序边界。

通过基于COCO启发式算法的系统设计,并在VTG基准测试中得到验证,我们证明了NumPro在支持细粒度时序理解的同时,还能保持一般视频理解。

通过广泛的评估,我们证明了NumPro在无训练和微调设置下均能持续达到最先进的性能,使其能够适应性地集成到闭源和开源的Vid-LLMs中。

NumProFT进一步提升了时间定位性能,在VTG任务中建立了新的SOTA。

此外,对一般视频-QA的微小影响表明,NumPro可以在保持稳健视频理解的同时增强VTG。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2250004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件/游戏提示:mfc42u.dll没有被指定在windows上运行如何解决?多种有效解决方法汇总分享

遇到“mfc42u.dll 没有被指定在 Windows 上运行”的错误提示&#xff0c;通常是因为系统缺少必要的运行库文件或文件损坏。以下是多种有效的解决方法&#xff0c;可以帮助你解决这个问题&#xff1a; 原因分析 出现这个错误的原因是Windows无法找到或加载MFC42u.dll文件。这可…

网络地址转换

NAT概述 解决公有地址不足&#xff0c;并且分配不均匀的问题 公有地址&#xff1a;由专门的机构管理、分配&#xff0c;可以在因特网上直接通信 私有地址&#xff1a;组织和个人可以任意使用&#xff0c;只能在内网使用的IP地址 A、B、C类地址中各预留了一些私有IP地址 A&…

机器学习-神经网络(BP神经网络前向和反向传播推导)

1.1 神经元模型 神经网络(neural networks)方面的研究很早就已出现,今天“神经网络”已是一个相当大的、多学科交叉的学科领域.各相关学科对神经网络的定义多种多样,本书采用目前使用得最广泛的一种,即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够…

uniapp组建scroll-view初始化页面设置scrollTop无效解决办法

官方文档&#xff1a;scroll-view | uni-app官网 一 . scroll-view的基本用法 使用竖向滚动时&#xff0c;需要给 <scroll-view> 一个固定高度&#xff0c;通过 css 设置 height&#xff1b; <scroll-view :scroll-top"scrollTop" scroll-y"true&quo…

Web day02 Js Vue Ajax

目录 1.javascript: 1.js的引入方式&#xff1a; 2.js变量 & 数据类型 & 输出语句&#xff1a; 模板字符串&#xff1a; 3.函数 & 自定义对象&#xff1a; 4. json 字符串 & DOM操作&#xff1a; 5. js事件监听&#xff1a; 6.js的模块化导入或者导出&a…

【面向对象的程序设计——集合框架】主要接口

文章目录 主要接口集合框架的主要接口Collect接口Set接口实现Set接口的类SortedSet接口 List接口&#xff1a;线性表实现List接口的类&#xff1a; Queue接口实现Queue接口的类 Map接口Map接口的定义Map接口的方法SortedMap接口 主要接口 集合框架的主要接口 声明了对各种集合…

工业物联网网关在设备接入物联网中的核心作用

一、工业物联网网关的定义与功能 工业物联网网关是工业领域中的一种重要设备&#xff0c;它位于工业物联网系统的边缘位置&#xff0c;负责连接、管理和协调工业设备与云平台之间的通信。作为边缘计算的关键组件&#xff0c;工业物联网网关能够实现工业设备、传感器、PLC、DCS…

2024年第十三届”认证杯“数学中国数学建模国际赛(小美赛)

↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓

selinux和防火墙实验

1 、 selinux 的说明 SELinux 是 Security-Enhanced Linux 的缩写&#xff0c;意思是安全强化的 linux 。 SELinux 主要由美国国家安全局&#xff08; NSA &#xff09;开发&#xff0c;当初开发的目的是为了避免资源的误用。 系统资源都是通过程序进行访问的&#xff0c;如…

flink学习(12)——checkPoint

如何设置checkPoint package com.bigdata.day06;/** * 1、需要三句话 * 2、设置完checkPoint后若程序出现异常&#xff0c;会一直重启 * 3、此时是自动进行checkPoint保存 * 4、注意&#xff1a;此时如果有checkpoint ,是不会出现异常的&#xff0c;需要将checkpoint的代码关…

前端面试题-1(详解事件循环)

1.了解浏览器的进程模型 1.什么是进程&#xff1f; 程序运行需要有它自己专属的内存空间&#xff0c;可以把这块内存空间简单的理解为进程 每个应用至少有一个进程&#xff0c;进程之间相互独立&#xff0c;即使要通信&#xff0c;也需要双方同意。 2.什么是线程&#xff1f…

http的文件上传和下载原理

目录 一&#xff1a;上传 1&#xff1a;http请求格式 2&#xff1a;文件上传类型分析 1&#xff1a;md5秒传 2&#xff1a;分片上传 1. 什么是分片上传 2. 分片上传的场景 3&#xff1a;断点续传 1. 什么是断点续传 2. 应用场景 3. 实现断点续传的核心逻辑 4. 实现流…

【计算机视觉】图像基本操作

1. 数字图像表示 一幅尺寸为MN的图像可以用矩阵表示&#xff0c;每个矩阵元素代表一个像素&#xff0c;元素的值代表这个位置图像的亮度&#xff1b;其中&#xff0c;彩色图像使用3维矩阵MN3表示&#xff1b;对于图像显示来说&#xff0c;一般使用无符号8位整数来表示图像亮度&…

VSCode 下载 安装

VSCode【下载】【安装】【汉化】【配置C环境&#xff08;超快&#xff09;】&#xff08;Windows环境&#xff09;-CSDN博客 Download Visual Studio Code - Mac, Linux, Windowshttps://code.visualstudio.com/Downloadhttps://code.visualstudio.com/Download 注意&#xff0…

【Python入门】Python数据类型

文章一览 前言一、变量1.1.如何使用变量1.2.如何定义变量的名字&#xff08;标识符&#xff09; 二、数据类型2.1 整型数据2.2 浮点型数据2.3 布尔型&#xff08;bool&#xff09;数据2.4 复数型数据2.5 字符串类型1 > 字符串相加&#xff08;合并&#xff09;&#xff08;&…

算法基础 - 高斯牛顿法(曲线拟合)

文章目录 1. 高斯牛顿法发展历程2、问题的引出3、高斯牛顿法的前世3.1、一阶&#xff0c;二阶梯度法共有原理3.2、最速下降法&#xff08;一阶梯度法&#xff09;3.3、牛顿法&#xff08;二阶梯度法&#xff09; 4、高斯牛顿法4.1 高斯牛顿法的思想4.2 最小二乘问题4.3 高斯牛顿…

Vue+Element Plus实现自定义表单弹窗

目录 一、基本框架 1.父组件index.vue 2.子组件FormPop.vue 二、细节补充 1&#xff09;input、textarea、select、input number 2&#xff09;daterange、date、monthrange 3&#xff09;数据定义 4&#xff09;没改样式的效果 5&#xff09;最终效果 三、最终代码 …

VMware Workstation Pro下载安装及简单设置

VMware Workstation Pro下载 方法一&#xff1a;官网下载 https://support.broadcom.com/group/ecx/productdownloads?subfamilyVMwareWorkstationPro账号请自行注册&#xff0c;选择最新版本17.6.1 下载后用md5sum_x64.exe验证下载的文件完整性 方法二 百度网盘 通过网…

ospf协议(动态路由协议)

ospf基本概念 定义 OSPF 是典型的链路状态路由协议&#xff0c;是目前业内使用非常广泛的 IGP 协议之一。 目前针对 IPv4 协议使用的是 OSPF Version 2 &#xff08; RFC2328 &#xff09;&#xff1b;针对 IPv6 协议使用 OSPF Version 3 &#xff08; RFC2740 &#xff09;。…

数据结构之循环链表和栈

一、循环链表 1、概念 循环链表&#xff1a;就是首尾相连的链表&#xff0c;通过任意一个节点&#xff0c;都能将整个链表遍历一遍 分类&#xff1a;单向循环链表、双向循环链表 2、单向循环链表的类格式 单向循环链表也就是单向链表的最后一个节点的next域不再为None,而是…