TemporalBench：一个专注于细粒度时间理解的多模态视频理解的新基准。

TemporalBench：一个专注于细粒度时间理解的多模态视频理解的新基准。

news2025/4/2 18:18:44

2024-10-15，由威斯康星大学麦迪逊分校、微软研究院雷德蒙德等机构联合创建了TemporalBench，它通过大约10K个视频问答对，提供了一个独特的测试平台，用以评估各种时间理解和推理能力，如动作频率、运动幅度、事件顺序等。

一、研究背景：

在多模态视频理解和生成领域，细粒度的时间动态理解至关重要。然而，由于缺乏细粒度的时间标注，现有的视频基准测试大多类似于静态图像基准测试，无法有效评估模型对时间理解的能力。

目前遇到困难和挑战：

1、现有的视频理解基准测试偏向语言先验偏见，忽略了视频内容真正的时间动态。

2、当前的视频基准测试存在单一帧偏见，倾向于空间推理，未能测试模型对时间序列的理解。

3、现有的多模态视频模型（VLMs）在流行的视频问答基准测试中表现优于视频对应模型，但这种优势并不是建立在对视频时间事件真正理解的基础上。

数据集地址：TemporalBench|视频理解数据集|时间理解数据集

二、让我们一起看一下 TemporalBench

TemporalBench是一个基准测试（benchmark），它专门设计来评估多模态视频模型在理解视频中细粒度时间动态方面的能力。这个基准测试包含了大约10K个视频问题-答案对，这些问题-答案对是基于大约2K个高质量人类标注的视频剪辑衍生而来的。通过这些详细的时间动态描述，TemporalBench 提供了一个独特的测试平台，用于评估各种时间理解和推理能力，例如动作频率、运动幅度、事件顺序等。

TemporalBench支持多种视频理解任务，包括视频问答、视频字幕生成、长视频理解等。它提供了详细的视频描述，可以用于评估视频-语言嵌入模型和生成模型。

基准测试：

测试显示，即使是最先进的模型，如GPT-4o，在TemporalBench上的问答准确率仅为38.5%，而人类为67.9%，表明AI模型在时间理解上与人类存在显著差距。

TemporalBench 的任务。TemporalBench 从细粒度的视频描述开始，支持包括视频 QA、视频字幕、长视频理解等多样化的视频理解任务。它与现有基准的不同之处在于每个视频的平均字数（中上）、字密度（中）和各种时间方面的覆盖率（中下）。

在第 1 步中，我们使用合格的 AMT 注释者为视频收集高质量的字幕，然后对其进行优化。

在第 2 步中，我们利用现有的 LLMs 来生成负面字幕，方法是替换选定的单词并重新排序操作序列，然后再自行过滤它们。

从 TemporalBench 中的原始字幕和我们的详细字幕生成的负面字幕的比较。对于细粒度的细节，底片更加困难且以时间为中心。

TemporalBench 中（a）短视频剪辑和（b）长视频的视频长度分布。

多选 QA 的插图，其中包含（a）原始字幕和（b）启发式指导的否定字幕。橙色块表示从正选项（绿色框）更改的内容。

在不同帧的 TemporalBench 上建模性能。

三、让我们一起展望TemporalBench的应用：

比如，我是一名足球教练，正在分析上周的重要比赛，特别是那个决定比赛胜负的关键时刻——一个精彩的进球。我想知道这个进球是怎么发生的，球员们的动作是如何配合的，以及防守方是在哪里出现了失误。

这个进球发生在比赛的第75分钟。当时，我的球队在对方半场获得了一个角球机会。

动作分析：

角球开出：首先，我看到底角球是由7号球员开出的。他站在角旗区，抬头观察了一下禁区内的情况，然后起脚将球传向了禁区中央。
空中争顶：球飞向禁区中央时，我的球队的中锋9号球员和对方两名中卫同时起跳争顶。这个动作非常关键，因为9号球员的起跳时机和高度都把握得非常好，他成功地将球顶向了球门的方向。
射门：这时，我的球队的前锋11号球员出现在了正确的位置。他观察到9号球员的头球后，迅速调整自己的位置，用一脚凌空抽射将球打进了对方球门。

现在，我使用一个通过了TemporalBench基准测试的系统

就可以分析这个进球过程，它能够提供详细的时间线和动作描述。

这个系统能够识别和记录以下关键信息：

1、7号球员在第75分钟30秒时开出角球。

2、9号球员在第75分钟32秒时成功争顶，将球顶向了球门方向。

3、11号球员在第75分钟33秒时完成射门，球进了。

这些信息不仅能帮我理解进球的整个过程，还能分析出球员们的动作是如何精确配合的。比如，7号球员的传球时机，9号球员的头球力度和方向，以及11号球员的射门时机。

它不仅能帮我理解比赛的关键时刻，还能分析球员们的动作是如何精确配合的。这种细粒度的时间动态理解，对于教练来说，绝对是分析比赛、提高球队表现的有力工具。

来吧，让我们走进TemporalBench|视频理解数据集|时间理解数据集

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2217029.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

物联网的应用以及优势

物联网的应用以及优势

物联网智能项目涵盖了多个行业领域，随着技术的不断进步和普及，越来越多的应用案例成为主流趋势。此篇文章将概述一些主要的物联网智能项目类别及其优势和日常使用场景： 主流物联网智能项目 1. 智能家居: •优势: 提升居住体验，…

阅读更多...

倍福TwinCAT程序中遇到的bug

倍福TwinCAT程序中遇到的bug

文章目录问题描述：TwinCAT嵌入式控制器CX5140在上电启动后，X001网口接网线通讯灯不亮，软件扫描不到硬件网口解决方法：硬件断电重启后，X001网口恢复正常问题描述：TwinCAT软件点击激活配置后，…

阅读更多...

CUDA 全局内存

CUDA 全局内存

全局内存在片外。特点是：容量最大、延迟最大、使用最多全局内存中的数据是所有线程可见的，Host端可见，且具有与程序相同的生命周期动态全局内存主机代码使用CUDA运行时API ： cudaMalloc 声明内存空间； cudaFree…

阅读更多...

仓储管理系统原型图移动端（WMS），出入库管理、库存盘点、库存调拨等（Axure原型、Axure实战项目）

仓储管理系统原型图移动端（WMS），出入库管理、库存盘点、库存调拨等（Axure原型、Axure实战项目）

仓储管理系统原型图移动端 Warehouse Management System Prototype 仓储管理系统原型图移动端是一个以图形化方式展示系统移动端界面和功能的原型设计图。原型图展示和说明系统移动端的功能和界面布局，为相关利益方提供一个直观的视觉化展示，帮助他们更…

阅读更多...

《安全历史第5讲——秦始皇统一度量衡与代码标准化》

《安全历史第5讲——秦始皇统一度量衡与代码标准化》

秦始皇统一了六国后，中国由此进入了一个崭新的历史时期。而帝国初期的一项重要决策——统一度量衡，让中国领先了千年，至今都因此受益。度量衡的统一极大地促进了社会经济交流，提高了行政效率，并为科学技术的发展奠定了…

阅读更多...

【汇编语言】寄存器（内存访问）（五）—— 数据段

【汇编语言】寄存器（内存访问）（五）—— 数据段

文章目录前言1. 数据段2. 问题3. 问题的分析与解答结语前言 📌 汇编语言是很多相关课程（如数据结构、操作系统、微机原理）的重要基础。但仅仅从课程的角度出发就太片面了，其实学习汇编语言可以深入理解计算机底层工作原理&#…

阅读更多...

Maven与Gradle的区别

Maven与Gradle的区别

Maven与Gradle是两种流行的构建工具，广泛用于Java项目的管理和构建。以下是它们的对比，包括官网、Windows 11配置环境、在IDEA中的相同点和不同点，以及它们各自的优缺点。官网 Maven官网: https://maven.apache.orgGradle官网: https://gr…

阅读更多...

idea2024启动Java项目报Error running CloudPlApplication. Command line is too long.

idea2024启动Java项目报Error running CloudPlApplication. Command line is too long.

idea2024启动Java项目报Error running CloudPlApplication. Command line is too long. 解决方案： 1、打开Edit Configurations 2、点击Modify options设置，勾选Shorten command line 3、在Edit Configurations界面下方新增的Shorten command line选项中…

阅读更多...

NSIS通过路径杀死指定进程解决方法

NSIS通过路径杀死指定进程解决方法

当软件安装时，如果有特定的软件正在运行，则新软件无法对其进行覆盖。同样当软件卸载时，如果其正在运行，则有残留的文件删不干净。所以便出现了在安装卸载中杀死指定进程的需求。文章目录一、踩坑记录1. FindProcDLL和KillProcD…

阅读更多...

CSS3 提示框带边角popover

CSS3 提示框带边角popover

CSS3 提示框带边角popover。因为需要绝对定位子元素（这里就是伪元素），所以需要将其设置为相对对位 <!DOCTYPE html> <html> <head> <title>test1.html</title> <meta name"keywords" con…

阅读更多...

STM32的独立看门狗定时器（IWDG）技术介绍

STM32的独立看门狗定时器（IWDG）技术介绍

在嵌入式系统中，确保系统的稳定性和可靠性至关重要。看门狗定时器（Watchdog Timer, WDT） 是一种常用的硬件机制，用于监控系统的运行状态，防止系统因软件故障或意外情况进入不可预期的状态。STM32系列微控制器提供了两种…

阅读更多...

解读华为云Kuasar多沙箱容器技术，带来更强隔离性和安全性

解读华为云Kuasar多沙箱容器技术，带来更强隔离性和安全性

摘要：沙箱技术的引入，为容器提供了更强的隔离性和安全性，成为云原生技术的重要组成部分。本文来源《华为云DTSE》第五期开源专刊，作者：华为云云原生开源团队研发工程师。近年来，云原生容器技术飞速发展&…

阅读更多...

整理—计算机网络

整理—计算机网络

目录网络OSI模型和TCP/IP模型应用层有哪些协议 HTTP报文有哪些部分 HTTP常用的状态码 Http 502和 504 的区别 HTTP层请求的类型有哪些？ GET和POST的使用场景，有哪些区别？ HTTP的长连接 HTTP默认的端口是什么？ HTTP1.1怎…

阅读更多...

YOLO11改进 | 注意力机制 | 添加SE注意力机制

YOLO11改进 | 注意力机制 | 添加SE注意力机制

秋招面试专栏推荐 ：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡 本文介绍了YOLOv11添加SE注意力机制&…

阅读更多...

双通道音频功率放大电路D2822M兼容TDA2822，全封装输出功率0.11W，用于音频产品

双通道音频功率放大电路D2822M兼容TDA2822，全封装输出功率0.11W，用于音频产品

在某客户的便携式音频产品中，客户想在确保其产品的性能的前提下，为产品方案寻找一颗国产备份料。客户产品之前使用的是TDA2822，在了解客户的电路设计以及该产品的电气特性后，给客户寻找了一款可兼容相同电路设计使用的国产厂牌芯谷…

阅读更多...

Nginx12-集群高可用

Nginx12-集群高可用

零、文章目录 Nginx12-集群高可用 1、Nginx实现服务器集群 （1）单机模式在使用Nginx和Tomcat部署项目的时候，我们使用的是一台Nginx服务器和一台Tomcat服务器，架构图如下 （2）集群模式如果Tomcat宕机了…

阅读更多...

大语言模型实战教程首发:基于深度学习的大规模自然语言处理模型LLM详解 -Shelly

大语言模型实战教程首发:基于深度学习的大规模自然语言处理模型LLM详解 -Shelly

我是Shelly，一个专注于输出AI工具和科技前沿内容的AI应用教练，体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具，拥抱AI时代的到来。大模型的热度，实在是很高，诺奖也颁给了…

阅读更多...

C语言函数递归经典例题:汉诺塔和小青蛙跳台阶

C语言函数递归经典例题:汉诺塔和小青蛙跳台阶

目录汉诺塔问题描述思路代码实现思考:怎么判断一共要移动几次?(时间复杂度?) 小青蛙跳台阶BC117 小乐乐走台阶问题描述递归动态规划迭代汉诺塔问题描述将塔A的柱子移动到塔C 要求: 大的柱子只能在小的柱子下面一次只能移动一个柱子思路想把A上的n个柱子移动到C 核…

阅读更多...

Python学习100天第11天之文件和异常

Python学习100天第11天之文件和异常

1 前言实际开发中常常会遇到对数据进行持久化操作的场景，而实现数据持久化最直接简单的方式就是将数据保存到文件中。说到“文件”这个词，可能需要先科普一下关于文件系统的知识，但是这里我们并不浪费笔墨介绍这个概念，请大家自…

阅读更多...

请求第三方接口有反斜杠和双引号怎么处理，且做格式校验？

请求第三方接口有反斜杠和双引号怎么处理，且做格式校验？

如：接口文档要求直接使用转义失败，在postman中填值请求正常。 String para "[" "\\" "\"" "预计今天白天我市多云间晴；" "\\" "\"]"; System.err.println(pa…

阅读更多...

推荐文章

最新文章