智源联合多所高校推出首个多任务长视频评测基准MLVU

news2024/11/24 12:31:34

当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。MLVU拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对20个最新的流行多模态大模型(MLLM)评测发现,排名第一的GPT-4o的单选正确率不足65%,揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素,期待MLVU能够推动社区对长视频理解研究的发展。

论文标题:MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

论文链接:https://arxiv.org/abs/2406.04264

项目链接:https://github.com/FlagOpen/FlagEmbedding/tree/master/MLVU

背景介绍

使用MLLM进行长视频理解具有极大的研究和应用前景。然而,当前研究社区仍然缺乏全面和有效的长视频评测基准,它们主要存在以下问题:

1、视频时长不足:当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计,大部分视频的长度都在1分钟以内。

2、视频种类和任务类型不足:现有评测基准往往专注在特定领域的视频(例如电影[4, 5],第一视角[6])和特定的视频评测任务(例如Captioning[2],Temporal Perception[7],Action Understanding[8])

3、缺乏合理的长视频理解任务设计:现有部分长视频理解评测任务往往只和局部帧有关[4];或者使用针对经典电影进行问答[9],MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。

MLVU的构建过程

针对以上不足,我们提出了MLVU:首个全面的多任务长视频理解Benchmark。MLVU具有以下特点:

1、充足且灵活的视频时长

MLVU的视频时长覆盖了3分钟到超过2小时,平均视频时长12分钟,极大扩展了当前流行的Video Benchmark的时长范围。另外,MLVU的大部分任务标注过程中进行了片段-问题对应标注(例如,Video Summarization任务分段标注了视频的前3分钟,前6分钟...)。MLLMs可以灵活地在MLVU上选择测试不同时长情况下的长视频理解能力。

2、覆盖真实和虚拟环境的多种视频来源

MLVU收集了包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等多个类型的长视频。覆盖了长视频理解的多个领域范围。

3、针对长视频理解设计的全面任务类别

我们针对长视频理解设计了9类不同的任务,并进一步将他们任务分为三类:全面理解,单细节理解、多细节理解。

·全面理解任务:要求MLLMs理解和利用视频的全局信息来解决问题;

·单细节理解任务:要求MLLMs根据问题定位长视频中的某一细节,并利用该细节来解决问题;

·多细节理解任务:要去MLLMs定位和理解长视频中的多个相关片段来完成和解决问题。

此外,我们还包括了单项选择题形式和开放生成式问题,全面考察MLLMs在不同场景下的长视频理解能力。

(文末提供了MLVU的9类任务示例图参考)

4、合理的问题设置与高质量答案标注

以情节问答(Plot Question Answering)任务为例。一部分Benchmark[9, 10]使用电影/电视的角色作为问题线索来对MLLMs进行提问,然而他们使用的视频多为经典电影/电视,MLLMs可以直接使用自有知识回答问题而不需要对输入视频进行理解。另一部分Benchmark[4]试图避免这个问题,但由于长视频的复杂性,仅仅利用代词和描述性语句来指代情节细节非常困难,他们的问题非常宽泛或者需要在问题中额外指定具体的时间片段而不是让MLLMs自己根据题目寻找对应细节。

MLVU通过精细的人工标注克服了这些问题,在所有的情节问答任务中,MLVU均使用“具有详细细节的代词”来指代情节中的人物、事件或背景,避免了问题泄露带来的潜在影响,MLLMs需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外,MLVU的Plot QA问题具备丰富的多样性,增强了评测的合理性和可靠性。

详细分析MLLMs在MLVU上的表现

我们在MLVU上对20个流行的MLLM进行了评测,包括开源模型和闭源模型。评测结果如下:

实验结果发现:

(1)长视频理解仍然是富有挑战的任务。尽管GPT-4o[11]在所有任务中均取得了第1名的成绩,然而,它的单选平均准确率只有64.6%。所有的模型都在需要细粒度理解能力的任务上(单细节、多细节理解任务)表现糟糕。此外,大部分模型的性能都会随着视频时长增加显著下降。

(2)开源模型和闭源模型之间存在较大的差距。开源模型中单项选择题性能最强的InternVL-1.5[12]单选平均准确度仅有50.4%;开放生成式题目最强的LLaMA-Vid得分仅有4.22,均远远落后于GPT-4o的64.6%和5.80。此外,现有长视频模型并没有在长视频理解任务上取得理想的成绩,说明当前的MLLMs在长视频理解任务上仍然存在较大的提升空间。

(3)上下文长度、图像理解能力、LLM Backbone 是MLLMs提升长视频理解能力的关键因素。实证研究发现,提升上下文窗口,提升MLLM的图像理解能力,以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。这揭示了未来MLLMs在提升长视频理解能力的重要改进方向。

总结

我们提出MLVU,首个专为长视频理解任务设计的全面多任务评测基准。MLVU极大扩展了现有基准的视频长度、提供了丰富的视频类型,并针对长视频理解设计了多样化的评估任务,从而为MLLMs提供了一个可靠高质量的长视频理解评测平台。

通过评估当前流行的20个MLLMs,我们发现,长视频理解仍然是一个富有挑战和具有巨大提升空间的研究领域。通过实证研究,我们揭示了多个影响长视频理解能力的因素,为未来MLLMs的长视频理解能力构建提供了洞见。此外,我们将不断扩展和更新MLVU覆盖的视频类型和评估任务,期待MLVU能够促进社区对长视频理解研究的发展。

附录:MLVU的任务示例图

部分参考文献:

[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.

[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.

[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.

[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.

[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.

[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.

[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.

[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.

[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.

[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1846298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ES全文检索支持繁简和IK分词检索

ES全文检索支持繁简和IK分词检索 1. 前言2. 引入繁简转换插件analysis-stconvert2.1 下载已有作者编译后的包文件2.2 下载源码进行编译2.3 复制解压插件到es安装目录的plugins文件夹下 3. 引入ik分词器插件3.1 已有作者编译后的包文件3.2 只有源代码的版本3.3 安装ik分词插件 4…

超声波清洗机的优势到底有哪些?四款精良爆品总结安利,质量放心

眼镜是现代人生活中的必备物品,但是很多人可能对于如何正确清洗眼镜感到困惑。传统的清洗方法可能会在清洗过程中对眼镜造成损坏,例如使用普通肥皂或清水清洗时容易划伤镜片。为了解决这个问题,家用眼镜超声波清洗机应运而生。超声波清洗机利…

四川赤橙宏海商务信息咨询有限公司可信吗?

在数字化浪潮席卷全球的今天,电商行业正以前所未有的速度蓬勃发展。作为这一领域的佼佼者,四川赤橙宏海商务信息咨询有限公司凭借其在抖音电商服务领域的深厚积累和卓越表现,成为了引领行业创新发展的重要力量。 四川赤橙宏海商务信息咨询有…

海豚调度调优 | 正在运行的工作流(DAG)如何重新拉起失败的任务(Task)

💡 本系列文章是DolphinScheduler由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。 *祝开卷有益。 * 本系列教程基于 DolphinScheduler 2.0.5 做的优化。&#xff…

uniapp 打包 H5 实现在 uniapp 打包 APP 的 webview 通信

一、前言 遇到 uniapp 打包的 APP 在 webview 内嵌入 uniapp 打包的 H5 页面的需求,并实现通信。本篇主要总结了如何实现并总结遇到的问题,希望可以帮助大家减少负担。 实现需求主要有三个地方需要处理: index.html 的打包配置导入 uni.we…

SVN学习(003 svn安装和配置subversive)

尚硅谷SVN高级教程(svn操作详解) 总时长 4:53:00 共72P 此文章包含第30p-第p41的内容 介绍 安装 字符集记得先改成utf-8 这里无svn的插件 打开应用插件市场(需要有网络) 重启 svn文件夹 安装svn连接器 这两个用哪个都行 svn版本号是1.6 所以…

代码随想录算法训练营第六十六天 |101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿

101.孤岛的总面积 文字讲解:101. 孤岛的总面积 | 代码随想录 解题思路 本题要求找到不靠边的陆地面积,那么我们只要从周边找到陆地然后 通过 dfs或者bfs 将周边靠陆地且相邻的陆地都变成海洋,然后再去重新遍历地图 统计此时还剩下的陆地就…

360°环绕拍摄图片的作用 欧保图 ORBITVU

360环绕拍摄图片在电商中的应用及其优势 ORBITVU 波兰 欧保图 360环绕拍摄图片是一种动态的产品展示方式,它允许消费者从不同角度全方位地查看产品,这种交互式的体验大大增强了用户的购物体验。以下是360环绕拍摄图片在电商中的一些具体应用及其带来的优…

FreeRTOS学习 -- 时间管理

在使用 FreeRTOS 的过程中通常会在一个任务函数中使用延时函数对这个任务延时,当执行延时函数的时候会进行任务切换,并且此任务就会进入阻塞态,直到延时完成,任务重新进入就绪态。 FreeRTOS 延时函数 1、函数 vTaskDelay() 在F…

Ubuntu下载QT5.8安装包-bestswinger课程

最近在看UP的QT开发课,真的找了巨久这个安装包,谁都不想在安装上花太多时间。。出一版小小教程吧~ 首先打开qt download官网,5.8好像在镜像网站上没有看到,所以我最后还是老老实实官网了,而且5.8会小一点 …

90%网络工程师还是搞不清三层交换机是啥?

6月29日,HCIA新开班啦什么是三层交换机? 首先,我们先来解释一下三层交换机是什么。简单来说,它就是网络中的一个小老板,负责管理数据的流动。与普通的网络设备不同,三层交换机不仅能认识「MAC地址」&#…

小程序使用接口wx.getLocation配置

开通时需详细描述业务,否则可能审核不通过 可能需要绑定腾讯位置服务,新建应该,绑定到小程序 配置 权限声明:在使用wx.getLocation前,需要在app.json的permission字段中声明对用户位置信息的使用权限,并提…

可编程非线性RCD负载原理与应用

可编程非线性RCD负载(Resistor-Capacitor-Diode)是一种电子元件,其电阻、电容和二极管的特性可以通过编程进行控制和调整。这种负载广泛应用于电力系统、通信设备、电子设备等领域,具有很高的实用价值。 RCD负载的基本原理是利用电…

【CT】LeetCode手撕—160. 相交链表

目录 题目1- 思路2- 实现⭐160. 相交链表——题解思路 3- ACM 实现 题目 原题连接:160. 相交链表 1- 思路 模式识别:相交链表 ——> 判断是否相交 思路 保证 headA 是最长的那个链表,之后对其开始依次遍历 2- 实现 ⭐160. 相交链表—…

大厂晋升学习方法一:海绵学习法

早晨 30 分钟 首先,我们可以把起床的闹钟提前 30 分钟,比如原来 07:30 的闹钟可以改为 07:00。不用担心提前 30 分钟起床会影响休息质量,习惯以后,早起 30 分钟不但不会影响一天的精力,甚至可能反而让人更有精神。早起…

leetcode 二分查找·系统掌握 猜数字大小

题目&#xff1a; 题解&#xff1a; 使用最经典普通二分即可 int guessNumber(int n) {long l0,rn,mid;while(l<r){mid(rl)>>1;if(guess(mid)0)return mid;else if(guess(mid)-1)rmid-1;else lmid1;}return 0;}

kylin v10 离线安装chrome centos离线安装chrome linux离线安装谷歌浏览器

1. 先用自己联网的计算机&#xff0c;下载离线安装包&#xff0c;浏览器输入链接下载安装包&#xff1a; https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 1.2. 信创环境不用执行下面&#xff0c;因为没网 1.3. 若为阿里云服务器&#xff0c;或服…

基于自主发明专利的杰林码哈希算法、对称加密算法和无损压缩算法的可文件追踪管控且支持linux和windows的文件压缩包工具SDK和JLM PACK软件介绍

基于自主发明专利的杰林码哈希算法、对称加密算法和无损压缩算法的可文件追踪管控且支持linux和windows的文件压缩包工具SDK1.0版发布&#xff0c;下载链接为&#xff1a; JLM PACK SDK和软件的官方网站 注意测试授权证书yesine_jlmpack_test.license的有效期到2024年12月&am…

【AI副业指南】用AI做心理测试图文号,单月稳赚7000+(附详细教程)

大家好&#xff0c;我是画画的小强 因为AI的出现&#xff0c;很多自媒体副业项目变得简单容易上手&#xff0c;也给予很多想要在业余时间变现的朋友更丰富的项目选择。 今天分享的赛道绝对颠覆大家的认知&#xff0c;本期将叫大家如何通过AI在自媒体平台上做心理测试账号。 …

湖南(焦点小组)源点咨询 用户座谈会现场访谈之一点心得

湖南源点调研认为&#xff1a;访谈前&#xff0c;务必先明确最核心的目的。 一些初学的同学都知道&#xff0c;访谈首先要准备一个提纲&#xff0c;的确这是一个基础工作。但我在实际情况更常见到的是&#xff1a; 访谈提纲看似全面&#xff0c;各种维度都去问&#xff0c;但…