论文解读 | ECCV2024 AutoEval-Video:一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试...

news2024/10/24 5:36:43

点击蓝字

1a080e9c4f777907c64b390ab7eccdc0.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

ca5b50c8e174fc9f8d21732a683396bf.png

点击 阅读原文 观看作者讲解回放!

作者简介

陈修元,上海交通大学清源研究院硕士生

概述

总结来说,我们提出了一个新颖且具有挑战性的基准测试AutoEvalVideo,用于全面评估大型视觉-语言模型在开放式视频问答中的表现。AutoEvalVideo的全面性体现在两个方面:1) AutoEval-Video构建了跨越9个技能维度的开放式视频问题,涵盖了感知、理解和生成的能力;2) AutoEval-Video包含了新收集的视频,覆盖了超过40个不同的主题。为了高效评估对开放式问题的回应,我们采用了基于大型语言模型(LLM)的评估方法,但与仅仅提供参考答案不同,我们为每一个实例(视频-问题对)标注了独特的评估规则。为了最大化这些规则的鲁棒性,我们开发了一种新颖的对抗性标注机制。通过使用特定实例规则作为提示,GPT-4作为一个自动评估器,能够实现大约97.0%的稳定评估准确率,与人类评估者94.9% - 97.5%的准确率相当。此外,我们在AutoEval-Video上评估了十一个大型视觉-语言模型的性能。其中,GPT-4V(视觉)显著优于其他模型,达到了32.2%的准确率。然而,与人类72.8%的准确率相比,仍有相当大的提升空间。通过进行广泛的案例研究,我们揭示了GPT4V的几个缺点,例如时间理解和跨帧理解能力有限,以及回应不够切题等。

论文地址:https://arxiv.org/abs/2311.14906

代码链接:https://github.com/XiuyuanChen/AutoEval-Video

Research Background

本文首先探讨了大型模型从文本单模态到视频多模态的发展历程。通过以人与大模型对话的形式呈现的图像,清晰地展示了多模态模型的演变。从图中可以观察到,信息交流从单一的文本模态逐步扩展至图片模态,最终发展到可以进行视频交互。

目前,大多数研究工作集中在图片和文本这两个模态上。然而,随着抖音、B站和YouTube等短视频平台的兴起,仅依靠图片模态传递的信息开始显得相对有限。这促使了对视频内容深入理解的模型的发展,使得这些模型能够与人类就视频内容进行文字交互,并提供相应的回应。

为了评估视频理解模型对视频内容的理解程度,可以通过视频问答形式来进行,这也成为了评测这类模型能力的主要方法。

229837fb10a54555b8e8b842313164cd.png

在该任务中,出现了诸如 MSRVTTQA、TGIFQA 等众多视频数据集。然而,这些数据集存在一些不足。首先,它们提出的问题的任务维度具有局限性。其次,这些数据集的问答任务大多采用多选题形式,有些数据集的问题与视频甚至采用了预设的模板和剧本。

多选题形式因答案固定,便于使用如准确率这样的定量指标来评估模型表现,从而避免了对开放式回答的评测。然而,这种形式对于生成式视频理解模型的输出格式不太友好。在多选题场景下,非生成式模型可以把任务视为分类任务,即在所有候选答案中输出概率分布并选择最符合的选项。这种做法在一定程度上简化了视频问答任务。例如,在包含 ABCD 四个选项的单选题中,随机选择的答对概率为四分之一。

理想情况下,模型应该能够像与人类交谈的机器人一样回答问题。因此,从适用性角度出发,应将任务框架从多选题转变为单选题或简答题格式,要求模型以简明的话语回答问题,而非从多个候选答案中选择。这是当前视频评测机制存在的主要问题之一。

另一个问题在于,如 DeepMind 的 Perception Test 数据集,其在标注数据时采用的视频和问题具有预设的脚本或模板。具体操作是先划分任务维度,再根据任务维度制定问题模板和视频剧本,有目的地构造数据。然而,这种方法并不适宜,因为在全面评测视频理解能力时,问题的提出方式和视频内容应该是多样化的,而非格式化和受限的。

c492d12ab4f967280a47ace37a69ba45.png


Motivation

正如前面所讨论的,现有研究工作中存在的主要问题可以分为三类:任务维度划分过于简单、采用多选题的任务形式、以及问题和视频的模板化。然而,其中最关键的问题是如何有效地评测开放式回答。

在对视频内容的简答题进行评分时,评卷老师拥有一份参考答案,但学生提交的答案往往千差万别,这使得量化评分变得复杂。在此情境中,评分通常依赖于详尽的评分准则,其中明确列出了关键的得分点和分数分配方式。

受到这种评分模式的启发,本文希望构建一套基于详细评分规则的评测体系,并让大型语言模型(LLM)扮演评判的角色。这样的评测体系将允许对模型生成的开放式答案进行更精确和公正的评估。通过设定明确的评分准则和得分点,LLM将能够评估答案的质量,从而提高评分的一致性和可靠性。

7d2f89103abbfe070b501fcc2d030353.png


AutoEval-Video

在AutoEval-Video的标志性工作中,作者首先根据对推理能力的要求划分出九个评测维度。这些任务维度进一步被分类为三种类型:感知、认知和生成。

感知类任务主要考察模型对视频中基本信息的识别和提取能力;认知类任务在感知的基础上要求模型进行更深层次的推理和思考,包括时间空间推理、因果推理等;生成类任务期望模型能够根据给定的视频内容和指令生成描述性文本或广告词等。

为了实现这些任务维度的有效评测,本工作会训练专门的人员,使他们能够根据这些维度平衡地提出问题,并从YouTube等平台寻找合适的视频素材进行标注。

58d8e5f5acdc9c61c268aa6f1efb2d18.png

AutoEval-Video的评测流程和数据样例如图所示。流程本身相当简洁:每条数据包括一个视频、一个相关问题,以及一个对应的评判规则。模型需要根据视频内容回答问题,其提供的答案随后将与评判规则一同输入到大型语言模型(LLM)中进行评估。在这个实验中,使用的是目前最先进的LLM,即GPT-4,它作为评判机制,能够基于提供的输入给出判断依据和结论。

64a637145351e63b7d8ff087cef44409.png

AutoEval-Video的视频素材来源于YouTube,标注人员根据自身的想象力并遵循特定的任务要求来构造问题。展示的数据包括文字标注、视频长度及内容主题的分布等统计特征。

种类繁多的网络视频使得AutoEval-Video的主题分布显得尤为多样化。这些视频主要包括运动记录、Vlog、生活记录等内容。此外,还涵盖了交通记录视频、游戏实况、直播等多种类型,为模型提供了丰富的场景和背景,以便进行更全面和深入的视频内容理解和分析。

fec7c8d5e31ffa2b18fa1c0e4ef00a1f.png


Piplines of Rules Annotation

本项目采用的规则标准流程较之前的工作拥有更细化的规则设置。在GPT工具中,评分系统通常基于统一的情节,即给定一段描述,GPT根据自身模型回答并提供参考答案,评分则从语句通顺性或语法错误等角度进行主观量化,评分范围为0到5分。而AutoEval-Video则将规则细化到每个样本点,具体地,每个样本都会单独构造规则,包括视频描述、问题本身及裁分点,以及对GPT返回格式的具体约束。

为确保GPT根据这些规则给出的判断既公平又客观,本文引入了对抗性标注机制。具体操作如AutoEval-Video所述,规则制定团队负责维护和更新规则,并引入另一标注团队作为“攻击团队”,该团队会根据旧规则编写可能引发GPT误判的答案。所谓“误判”是指答案在规则设定的场景下GPT判断结论与人类判断结果不一致的情况,这类答案被称为“有效攻击答案”。通过攻击答案的提出,激励规则得以不断更新。整个过程在攻击和规则更新中循环进行,最终形成一套完备、客观公平且具有说服力的规则体系。

此外,作者还设立了奖励机制,以激励两队人员在标注过程中保持积极主动性,并维护标注工作的对抗性竞争性,确保标注过程的质量和效率。

f752120af478a357468d6b8d1d05af53.png

Experiment on AutoEval-Video

下面呈现的是该平台上对几个状态最先进模型(Sota模型)的评测结果,其中包括了相应的case study。

在实验结果的展示中,左边的表格展示了几个Sota模型在AutoEval-Video上的评测结果,显示出GPT-4V在视频理解方面的性能远超其他模型。然而,与人类的表现相比,GPT-4V仍然有较大的提升空间。

右边的表格则展示了在三种不同配置下的消融实验结果:统一提示、使用初始规则进行判断,以及在对抗性迭代后使用更新规则进行判断。在这三种配置下,GPT-4V的判断准确率几乎可以与普通人的判断能力相媲美,而判断结果的Ground Truth是通过人类标记者的投票产生的。

这些实验结果展示了AutoEval-Video在自动视频评测领域的潜力,表明通过精细化的规则和适当的配置,LLM的判断能力可以接近甚至达到人类水平。

35de5a8f787554a623ec7180d0740301.png

Case Study

除了量化实验结果之外,作者还对包括GPT-4V在内的多模态模型进行了深入的案例研究。结果表明,尽管GPT-4V在多模态处理方面具有先进的能力,但在处理多帧连续信息、理解时序特征以及物体运动等方面的表现仍有待改进。特别是,该模型在处理视频内容时,其输出往往显得冗长且不够简练。

005fc97192688df053486acff8707446.png

在评估其他多模态模型时,作者发现它们普遍存在几个关键问题:首先是幻觉问题,其次是输出语序的混乱。幻觉问题的具体表现在于模型有时会为其错误的答案编造自我解释,从而创造出视频中实际不存在的视觉信息。这导致模型的输出与视频内容不符,损害了结果的可靠性和准确性。而对于输出中出现乱码以及语序混乱的问题,作者认为是被评测模型本身所用到的LLM语言能力不足所导致的。

df5eb89d6d582eb9a92e4ae7f4508365.png


本篇文章由陈研整理

往期精彩文章推荐

d9f22596c4ac401f62c33b58a79388c9.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 5f13df2f57dc78dd8f12159fa2579359.png

我知道你

在看

提出观点,表达想法,欢迎

留言

5c5ce2adb36c81e007eece64670effc7.gif

点击 阅读原文 观看作者讲解回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2222135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蓝牙资讯|iOS 18.1 正式版下周推送,AirPods Pro 2耳机将带来助听器功能

苹果公司宣布将在下周发布 iOS 18.1 正式版,同时确认该更新将为 AirPods Pro 2 耳机带来新增“临床级”助听器功能。在启用功能后,用户首先需要使用 AirPods 和 iPhone 进行简短的听力测试,如果检测到听力损失,系统将创建一项“个…

5G RedCap工业路由器赋能电力物联网应用

随着5G轻量化技术应用的推进,5G RedCap旨在提供低功耗、低成本、广覆盖等功能特点赋能电力智能化升级。特别适用于工业物联网、低空经济、车联网、消费电子和轻量级5G的需求。 5G RedCap工业路由器的特点 低功耗:5G RedCap工业路由器通过节能技术&#…

win10下用vscode和pycharm运行odoo18的速度对比

我很少用win平台开发odoo,主要原因就是速度太慢,效率太低,这次odoo18发布,我做odoo18的基础培训教程的时候,发现odoo运行速度相比以前有大大改观,虽然还是不如ubuntu,但是确实提高很多了环境&am…

如何搭建一部引人入胜的短剧小程序

在移动互联网时代,短剧小程序以其轻便、快捷的特点迅速成为人们消遣娱乐的新宠。无论是在通勤途中、休息时间还是等待间隙,用户都能通过手机轻松观看精彩短剧,享受碎片化时间的娱乐盛宴。如果你是一位对内容创作充满热情的创作者,…

网络安全领域推荐证书介绍及备考指南

在网络安全领域,拥有专业认证不仅可以证明个人的专业能力,还能帮助在实际工作中应用先进的技术和知识。以下是几种热门的网络安全证书介绍及备考指南。 1. OSCP (Offensive Security Certified Professional) 证书简介 OSCP是针对渗透测试领域的入门级…

GRU神经网络理解

全文参考以下B站视频及《神经网络与深度学习》邱锡鹏,侧重对GPU模型的理解,初学者入门自用记录,有问题请指正【重温经典】GRU循环神经网络 —— LSTM的轻量级版本,大白话讲解_哔哩哔哩_bilibili 更新门、重置门、学习与输出 注&a…

Django 项目的创建

1.安装Django pip install django 2.创建项目 在想要创建的项目我文件位置同时按住Shift右键打开Powershell窗口。 输入命令 django-admin startproject myproject 这里 myproject 是你的项目名称,你可以根据需要替换为其他名称。。 3. 理解项目结构 创建项目…

Netty简单应用

1.服务端构建 接收客户端请求,打印请求消息;消息采用内置String作为编码与解码器;开启信息输入监听线程,发送消息至客户端; 1.1 服务端消息处理类 import io.netty.channel.Channel; import io.netty.channel.Chann…

一款好用的搜索软件——everthing(搜索比文件资源管理器快)

everthing官网链接 在官网选择下载 1.下载后双击打开 2.点击OK(需要其他语言自己选择) 3.选择安装位置(路径最好别带中文和空格) 继续点击下一步 4. 点击下一步 5.继续点击安装 6.然后就完成了 7.点击打开然后就可以搜索了

零代码快速开发智能体 |甘肃旅游通

在互联网信息爆炸的时代,寻找一处让人心动的旅游胜地往往需要花费大量的时间和精力。而今天,我要向大家介绍一款能够帮助你轻松规划甘肃之行的智能体——“甘肃旅游通”。这款智能体通过低代码开发,集合了丰富的旅游信息和个性化推荐功能&…

Viky图片压缩 v3.1 超简单,一键压缩,高压缩率,肉眼无损

下载:https://pan.quark.cn/s/166406040a7b 软件介绍: 使用方法 拖入即压缩 功能 智能压缩,高压缩率,肉眼无损 支持WebP、JPG、JPEG、PNG格式 多线程处理,提升批量压缩速度 带进度显示,以及压缩前后对比 …

QT枚举类型转字符串和使用QDebug<<重载输出私有枚举类型

一 将QT自带的枚举类型转换为QString 需要的头文件&#xff1a; #include <QMetaObject> #include <QMetaEnum> 测试代码 const QMetaObject *metaObject &QImage::staticMetaObject;QMetaEnum metaEnum metaObject->enumerator(metaObject->indexOf…

pikachu靶场CSRF-post测试报告

目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、抓包使用burp生成csrf脚本 四、源代码分析 五、结论 一、测试环境 1、系统环境 渗透机&#xff1a;本机(127.0.0.1) 靶 机&#xff1a;本机(127.0.0.1) 2、使用工具/软件 Burp sui…

基于Session的认证方式

基于Session的认证方式 认证流程创建工程创建maven工程Spring 容器配置servletContext配置加载 Spring容器 实现认证功能认证页面认证接口 实现会话功能实现授权功能小结 认证流程 基于Session认证方式的流程是&#xff0c;用户认证成功后&#xff0c;在服务端生成用户相关的数…

详解Oracle审计(一)

题记&#xff1a; 有段时间没写过oracle了&#xff0c;今天回归。 本文将详细介绍oracle的审计功能&#xff0c;基于11g版本&#xff0c;但对12c&#xff0c;19c也同样适用。 审计&#xff08;Audit&#xff09;用于监视用户所执行的数据库操作&#xff0c;并且 Oracle 会将审…

Hallo2 长视频和高分辨率的音频驱动的肖像图像动画 (数字人技术)

HALLO2: LONG-DURATION AND HIGH-RESOLUTION AUDIO-DRIVEN PORTRAIT IMAGE ANIMATION 论文&#xff1a;https://arxiv.org/abs/2410.07718 代码&#xff1a;https://github.com/fudan-generative-vision/hallo2 模型&#xff1a;https://huggingface.co/fudan-generative-ai/h…

TCP(三次握手)和UDP(面向无连接)的原理以及区别

TCP(三次握手)和UDP&#xff08;面向无连接&#xff09;的原理以及区别 网络协议是每个前端工程师都必须要掌握的知识&#xff0c;TCP/IP 中有两个具有代表性的传输层协议。 概述 &#x1f4e1;TCP&#xff08;Transmission Control Protocol&#xff09;是一种网络协议&#…

YOLO V3 网络构架解析

YOLO V3&#xff08;You Only Look Once version 3&#xff09;是由Joseph Redmon等人于2018年提出的一种基于深度学习的目标检测算法。它在速度和精度上相较于之前的版本有了显著提升&#xff0c;成为计算机视觉领域的一个重要里程碑。本文将详细解析YOLO V3的网络架构&#x…

【Origin科技绘图】最新Origin2024中文版软件安装教程

Origin是由OriginLab公司开发的一个科学绘图、数据分析软件,支持在MicrosoftWindows下运行。Origin支持各种各样的2D/3D图形。Origin中的数据分析功能包括统计,信号处理,曲线拟合以及峰值分析。Origin中的曲线拟合是采用基Levernberg-Marquardt算法(LMA)的非线性最小二乘法拟合…

网站漏扫:守护网络安全的关键防线

网站漏洞扫描&#xff0c;简称漏扫&#xff0c;是一种针对网站进行漏洞检测的安全服务。网站漏洞扫描在网络安全中占据着至关重要的地位。 网站漏扫在及时发现和修复漏洞方面发挥着关键作用 通过对网站和系统的全面扫描&#xff0c;能够快速识别出各种潜在的漏洞&#xff0c;…