挑战当前最难、规模最大多模态评测基准MME-RealWorld,QwenVL-2位列第一但并未及格

news2025/1/12 10:39:50

32 个标注者,29,429 条标注数据,图像平均分辨率 20001500,当前最难最大的纯手工标注图像感知 benchmark 来了!现有模型没有一个在总分上取得 60% 以上的准确率。

论文链接:

https://arxiv.org/abs/2408.13257

项目主页:

https://mme-realworld.github.io/

代码链接:

https://github.com/yfzhang114/MME-RealWorld

主要发现


  1. 在真实世界任务上,Qwen2-vl 和 InternVL2 在中文感知和推理任务上表现明显好于闭源模型比如 Claude 3.5,国内用户可以首选这两个。

  2. 英文版二者的感知能力 Qwen2-vl > InternVL2 > 其他,但是推理还是闭源模型 Claude 3.5 更胜一筹。

  3. 闭源模型比如 Gpt-4o 对于高分图像的能力被高估了,这方面 GPT-4o 基本上都排不到前三,Gemini-Pro 则更差。

  4. 所有 MLLMs 在自动驾驶,遥感数据,视频监控等复杂场景下的表现都非常差,在有些 domain上Qwen2-vl 的 Acc 也只有三十多(五分类),下游任务应用任重而道远。

真实场景部分任务展示


▲ 真实世界 OCR,需要在分辨率超过 1024*1024 的图像上识别细粒度的文字/数字

▲ 金融财报图表分析:超大图表的具体元素的定位,识别,比较与计算

▲ 监控数据分析:对视频监控数据的具体目标的计数/分析与识别

▲ 真实遥感数据物体识别:在高清遥感数据(单张图像大小甚至超过 500mb)上对小物体的统计与属性识别

▲ 自动驾驶:对自动驾驶场景下,自车或者其他车辆拍摄图像中的各种元素的行为理解与预测

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

为什么需要MME-RealWorld/现有benchmark的不足


▲ MME-RealWorld 是规模最大的完全由人类标注的数据集,具有最高的平均分辨率和最具挑战性的任务。

近年来,多模态大语言模型(MLLMs)得到了显著的发展。这些模型的主要设计目标是开发能够通过整合多种模态感官数据全面感知人类查询和环境情况的通用智能体。因此,出现了大量全面的评估基准,用于严格评估这些模型的能力。然而,也存在一些常见问题:

1. 数据规模:许多现有的基准数据集包含少于 10,000 个问答对,例如 MME、MMbench、MMStar、MM-Vet、TorchStone 和 BLINK。有限的问答数量可能导致较大的评估波动。

2. 注释质量:虽然一些基准(如 MMT-Bench 和 SEED-Bench)规模相对较大,但其注释是由 LLMs 或 MLLMs 生成的。由于这些模型的性能有限,这种注释过程不可避免地会引入噪声,从而影响注释的质量。例如,在我们的基准中,表现最好的模型 InternVL-2 的准确率仅为 50%,依赖这些模型会不可避免地降低注释的质量。

3. 任务难度:目前,一些基准的最高性能已经达到了 80%-90% 的准确率,且先进 MLLMs 之间的性能差距较小。这使得验证先进模型的优势或改进变得具有挑战性,也难以区分哪个模型明显更优。

鉴于这些问题,作者提出了一个新的基准测试,名为 MME-RealWorld。作者首先关注了一系列具有明确动机的数据集家族,考虑了来自自动驾驶、遥感、视频监控、报纸、街景和金融图表等领域的图像。这些场景即使对人类来说也极具挑战性,作者希望 MLLMs(多模态大模型)能够真正提供帮助。

MME-RealWorld的数据来源与主要特征

基于这些主题,作者从超过 30 万个公共和互联网来源中收集了总计 13,366 张高分辨率图像,这些图像的平均分辨率为 2,000×1,500,包含丰富的图像细节。作者邀请了 25 位专业标注员和 7 位 MLLMs 领域的专家参与数据标注和质量检查,同时确保所有问题对 MLLMs 都具有挑战性。值得注意的是,作者指出,大多数问题甚至对人类来说也很难,需要多名标注员来回答并复查结果。

正如所示,MME-RealWorld 最终包含 29,429 个注释,涵盖 43 个子类任务,每个任务至少有 100 个问题。作者在这一基准测试中对 28 个先进的 MLLMs 进行了评估,并提供了详细的分析。

作者总结了 MME-RealWorld 相对于现有基准的主要优势,如下所示:

数据规模:通过 32 名志愿者的努力,作者手动标注了 29,429 个专注于现实世界场景的 QA 对,使其成为迄今为止最大的完全由人类标注的基准测试。

数据质量

  • 分辨率:作者指出,许多图像细节(如体育赛事中的记分牌)包含关键信息。只有通过高分辨率图像才能正确解读这些细节,而这对于向人类提供有意义的帮助至关重要。据作者所知,MME-RealWorld 拥有现有基准中最高的平均图像分辨率。

  • 标注:所有标注均由专业团队手工完成,并进行交叉检查以确保数据质量。

任务难度与现实世界应用:上图(b)显示了不同 MLLMs 的性能结果,表明即使是最先进的模型,其准确率也未超过 60%。此外,作者在下图中展示,许多现实世界的任务显著比传统基准测试中的任务更难。例如,在视频监控中,模型需要计算 133 辆车的存在;在遥感中,模型必须识别并计算分辨率超过 5000×5000 的地图上的小物体。

MME-RealWorld-CN:作者指出,现有的中文基准通常从英文版本翻译而来,这有两个限制:

  • 问题与图像不匹配:图像可能与英文场景相关,但与中文问题没有直观的联系。

  • 翻译不匹配:机器翻译并不总是足够精确和完美。为此,作者收集了更多关注中国场景的图像,并邀请中国志愿者进行标注,最终获得了 5,917 个 QA 对。

模型效果与分析


▲ 感知任务的实验结果显示,模型按照其平均性能进行排名。为了区分,专有模型的行被灰色突出显示。各领域的任务分别用 “OCR”、“RS”、“DT”、“MO” 和 “AD” 表示,具体对应:野外光学字符识别、遥感、图表与表格、监控和自动驾驶。“Avg” 和 “Avg-C” 分别表示各领域子任务的加权平均准确率和未加权平均准确率。

上表展示了不同模型在 5 个领域中的感知能力表现。总体而言,Qwen2-VL 与 InternVL-2 表现出最强的感知能力,优于其他闭源模型。然而,各个任务的表现存在差异,作者总结了以下几点关键观察:

1. OCR 任务表现:GPT-4o 在实际 OCR 任务中表现最佳,达到了 77% 的准确率,但在更具挑战性的任务中,其表现显著下降,落后于其他顶尖模型。这一趋势也在其他闭源模型中出现,如 Gemini-1.5-Pro 和 GPT-4o-mini,它们在 OCR 任务中表现良好,但在其他实际任务中表现欠佳。作者提出了三种可能的原因:

  • 闭源模型在上传本地图像时通常对最大图像尺寸和分辨率有限制。例如,Claude 3.5 Sonnet 的最大分辨率为 8K,最大图像质量为 5MB,而 GPT-4o 和 Gemini-pro 允许上传最大 20MB 的图像。这限制了某些高质量图像的输入,因为需要压缩图像才能上传。

  • 闭源模型往往更为保守。作者观察到,闭源模型输出 “E”(表示图像中不存在相关物体)的比例较高,这表明这些模型可能采用保守的应答策略,以避免幻觉或提供更安全的答案。

  • 闭源模型有时拒绝回答某些问题。由于不同的输入/输出过滤策略,一些样本被认为涉及隐私或有害内容,因此不予回答。

2. 高分辨率输入的优势:允许更高分辨率输入的模型(如 Mini-Gemini-HD 和 SliME)相对于直接使用视觉编码器的模型(如 ShareGPT4V 和 LLaVA1.5)表现出显著优势。在相同的模型大小下,这些模型在不同子任务中的表现均有所提升。这强调了高分辨率图像处理对于解决复杂现实任务的重要性。

3. 不同领域的趋势:遥感任务涉及处理极大图像,要求对图像细节有更深入的理解。在这些任务中,专注于高分辨率输入的模型(如 Cambrian-1、Mini-Gemini-HD 和 SliME)表现优于其他模型。此外,在大量图表数据上进行训练的模型在处理复杂图表时表现出更好的感知能力。例如,SliME 和 LLaVA1.5 的训练集中包含的图表数据有限且相对简单,因此在这一类别中的表现不及更近期的模型。

**4. 推理能力:**下表展示了推理任务的实验结果。在推理能力方面,Claude 3.5 Sonnet 在大多数领域中表现最为出色,尤其是在图表相关任务中,比排名第二的 GPT-4o 高出 16.4%。闭源模型 GPT-4o 表现良好,略微落后于排名第二的 InternVL-2,但在多个领域中甚至优于 InternVL-2。

大多数开源模型表现不佳,传统基准方法(如 LLaVA1.5 和 Qwen-VL-Chat)的结果接近随机猜测。此外,推理任务比感知任务更具挑战性。即使是排名最高的模型,其平均准确率也未能超过 45%,类别准确率也未超过 50%。这表明当前模型在达到人类级别的推理能力方面仍有很大差距。

▲ 推理任务的实验结果显示,模型按照其平均性能进行排名。为了区分,专有模型的行被灰色突出显示。

目前MLLM的缺陷以及值得注意的点


现有模型在图像细节感知方面的不足: 多数模型选择答案 “E” 的频率远高于实际数据中的比例,这表明这些模型的视觉感知模块未能准确识别图像中的对象。

MLLMs 在理解动态信息方面的局限性: 在自动驾驶和监控任务中,MLLMs 在理解和推理动态信息方面表现出明显的不足,显示出与人类能力之间的巨大差距。

计算效率: 处理高分辨率图像时,各模型的计算效率差异显著。某些模型在处理超过 1024×1024 分辨率的图像时计算需求非常高,如 Mini-Gemini-HD,计算成本比 LLaVA1.5 高约 5 倍。这也显示了现有方法在处理高分辨率图像时的固有局限性。

错误选项分析: 研究发现,不同的 MLLM 在处理不确定问题时的应对策略有所不同。较大的模型通常采取更保守的策略,倾向于选择更安全的 “E” 选项,而较小的模型往往倾向于选择第一个选项 “A”。值得注意的是,InternVL-2 的错误选择分布非常均匀,这可能解释了其在评估中的优异表现。

指令跟随能力: 闭源模型在按照指令选择和输出单一答案方面表现较好,而开源模型往往不严格遵循指令,生成过多的附加分析,有时甚至在达到预定义的最大 token 数之前仍继续输出。这表明开源模型在指令执行能力方面仍有很大优化空间。

总结与未来工作


本文提出了 MME-RealWorld 基准测试,旨在解决现有 MLLM 评估中的关键局限性,如数据规模、标注质量和任务难度。作为迄今为止最大、分辨率最高的纯人工标注数据集,MME-RealWorld 得益于 32 名标注者的参与,确保了高质量数据和最小的个人偏差。大多数 QA 对都集中在自动驾驶和视频监控等现实世界场景上,这些场景具有重要的适用性。

此外,MME-RealWorld-CN 作为一个专注于中文场景的基准测试,基本上能够确保所有图像和问题都与中文环境相关,且全中文为母语的人工标注,不存在机器翻译引发的一系列问题。

本文还对广泛的模型进行的评估揭示了显著的性能差距,突出了当前模型在复杂图像感知方面的缺陷,并强调了进一步提高的需求。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2117505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MLLM(三)| BigModel平台正式上线Plus系列全家桶

2024年8月28日,在ACM SIGKDD(国际数据挖掘与知识发现大会,KDD)会议现场,智谱AI重磅推出新一代全自研基座大模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus和文生图模型CogView-3-Plus。 1、模型介绍页:htt…

Maven项目父模块POM中是否应该包含SpringBoot打包插件(spring-boot-maven-plugin)

父模块POM是否包含SpringBoot打包插件 一、场景 一个基于SpringBoot的Maven父子模块的项目(一个父项目中包含多个子项目),父模块 POM文件中,是否应该包含打包需要的插件(spring-boot-maven-plugin)&#…

strcat函数的使用和模拟实现

目录 1.头文件 2.函数功能​编辑 3.注意事项&#xff1a; 4.strcat函数模拟实现&#xff1a; 方源一把抓住VS2022&#xff0c;催动春秋产的气息&#xff0c;顷刻炼化&#xff01; 1.头文件 strcat函数的使用&#xff0c;需要头文件 #include<string.h>2.函数功能 s…

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

Course1-Week1: https://github.com/kaieye/2022-Machine-Learning-Specialization/tree/main/Supervised%20Machine%20Learning%20Regression%20and%20Classification/week11️⃣线性回归&#xff08;linear regression&#xff09; f w , b ( x ) w x b f_{w,b}(x) wx b …

【深度学习讲解笔记】前言

小编为AI专业的本科学生&#xff0c;最近入手了一本《深度学习讲解》的书&#xff0c;由于封面画了苹果&#x1f34e;&#xff0c;所以也叫苹果书&#xff0c;这本书目前在全网的热度很高。 本书是根据李宏毅老师讲授的《机器学习》课程编写的&#xff0c;作者是来自DataWhale…

SCI顶刊中“introduction”经典模板,建议收藏!

Introduction Introduction 的行文框架是一个从较宽泛的学术领域逐渐缩小到你的研究目标的过程。 1.研究背景和重要性 (Background AndImportance) • Mention of previous work on the subject • A statement of the importance of the subject 引言部分的第一段需要给出…

(Charles)如何抓取手机http的报文

抓包的目的&#xff1a; 发现bug需要定位要抓包 检查数据传输的安全性 接口测试遇到需求文档不全要抓包 抓包主要抓取的是http协议&#xff08;https协议&#xff09;的报文 http协议规范客户端和服务端的数据传输格式&#xff0c;是一个标准和规范 每个http连接包括请求消息和…

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya&#xff08;不是本人&#xff0c;claude AI&#xff09;在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容&#xff1a; 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用&…

CSP-J基础之数学基础 杨辉三角 一篇搞懂

文章目录 前言杨辉三角介绍杨辉三角的结构数学中的形式杨辉三角的性质 杨辉三角进行左对齐杨辉三角的递推公式编程实现杨辉三角总结 前言 杨辉三角是数学中一个非常有趣且重要的概念。它不仅在组合数学中扮演着重要角色&#xff0c;还在许多数学问题的解决中提供了有力的工具。…

【重学 MySQL】二十、运算符的优先级

【重学 MySQL】二十、运算符的优先级 MySQL 运算符的优先级&#xff08;由高到低&#xff09;注意事项示例 在 MySQL 中&#xff0c;运算符的优先级决定了在表达式中各个运算符被计算的先后顺序。了解运算符的优先级对于编写正确且高效的 SQL 语句至关重要。以下是根据高权威性…

Rust运算符

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟&#xff0c;李建英)【摘要 书评 试读】- 京东图书 (jd.com) https://blog.csdn.net/brucexia/category_12779443.html 前面已经学习了变量和常量&#xff0c;本节开始对它们进行操作&#xff0c…

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站&#xff0c;手机流量可以访问IPV6网络的服务&#xff0c;为什么不在电脑搭建Home Assistant&am…

springboot体会BIO(阻塞式IO)

使用springboot体会阻塞式IO 大致的思路为&#xff1a; 创建一个socket服务端&#xff0c;监听socket通道&#xff0c;并打印出socket通道中的内容。 创建两个socket客户端&#xff0c;向socket服务端写入消息。 1.创建服务端 public class RedisServer {public static void m…

Linux服务器应急响应(上)

目录 介绍步骤 介绍 网页篡改&#xff0c;即攻击者故意篡改网络上传送的报文&#xff0c;通常以入侵系统并篡改数据、劫持网络连接或插入数据等形式进行。 网页篡改一般有明显式和隐藏式两种。明显式网页篡改指攻击者为炫耀自己的技术技巧&#xff0c;或表明自己的观点实施的网…

《深入浅出WPF》读书笔记.11Template机制(下)

《深入浅出WPF》读书笔记.11Template机制(下) 背景 本文主要讲datatemplate和contenttemplate的联合使用&#xff0c;以及style的解析。 《深入浅出WPF》读书笔记.11Template机制(下) 代码 两者的作用域范围 datatemplate和contenttemplate的关系 两者的应用 指定目标类型…

Qt常用控件——QPushButton

QPushButton介绍 QWidget中涉及到的各种属性、函数、使用方法&#xff0c;对于Qt的各种控件都是有效的 使用QPushButton表示一个按钮&#xff0c;继承自QAbstracButton&#xff0c;这个类是一个抽象类 抽象类&#xff1a;包含纯虚函数&#xff0c;无法实例化出对象&#xff0c;…

第四届长城杯部分wp

还是太菜了&#xff0c;要经常练了 1.BrickGame 通过游戏就可以得到flag 2.SQLUP 一道文件上传的题目&#xff0c;在登陆页面我用admin和1登陆成功了&#xff0c;但是按照正常的应该是要爆破&#xff0c;用bp爆破得到下面的页面 登陆成功后&#xff0c;点击头像就可以进行文…

前端 PDF 预览技巧:标签 vs 插件,如何优雅地展示 PDF 文件

前言 pdf 作为一种常用的文档格式&#xff0c;相信很多同学都在项目中遇到过需要预览 pdf 文件的情况。其实实现的方式有很多&#xff0c;包括传统的标签 iframe 或 embed 方式&#xff0c;也可以运用一些插件&#xff0c;例如 pdf.js、vue-pdf 等等&#xff0c;本文将带大家一…

FastJson、Jackson、Gson、Hutool,JSON解析哪家强?JMH基准测试来排行

首发公众号:【赵侠客】 引言 在前面《释放你九成的带宽和内存&#xff1a;GZIP在解决Redis大Key方面的应用》一文中我使用GZIP算法对JSON格式数据进行了压缩&#xff0c;可以减小88%的空间&#xff0c;文中也提到了目前JSON格式在我们项目中应用的非常广泛几乎无处不在。压缩J…

整合Redis和RedisCacheManger

整合redis springboot在现在的版本中操作Redis数据库用到了lettuce&#xff0c;而不是Jedis&#xff0c;他们各有各的特点。Jedis以Redis命令作为方法名称&#xff0c;学习成本低&#xff0c;简单实用。但是Jedis实例是线程不安全的&#xff0c;多线程环境下需要基于连接池来使…