Blink基准测试:挑战多模态大型语言模型的视觉感知能力

news2024/11/16 1:30:04

随着人工智能技术的飞速发展,多模态大型语言模型(LLMs)在理解和生成文本方面取得了显著成就。然而,这些模型在核心视觉感知任务上的表现仍远落后于人类。本文介绍了Blink基准测试,这是一套针对多模态LLMs的视觉感知能力的新测试,旨在评估那些在其他评估中未被充分测试的能力。即使是最先进的模型,如GPT-4V和Gemini,在Blink上的表现也远低于人类水平,这表明当前的多模态LLMs在视觉感知方面还有很大的提升空间。

上图展示了Blink基准测试的概览,包含14个视觉感知任务的示例,这些任务对人类来说可以迅速解决,但对当前的多模态LLMs构成挑战。这些任务受经典计算机视觉问题的启发,并被重新构为多项选择题,供多模态LLMs回答。

Blink基准测试的设计初衷是评估多模态LLMs在核心视觉感知任务上的表现,这些任务通常对人类来说易如反掌,但对机器来说却颇具挑战。Blink的独特之处在于其多样化的视觉提示,它不仅仅局限于文本提示,还包括了圆形、方框和遮罩等多种视觉元素,这些视觉提示有助于模型集中注意力并深入理解图像的特定区域。

Blink的另一个显著特点是其超越了单纯的视觉识别能力,它涵盖了3D推理、几何理解、功能推理等一系列复杂的视觉感知能力。这些能力对于机器来说至关重要,因为它们涉及到对场景的深入理解和解释。

Blink中的问题被设计为不需要特定领域知识即可解答,这些问题对人类而言是“视觉常识”,可以在几秒内解决。这样的设计使得Blink能够直接评估机器与人类在视觉感知方面的基础差异。

Blink采用了交错的图像-文本格式,问题和选项可以是图像或文本形式,这种多样性要求模型真正理解问题并推动了模型解释能力的边界。

上图对比了Blink和其他现有基准测试的特点。展示了Blink在视觉提示、感知能力评估、常识问题以及图像-文本格式方面的新颖性:

  1. 多样化的视觉提示:Blink 包含多种视觉提示,如圆形、方框和图像遮罩,而以前的基准测试只有文本问题和答案。
  2. 全面评估视觉感知能力:Blink 评估了更广泛的视觉感知能力,如多视图推理、深度估计和反射率估计。相比之下,先前的基准测试通常更侧重于基于识别的视觉问答(VQA)。
  3. 视觉常识问题:Blink 包含了人类可以在几秒钟内回答的“视觉”常识问题,而以前的一些基准测试(如文献[87])需要领域知识。

Blink的数据来源非常广泛,它包括了从室内家居场景到室外城市或自然环境的多样化图像。这些图像既有抽象的图表,也有合成图像和真实照片,确保了评估的全面性。

上图展示Blink 基准测试中包含的14个任务的统计数据。Blink基准测试中的14个任务是从经典的计算机视觉问题中提取并重新构想为多项选择题。这些任务覆盖了从像素级别的模式匹配到图像级别的高级视觉理解。例如,视觉对应任务评估模型理解和识别不同视角、光照条件或时间下相同场景点的能力;相对反射率任务则评估模型对材料属性及其与光相互作用的理解。

为了构建Blink,研究者们从多个现有视觉数据集中提取图像,并收集了新的数据。他们精心挑选了图像,确保所有测试样本都具有独特的图像。这些图像和问题来源于不同的数据集,或由人类手动编写,以确保问题的多样性和挑战性。

在数据质量控制方面,研究者们手动检查了所有收集的数据,并筛选出了不明确的数据,以保证Blink数据集的质量。这个过程确保了Blink基准测试能够提供准确和有意义的评估。通过Blink,研究者们可以更深入地了解现有模型的局限性,并探索提高机器视觉感知能力的新途径。

实验中所选用的多模态LLMs是当前技术前沿的代表,它们包括但不限于GPT-4V和Gemini Pro等模型。这些模型的规模不同,从几亿参数到几十亿参数不等,旨在探索模型规模与视觉感知能力之间的关系。评估协议遵循了标准化的流程,确保了实验结果的可比性和公正性。数据集方面,Blink基准测试采用了精心挑选和设计的图像和问题。这些问题被构造为多项选择题,以便模型能够从中选择最合适的答案。图像和问题的设计覆盖了广泛的视觉感知任务,确保了评估的全面性和挑战性。

实验的过程开始于将这些多模态LLMs暴露于Blink基准测试的数据集之中。模型需要处理图像、理解问题,并从给定的选项中选择最合适的答案。这一过程模拟了人类在面对视觉信息时的快速决策和理解能力。在实验中,模型的性能通过准确率来衡量,即模型选择正确答案的频率。为了确保评估的严谨性,实验重复了多次,并采用了不同的图像和问题组合。

实验结果显示,尽管人类在Blink基准测试上的平均准确率高达95.70%,但现有的多模态LLMs在这些任务上的表现却远未达到人类的水平。例如,即使是表现最好的GPT-4V模型,其准确率也仅为51.26%,仅比随机猜测的准确率高出13.17%。这一结果揭示了现有模型在视觉感知方面存在的显著差距。

上图展示了多模态大型语言模型(LLMs)在 Blink 测试集上的准确率。

上图展示了 Blink 基准测试的定性结果。在这个图表中,研究者比较了不同的多模态大型语言模型(LLMs)如 LLaVA v1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V 以及人类在各项任务中的表现。图中的红色选择表示正确答案或地面真实情况(ground truth)。为了可视化的目的,标记被特意放大,并且一些图像被嵌入以节省空间。对于智商测试(IQ test),第三张图像是通过叠加第一张和第二张图像来构建的。

实验结果还揭示了不同模型在不同任务上的表现差异。一些模型在特定任务上表现出了相对的优势,如在空间推理或艺术风格识别任务上。然而,在像素级别和图像区域级别的任务上,所有模型都面临了更大的挑战。

上表提供了不同模型在Blink测试集上的性能结果,包括随机选择、人类表现以及不同模型的准确率。

结果表明,尽管这些模型在某些视觉任务上取得了进展,但它们在理解和处理复杂视觉信息方面仍有很大的提升空间。这一发现为未来的研究提供了明确的方向,即需要进一步改进模型的感知能力,以便它们能够更好地模拟人类的快速和准确的视觉处理能力。

Blink基准测试为多模态LLMs提供了一个简单而有效的测试平台,以评估和提升其视觉感知能力。通过这一基准测试,我们期望能够激发社区的进一步研究,帮助多模态LLMs逐步达到人类级的视觉感知水平。

论文链接:https://arxiv.org/abs/2404.12390

项目地址:https://zeyofu.github.io/blink/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1717368.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode:寻找两个正序数组的中位数

题目链接:4. 寻找两个正序数组的中位数 - 力扣(LeetCode) 题目分析 1、当只有一个有序数组时,该数组的中位数会将该数组分为两份:左子数组 和 右子数组 2、当有两个有序数组时, 我们仍然可以通过一条分隔…

第5章 锁与进程间通信(3)

目录 5.4 其他IPC机制 5.4.1 信号 5.4.2 管道和套接字 5.5 小结 本专栏文章将有70篇左右,欢迎关注,查看后续文章。 5.4 其他IPC机制 5.4.1 信号 kill命令: 作用:发送指定信号。 信号分为: 传统32个信号。 用于实…

【机器学习】Samba-CoE实现高效推理部署

Samba-CoE:突破AI内存墙,实现高效推理部署 一、引言二、Samba-CoE系统概述三、突破AI内存墙的关键技术流数据流三层内存系统 四、Samba-CoE的推理部署与优化动态模型切换资源优化分配性能加速 五、代码实例与实现细节六、结语 一、引言 随着人工智能技术…

es的总结

es的collapse es的collapse只能针对一个字段聚合(针对大数据量去重),如果以age为聚合字段,则会展示第一条数据,如果需要展示多个字段,需要创建新的字段,如下 POST testleh/_update_by_query {…

2024-05-31 blue-VH-driver-问题分析-有状态的服务-状态的处理

摘要: VH的driver对上层提供的接口,是会保持状态。这个状态,可以分为,查询的数据的状态,主要是为了提供翻页查询的功能。另一种状态,就是订阅。 有状态的服务: 状态是什么? 其实从调用方的角度更好的理解&#xff0c…

AIGC绘画设计——Stable Diffusion进阶使用

本文讲解,模型底模,VAE美化模型,Lora模型,hypernetwork。 文本Stable Diffusion 简称sd 欢迎关注留言,不定期追加更新! 使用模型 C站:https://civitai.com/ huggingface&#…

快团团大团长帮卖团长团长如何获得物流查询码?

一、功能说明 团长可自行生成物流查询码,直接将码发给顾客,顾客扫码可查询自己订单的物流状态! 用户扫码后,会出现用户在该团长处下单的所有快递订单。团员可查看该订单物流信息、进行退款申请,或直接联系团长。 二…

使用Python爬取华为市场游戏类APP应用

文章目录 1. 写在前面2. 接口分析3. 爬虫开发4. 下载链接获取 【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守…

摘下戛纳大奖的《狗阵》,救得了华谊吗?

随着第77届戛纳国际电影节成功落幕,《狗阵》无疑成为了华语电影的最大赢家。 今年的戛纳电影节可以说是华语电影大年,《风流一代》《狗阵》《酱园弄》《九龙城寨之围城》等多部重量级影片亮相戛纳。 但最终抱得奖项而归的只有管虎导演的《狗阵》&#…

长虹55D3P海思平台固件破解

一 、背景 目前网上还没有长虹海思平台智能电视的固件打包解包教程,仅有一个znds的解包,但大佬迟迟没更新打包教程和工具。帖子中也没讲解解包的原理,对于不熟悉海思平台的来说,感觉无从下手。 znds海思解包贴:#长虹…

Vue 2.0使用Vue-count-to给数字添加增长动画

在开发后台管理系统时,时常会遇到数据汇总,为了页面展示更生动,用户体验更好,通常会对汇总的数字加一个逐步递增动画。 实现这个效果一般是用的 Vue-count-to这个插件,这是一款简单好用的一个数字滚动插件,…

3D视觉系统实现自动化上下料操作

在竞争激烈的汽车制造行业,提高生产效率、降低成本并保证产品质量是企业持续发展的关键。特别是在汽车制造过程中,各种零部件的上下料操作占据了大量的生产时间,因此如何实现这些操作的自动化、高效化成为了一个亟待解决的问题。 富唯智能3D视…

157.二叉树:二叉树的右视图(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* Tre…

【C++修行之道】类和对象(二)类的6个默认成员函数、构造函数、析构函数

目录 一、类的6个默认成员函数 二、构造函数 2.1 概念 2.2 特性 2.2.5 自动生成默认构造函数 不进行显示定义的隐患: 2.2.6 自动生成的构造函数意义何在? 两个栈实现一个队列 2.2.7 无参的构造函数和全缺省的构造函数都称为默认构造函数&#x…

pycharm 上一次编辑位置不见了

目录 pycharm2024版 上一次编辑位置不见了,研究发现移到了左下角了,如下图所示: 上一次编辑位置快捷键: pycharm2024版 上一次编辑位置不见了,研究发现移到了左下角了,如下图所示: 上一次编辑…

Minio篇:初识MinIO

1. MinIO快速入门 1.1.MinIO核心概念 下面介绍MinIO中的几个核心概念,这些概念在所有的对象存储服务中也都是通用的。 对象(Object) 对象是实际的数据单元,例如我们上传的一个图片。 存储桶(Bucket) 存储…

不同linux账户切换不同的cuda版本

原因 由于服务器中安装了两个版本的cuda(cuda10.1和cuda11.1),不同项目可能需要应用不同的cuda版本,但是自己又没有root权限或者只想在使用指定conda环境时改为用指定的cuda版本。总结起来有三种方法: 1、修改软链接指…

原生小程序一键获取手机号

1.效果图 2.代码index.wxml <!-- 获取手机号 利用手机号快速填写的功能&#xff0c;将button组件 open-type 的值设置为 getPhoneNumber--><button open-type"getPhoneNumber" bindgetphonenumber"getPhoneNumber">获取手机号</button> …

Javaweb基础之Cookie会话技术

大家好&#xff0c;这里是教授.F 引入&#xff1a; 我们想在登录一个网站时&#xff0c;能够显示我们上一次的登录时间啊&#xff0c;或者我们在该网站的浏览痕迹。哪这些要怎么做到&#xff1f;我们想&#xff0c;这些数据不可能从服务端给你返回来&#xff0c;因为一旦用户…

Line Worker(流水线工人休闲游戏模板)

您是地狱工厂的流水线工人。您的工作是在产品不断流动的情况下,将有缺陷的产品与合格产品区分开来。通过点击左右键来保留合格产品并丢弃不合格产品。错误太多,您将被解雇!《流水线工人》是一款有趣、轻松、超级休闲的游戏,适合所有年龄段的人! 亮点: - 上瘾的超休闲游戏…