哪个视觉语言模型更优?InstructBLIP、MiniGPT-4?全面评估基准LVLM-eHub告诉你

news2025/1/15 6:40:06

图片

 夕小瑶科技说 原创
 作者 | 王思若

LLaMA、GPT-3等大型语言模型实现了对自然语言强大的理解和推理能力,为AI社区构筑了强大的语言基座模型。进而,继续迭代的GPT-4,更是赋予了模型处理图像的视觉能力。

如今,构建强大的多模态模型已经成为了社区的共识,BLIP2、LLaVA、MiniGPT-4、mPLUG-Owl、InstructBLIP等大量的视觉语言模型(Vision-Language Models,LVLMs)犹如井喷式被相继提出。

现有视觉语言模型是否真正对齐了图像和文本模态呢?究竟哪种视觉语言模型能力更优秀呢?

现有视觉语言模型孰强孰弱无疑是研究者关注的焦点,上海人工智能实验室构建了评估基准LVLM-eHub对包括InstructBLIP和MiniGPT-4等八种视觉文本模型进行了综合性评估。

研究发现,现有的如InstructBLIP等指令微调视觉语言模型,严重过拟合于现有任务,在真实场景中的泛化能力表现很差。此外,模型极容易出现对象幻觉问题,生成图像中并未出现的物体描述。

 大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!

论文题目:
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models

论文地址:
https://arxiv.org/pdf/2306.09265.pdf

一、构建六类多模态定量性能评估数据集,并搭建模型互动评测平台

LVLM-eHub由定量能力评估和在线互动评测平台组成,具体来说,一方面定量能力评估在47个标准视觉语言基准数据集上广泛评估LVLM在视觉感知、视觉知识获取、视觉推理、视觉常识、对象幻觉和具身智能6类多模态能力。

另一方面,搭建在线互动评测平台以众包的方式对视觉语言模型进行匿名随机成对对战,在开放世界的问答场景中提供用户层面的模型排名。

图片

视觉感知: 视觉感知是识别图像中的场景或物体的能力,是人类视觉系统的初级能力。包括图像分类任务,多类识别和物体计数任务。

视觉知识获取: 视觉知识获取需要超越感知来理解图像并获取知识。包括光学字符识别、关键信息抽取和图像描述任务。

视觉推理: 视觉推理需要全面理解图像及相关文本。为评估LVLM的视觉推理能力,包括三个任务,包括视觉问答(VQA)、视觉蕴含和基于知识的图像描述任务。

视觉常识: 这项评估通过使用ImageNetVC和视觉常识推理(VCR)来测试模型对通用共享人类知识的理解。具体来说,ImageNetVC用于零样本视觉常识评估,如颜色和形状,而VCR涵盖各种场景,如空间、因果和心理常识。

对象幻觉: 视觉语言模型存在对象幻觉问题,即生成的描述对象与目标图像不一致,本文在MSCOCO数据集上评估视觉语言模型的对象幻觉问题。

具身智能: 具身智能旨在创建人形机器人,并让他们学习解决需要环境交互的复杂任务,本文利用EmbodiedGPT中的高级任务作为基准。

本文调查视觉语言模型在各类新任务上的零样本能力来评估上述六类能力,具体而言,本文将零样本评估视为不同任务形式的提示工程:

  • 问答:设计适当的视觉问题提示来确保视觉语言模型生成有意义的结果,例如,“what is written in the image” 来作为OCR任务的文本提示。

  • 基于前缀的分数:对于多选选择任务,对给定图像一定的视觉提示,让模型生成图像和文本的似然度,把生成最大似然度结果的视觉提示作为答案。

  • 多轮推理:利用诸如ChatGPT之类的LLM为给定问题生成子问题,视觉语言模型提供相应的子答案,另一个LLM评估子答案的质量。通过这样的流程迭代进行,直到获得满意的答案或达到预定义的最大迭代次数。

  • 用户投票:让人类评估视觉语言模型在特定上下文中生成文本的质量、相关性和有用性。为了保持评估的公平性,本文会在评估过程中随机打乱模型输出顺序并对输出进行匿名化。

更有意思的,研究还搭建了视觉语言模型互动评测平台,让模型按照锦标赛的形式进行配对,用户可以使用图像和文本输入分别和配对的模型就任何话题进行聊天,模型真实世界的条件。在聊天阶段之后,用户为模型进行投票,让用户作为裁判,这可以带来比传统评估指标更有说服力的评估结果。

让多模态模型来一场‘宝可梦世界锦标赛’,就是你了,皮卡丘,LLaVA模型~

图片

二、现有视觉语言模型的测评结果

文章对8个代表性模型进行了测评,包括BLIP2,LLaVA,LLaMA-Adapter V2,MiniGPT-4,mPLUG-Owl,Otter,InstructBLIP和VPGTrans。

各大模型在六大类任务上都取得了相对不错的零样本能力,尤其是InstructBLIP更是近乎在所有任务取得了远超其他模型的性能表现。

图片

InstructBLIP在各种任务上都取得了远超其他模型的性能表现

但作者悲观的指出,这种优越的性能表现究其原因是模型过拟合的表现。

一方面,InstructBLIP在160万VQA数据集上进行了指令微调,远超过其他视觉语言模型,因此,在现存的in-domain任务中定量评估中表现及其良好,另一方面,在接近真实场景的在线互动评测中,反而InstructBLIP要比其他模型差很多,反而mPLUG-Owl和MiniGPT-4性能表现最好。

图片

8大视觉语言模型的指令微调数据集

图片

InstructBLIP在接近真实场景的在线互动评测中,表现很差,反而其他的例如mPLUG-Owl, MiniGPT-4, Otter等模型性能表现不错。

好消息,更大规模的指令微调数据集可以提升模型在in-domain任务上的性能表现,但坏消息,模型对这些数据验证过拟合了,因此,如何构建强大以及更广泛通用性的视觉语言模型依然有很长的路去走!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/960968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有源医疗器械技术要求编写要求之附录内容

目录 一、附录A中主要安全特征内容 二、附录内容简介 1、按防电击类型分类: 2、按防电击的程度分类: 3.按对进液的防护程度进行分类: 4.按在与空气混合的易燃麻醉气或与氧或氧化亚氮混合的易燃麻醉气况下使用时的安全程度分类: 6.设备的额定电压和频率 7.设备的输入功率…

QT 发布软件基本操作

一、配置环境变量 找到Qt安装时的bin目录的路径:D:\Qt\Qt5.14.2\5.14.2\mingw73_64\bin,将目录拷贝至下述环境变量中。 打开计算机的高级系统设置 选中环境变量-->系统变量-->Path 点击编辑-->新建-->粘贴 二、生成发布软件的可执行程序 …

【Python从入门到进阶】34、selenium基本概念及安装流程

接上篇《33、使用bs4获取星巴克产品信息》 上一篇我们介绍了如何使用bs4来解析星巴克网站,获取其产品信息。本篇我们来了解selenium技术的基础。 一、什么是selenium? Selenium是一种用于自动化Web浏览器操作的开源工具。它提供了一组API(应…

SpringBoot——整合Mongodb

简单介绍 Mongdb是一个开源,高性能,无模式的文档型数据库,NoSQL数据库产品中的一种,是最像关系型数据库的非关系型数据库。 使用场景 用户数据 存储位置:数据库特征:永久性存储,修改频率极低游…

【C++】C++ 引用详解 ⑩ ( 常量引用案例 )

文章目录 一、常量引用语法1、语法简介2、常引用语法示例 二、常量引用语法1、int 类型常量引用示例2、结构体类型常量引用示例 在 C 语言中 , 常量引用 是 引用类型 的一种 ; 借助 常量引用 , 可以将一个变量引用 作为实参 传递给一个函数形参 , 同时保证该值不会在函数内部被…

可观测性用观测云,观测云护航「杭州亚运会」

2023 年亚洲运动会定于 2023 年 9 月 23 日至 10 月 8 日在中国杭州举办,这是在党的二十大召开后,我国疫情防控措施优化调整后举办的最大规模、最高水平的国际综合性运动会,意义十分重大。杭州亚组委以「举办一届史上最成功的亚运会」为工作目…

【0901作业】QTday3 对话框、发布软件、事件处理机制,使用文件相关操作完成记事本的保存功能、处理键盘事件完成圆形的移动

目录 一、思维导图 二、作业 2.1 使用文件相关操作完成记事本的保存功能 2.2 处理键盘事件完成圆形的移动 一、思维导图 二、作业 2.1 使用文件相关操作完成记事本的保存功能 void Widget::on_saveBtn_clicked() {QString filename QFileDialog::getSaveFileName(this,&…

MySQL数据库学习【进阶篇】

MySQL数据库学习进阶篇 MySQL进阶篇已经更新完毕,点击网址查看👉:MySQL数据库进阶篇

【点击checkbox复选框,显示or隐藏某区域】

功能&#xff1a; 1. 选中复选框&#xff0c;显示隐藏的区域&#xff1b; 2. 取消选中&#xff0c;再隐藏该显示的区域。 方法1&#xff1a;在layui jquery框架下 代码如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta char…

接口测试系列 —— 什么是接口测试?

接口测试系列 为什么要做这个事情&#xff1f; 对自己过往在接口测试上的经验&#xff0c;写一个小结的系列文章&#xff0c;是一个系统性的思考和知识构建。发布的同时&#xff0c;也是希望获得更多感兴趣的同学的意见和反馈&#xff0c;可以把这个部分做的更好。 接口测试概…

充电比加油还快?一秒一公里,全液冷超充项目试点,5 年全覆盖?

华为中国数字能源旗舰峰会广西站在桂林举行&#xff0c;标志着桂林在数字能源领域的迈进。与此同时&#xff0c;桂林市和华为数字能源展开了合作&#xff0c;启动了全液冷超充示范项目&#xff0c;为城市的电动车充电基础设施添砖加瓦。 根据华为数字能源技术有限公司副总裁何波…

如何解决微信收款异常问题

一、自查原因 当您遇到微信收款异常问题时&#xff0c;首先需要了解异常的原因。可能的原因包括违反微信支付相关规定、存在异常交易行为、账户安全问题等。了解原因后&#xff0c;您可以采取相应的措施进行处理。 二、联系客服 您可以通过微信支付官方客服渠道咨询具体的问题&…

Is f(z)=1/z truly an analytic function

https://math.stackexchange.com/questions/755566/is-fz-1-z-truly-an-analytic-function

react快速开始(三)-create-react-app脚手架项目启动;使用VScode调试react

文章目录 react快速开始(三)-create-react-app脚手架项目启动&#xff1b;使用VScode调试react一、create-react-app脚手架项目启动1. react-scripts2. 关于better-npm-runbetter-npm-run安装 二、使用VScode调试react1. 浏览器插件React Developer Tools2. 【重点】用 VSCode …

Mediasoup在node.js下多线程实现

mediasoup基于socket.io的交互消息来完成join-room的请求过程。Join的过程&#xff0c;实际就是获取stream的过程&#xff0c;也就是视频加载时间(video-load-speed)。在RTMP系统&#xff0c;视频加载时间是秒开。Mediasoup给出的第一个frame是I-frame&#xff0c;但由于交互的…

web服务基础以及简单的站点应用部署

一、 简述静态网页和动态网页的区别。 静态网页&#xff1a; 优势&#xff1a; ①访问的效率比较高 ②网页内容是固定不变的&#xff0c;因此&#xff0c;容易被搜索引擎收录 ③网页程序在用户浏览器端解析&#xff0c;当客户端向服务器请求数据时&#xff0c;服务器会直接从磁…

2001-2021年中国城市分产业创新指数(574万+)

2001-2021年中国城市分产业创新指数&#xff08;574万&#xff09; 1、时间&#xff1a;2001-2021年 2、来源&#xff1a;中国城市和产业创新力报告 3、指标&#xff1a;包括城市创新指数、产业创新指数、城市-产业创新指数 4、整理方式&#xff1a; 整理方式是基于国家知…

【重要】Nand Flash基础知识与坏块管理机制的介绍

概述 Flash名称的由来&#xff0c;Flash的擦除操作是以block块为单位的&#xff0c;与此相对应的是其他很多存储设备&#xff0c;是以bit位为最小读取/写入的单位&#xff0c;Flash是一次性地擦除整个块&#xff1a;在发送一个擦除命令后&#xff0c;一次性地将一个block&…

javaee spring 测试aop 切面

切面类 package com.test.advice;import org.aspectj.lang.ProceedingJoinPoint;//增强类 public class MyAdvice {//将这个增强方法切入到service层的add方法前public void before(){System.out.println("添加用户之前");}}目标类 package com.test.service;publi…

怎样获取百度网盘的 “access_token“

怎样获取百度网盘的 “access_token” 文中AppKey、AppID&#xff0c;需要进入百度网盘开放平台 (baidu.com) 申请加入——>开发者认证——>创建应用&#xff0c;然后就有了 授权码模式获取 授权码模式 (baidu.com) # 这是官方网站&#xff0c;我看官方文件的时候&…