Q-Bench:一种用于低级别视觉通用基础模型的基准测试

news2024/10/7 10:17:41

1. 引言

多模态大语言模型(Multi-modality Large Language Models,后续简称多模态大模型)能够提供强大的通用级别视觉感知/理解能力,甚至可以通过自然语言与人类进行无缝对话和互动。虽然多模态大模型的这些能力已经在多个视觉语言任务中得到了探索和验证,例如图像字幕、视觉问题回答、跨模态关联,以及传统的视觉任务,如图像分类或分割,但大多数关注点都集中在对视觉内容的高级感知和理解上。与此同时,多模态大模型在 low-level 视觉感知和理解方面的能力仍然不清楚,这在图像质量评估(IQA)以及感知视觉失真(噪音、模糊)等相关任务上发挥着重要作用,以及其他 low-level 属性(颜色、光照、构图、风格等),这些属性可能与自然照片的美学和情感以及人们对新兴计算机图形生成或 AI 生成图像的偏好有关。

这些 low-level 视觉能力与广泛的应用密切相关,例如推荐、摄像系统指导,或视觉质量增强。因此,评估目前这些通用基础模型在 low-level 视觉感知和理解方面的能力至关重要,理想情况下,可以减轻大量人力资源为每个具体的 low-level 任务提供反馈。

1.1 定义多模态大模型的三个low-level能力

在这里插入图片描述

1.2 多模态大模型如何模拟与low-level视觉感知和理解相关的人类能力?

简单来说,答案是语言,这是多模态大模型的基本属性。具体而言,我们定义多模态大模型在low-level视觉方面的两种新兴语言能力如下:

能力1(A1):low-level 属性的感知。如图 1(a)所示,像人类一样,多模态大模型应该能够准确地回答与 low-level 属性相关的简单问题,例如在查询“这张图像清晰吗?”时回答“不清晰”。
能力2(A2):通过自然语言进行描述。如图1(b)所示,像人类一样,多模态大模型应该能够用自然语言描述图像的质量和其他low-level信息。这些描述应该既完整又准确。
能力3(A3):与人类意见一致的精确评估。如图 1©所示,多模态大模型应该能够为图像预测可量化的质量分数,这些分数可以与人类对 low-level 视觉外观的均值意见分数(MOS)一致。

本文主要贡献

  • 我们建立了一个关于多模态大模型 low-level 感知能力的基准。为了实现这一目标,我们构建了首个平衡且综合的 LLVisionQA数据集,其中包含 2,990 张图像,每张图像都配有一个与 low-level相关的问题和答案。LLVisionQA
    包括三种问题类型和四个 low-level 关注领域,以确保多样性。
  • 我们定义了一个基准流程,用于评估多模态大模型的 low-level 描述能力,其中包括一个包含 499 张图像的LLDescription 数据集,其中包含由专家标注的长篇的黄金质量描述,以及通过 GPT辅助评估多模态大模型描述的完整性、准确性和相关性,与黄金描述进行比较。
  • 为了评估精确的质量评估能力,我们提出了一种统一的基于 softmax
    的质量预测策略,适用于所有多模态大模型,基于它们的概率输出。通过我们的实验验证了该策略的有效性,该策略为通用多模态大模型与传统 IQA
    任务之间建立了桥梁,使它们可以输出可量化的图片质量分数。

2. 基准建构

2.1 感知能力

在这里插入图片描述

图2

在感知能力任务中,我们设计了一系列的判断题和选择题来对多模态大模型进行考察。问题的设计首先遵循 low-level 视觉关注领域的四象限原则:

第一个轴:失真vs其他 low-level 属性。

主要轴区分了两类 low-level 感知属性:
1)技术失真被视为直接降低图像质量的低 low-level 特征。
2)与审美相关的其他 low-level 属性,这些属性可被人类感知并引发不同的情感。

第二个轴:全局感知vs局部上下文感知。
在最近的 low-level 视觉研究中,观察到人类对 low-level 视觉的感知经常与更高级的上下文理解交织在一起。例如,晴朗的天空可能缺乏复杂的纹理,但其实是有很好的清晰度。鉴于这些差异,我们策划了局部上下文感知问题,要求多模态大模型正确把握内容的上下文或其他相关的上下文,以便正确回答问题,而其他问题则归于全局感知。

在 LLVisionQA 数据集中,我们策划了三种问题类型,即 Yes-or-No(是不是)、What(是什么)和 How(怎么样),以模拟真实人类的多种提问形式。

2.2 描述能力

在这里插入图片描述

图3

在描述任务中,我们评估多模态大 low-level 信息的语言描述能力。这个任务是 image captioning 的姊妹任务,用自然语言描述图像内容,特别关注图像的 low-level 外观。为了自动评估这种能力,我们首先创建了一个黄金 low-level 描述数据集,称为 LLDescribe,包括 499 张图像中的每张图像都由专家提供的一个长篇(平均40个字)黄金描述。有了这些黄金文本描述,我们能够使用单模态的 GPT 来衡量多模态大模型输出的 low-level 描述在三个维度上的质量:完整性、准确性以及相关性。

2.3 评估能力

在这里插入图片描述

图4

在 Q-Bench 中,我们旨在公平地比较不同多模态大模型在多样化的 low-level 外观上的评估能力。因此,我们的原则是为所有多模态大模型在所有 IQA 数据集上定义一个统一、最简单的指导原则。我们提出了一个基于 Softmax 的评估策略,将多模态大模型输出形容词的概率提取出来利用 softmax 来量化为质量分数。

我们也提供了一个简单的伪代码实现,仅9行,可适用于各种多模态大模型。

3. 实验展示

3.1 感知能力

在这里插入图片描述

图5

为了全面评估多模态大模型的感知能力,我们评估了多模态大模型在 LLVision 数据集的不同子类别上的多选正确性。我们很高兴看到大多数多模态大模型在所有子类别上都明显优于随机猜测。考虑到所有参与的大模型都没有接受任何关于 low-level 视觉属性的明确训练,这些结果表明了这些通用模型在进一步与相应的 low-level 数据集进行精细调整时具有强大的潜力。在所有方法中,基于 Flan-T5 的 InstructBLIP 在这个问答任务上达到了最高的准确性(比其 Vicuna-based 对应版本好5%)。另一个关键观察结果是,几乎所有方法在失真方面的感知能力都不如其他 low-level 属性。唯一的例外是 LLaMA-Adapter-V2,它是唯一采用多尺度特征作为视觉输入的多模态大模型。

3.2 描述能力

在这里插入图片描述

图6

就描述能力而言,mPLUG-Owl 是最平衡的,能够在所有三个维度上排名前三;Kosmos-2 获得了最高的总分,但相对较强的幻觉(低准确度)影响了它的综合能力。此外,我们注意到多模态大模型在不同维度上的能力差异很大。在完整性和准确性维度上,即使在所有多模态大模型中,最好的也无法获得很高的分数;相反,几乎所有大模型都达到了可接受的标准(0.8/2.0)。就相关性维度而言,一些大模型可以获得非常好的能力(Kosmos-2、Otter-v1),但另一方面,这些相关性最高的模型仍然在准确性方面表现不佳。总的来说,就提供 low-level 视觉描述而言,目前所有多模态大模型只具有相对有限的能力。

3.3 评估能力

在这里插入图片描述

图7

为了衡量评估能力,我们在 7 个 IQA 数据集上评估了 10 个多模态大模型的性能,这些数据集至少包含 1,000 张图像和每张图像 15 个人类评分(itu,2000)。主要地,我们注意到大多数大模型在非自然环境(CGI,AIGC,人工失真)下比 NIQE 更具鲁棒性,显示出它们在更广泛的 low-level 外观上具有通用评估器的潜力。此外,一些方法(例如,mPLUG-Owl)在没有在训练过程中明确与人类意见对齐的情况下,已经可以达到比大多数多模态大模型的视觉骨干 CLIP-ViT-Large-14 更好或类似的结果。然而,当前的多模态大模型在视觉质量评估任务中仍然不够稳定(例如,在LIVE-itw上的Otter-v1),且在细粒度的情况下(LIVE-FB,CGIQA-6K)表现较弱,这在未来可能会得到改善。

4. 结论

在这项研究中,我们构建了 Q-Bench,这是一个用于检验多模态大模型在 low-level 视觉能力方面的进展的基准。我们期望这些大型基础模型可以成为通用智能,最终能够减轻人类的努力,因此我们提出多模态大模型应该具备三种重要且不同的能力:对 low-level 视觉属性的准确感知、对 low-level 视觉信息的精确和完整的语言描述,以及对图像质量的定量评估。为了评估这些能力,我们收集了两个多模态的 low-level 视觉基准数据集,并提出了一个基于 Softmax 的统一的多模态大模型定量 IQA 策略。我们的评估证明,即使没有任何针对 low-level 的具体训练,一些杰出的多模态大模型仍然具有不错的 low-level 能力。然而,这些多模态大模型要成为真正可靠的通用 low-level 视觉助手还有很长的路要走。我们衷心希望 Q-Bench 中发现的观察结果可以激发未来的大模型增强 low-level 感知和理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1418084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解析PreMaint在石油化工设备预测性维护领域的卓越表现

石油化工行业一直在寻找能够确保设备高效运行的先进维护解决方案。在这个领域,PreMaint以其卓越的性能和创新的技术引起了广泛关注。 一、为何选择预测性维护? 传统的维护方法,基于固定的时间表,无法灵活应对设备的真实运行状况。…

金融行业现场故障处理实录

KL银行现场服务记录—HA故障 服务时间 2019年9月10日星期二 14:40 到2019年9月11日星期三 0:30 服务内容 排查redhat RHEL 6.4 一个节点cman启动故障。 (1)、查看系统日志; (2)、查看ha日志…

编程大侦探林浩然的“神曲奇遇记”

编程大侦探林浩然的“神曲奇遇记” The Coding Detective Lin Haoran’s “Divine Comedy Adventures” 在我们那所充满活力与创新精神的高职学院中,林浩然老师无疑是众多教师中最独特的一颗星。这位身兼程序员与心理分析专家双重身份的大咖,不仅能在电脑…

APPium简介及安装

1 APPium简介 1. 什么是APPium? APPium是一个开源测试自动化框架,适用于原生、混合或移动Web应用程序的自动化测试工具。 APPium使用WebDriver协议驱动iOS、Android等应用程序。 2. APPium的特点 支持多平台(Android、iOS等) …

浅谈楼房老旧的配电设备加装电能管理系统的方案

摘要:文章通过对大楼配电设备现状及电能管理系统的需求分析,提出了在大楼老旧配电设备中加装 电能管理系统的方法,包括方案配置、计量点选择、终端改造、数据通信、报表格式等。旨在供无计量 管理系统或仅有电力监控系统的配电系统中加装电能…

目标检测数据集制作(VOC2007格式数据集制作和处理教程)

VOC2007数据集结构(目标检测图像分割) #VOC2007数据集结构如下: VOC2007|-Annotations#里面存放的是每一张图片对应的标注结果,为XML文件,#标注完成后JPEGImages每张图片在此都有一一对应的xml文件|-ImageSets#存放的是…

论文笔记:TimeGPT-1

时间序列的第一个基础大模型 1 方法 最basic的Transformer架构 采用了公开可用的最大时间序列数据集进行训练,包含超过1000亿个数据点。 训练集涵盖了来自金融、经济、人口统计、医疗保健、天气、物联网传感器数据、能源、网络流量、销售、交通和银行业等广泛领域…

人工智能趋势报告解读:ai野蛮式生长的背后是机遇还是危机?

近期,Enterprise WordPress发布了生成式人工智能在营销中的应用程度的报告,这是一个人工智能迅猛发展的时代,目前人工智能已经广泛运用到内容创作等领域,可以预见的是人工智能及其扩展应用还将延伸到我们工作与生活中的方方面面。…

【C++】C++入门基础讲解(二)

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 导读 接着上一篇的内容继续学习,今天我们需要重点学习引用。 1. 引用 在C中,引用是一种特殊的变量&#xff…

成都直播产业园解析直播供应链金融服务,天府锋巢直播产业基地打造“金融+产业+生态”新型模式

天府锋巢直播产业基地如何打造“金融产业生态”新型模式? 本文将为您全面解析基地提供的成都直播产业园供应链金融服务 锋巢资讯~每周准时报道~~ 赶紧下拉,阅读全文 Q:企业入驻园区能获得哪些直播供应链金融服务&…

如何注册海外苹果账号下载软件?

国内的苹果Appstore有严格的上线审查,导致很多软件不支持。只能通过海外的苹果账号登录后下载。 比如chatgpt还有加密资产的大部分软件。 其实自己注册一个很简单。 一、注册国内Apple ID 打开苹果官网,https://appleid.apple.com 注册一个中国区的A…

【机器学习】正则化

正则化是防止模型过拟合的方法,它通过对模型的权重进行约束来控制模型的复杂度。 正则化在损失函数中引入模型复杂度指标,利用给W加权值,弱化了数据的噪声,一般不正则化b。 loss(y^,y):模型中所有参数的损失函数&…

【代码审计】小白友好的根据CNVD审计BEESCMS

BEESCMS源码下载 目录 ①BEESCMS后台登录存在SQL注入漏洞(CNVD-2020-62375) ②BEESCMS存在任意文件删除漏洞(CNVD-2020-33193) ③BEESCMS存在文件上传漏洞(CNVD-2018-18082) ④BEESCMS企业网站管理系统存在文件包含漏洞(CNVD-2020-64781) ①BEESCMS后台登录存在SQL注入漏洞…

Python接口自动化框架设计到开发

1.如何设计一个接口自动化测试框架 根据接口地址、接口类型、请求数据、预期结果来进行设计,对于需要登录后才能进行操作的接口那么则需要进行header cookie等数据的传递,自动化测试的难点就是数据依赖。 2.python操作excel获得内容 首先python操作exce…

SSL加密证书免费申请

首先,让我们来了解一下SSL证书的基本作用。SSL证书通过公钥和私钥的非对称加密技术,使得服务器与浏览器之间的通信内容得到高强度加密,同时验证网站的真实身份,从而提升用户的信任度,也是搜索引擎排名优化的一个重要因…

JSP和JSTL板块:第一节 JSP追根溯源 来自【汤米尼克的JAVAEE全套教程专栏】

板块一 JSP和JSTL:第一节 JSP主要内容 一、什么是JSP二、IDEA的JSP相关配置1.UTF-8编码2.JSP代码模板 三、JSP的底层是Servlet四、Jsp的注释1.显式注释2.隐式注释 五、Scriptlet : 写在Jsp里的java脚本段 一、什么是JSP JSP: Java Server Page。SUN 公司提供的动态…

C语言实现快速排序算法(附带源代码)

快速排序 在区间中随机挑选一个元素作基准,将小于基准的元素放在基准之前,大于基准的元素放在基准之后,再分别对小数区与大数区进行排序。 动态效果过程演示: 快速排序(Quick Sort)是一种常用的排序算法&…

响应式Web开发项目教程(HTML5+CSS3+Bootstrap)第2版 例5-3 getBoundingClientRect()

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>getBoundingClientRect()</title> </head> <script>function getRect(){var obj document.getElementById(example); //获取元素对象var objR…

路灯哪个牌子好?五款好用新年台灯推荐

自从娃进入小学&#xff0c;学习和视力是群里妈妈们永远不变的两大话题&#xff0c;特别是视力话题&#xff0c;常常能炸出“深潜”已久的爸爸们加入讨论。最近这几年&#xff0c;孩子的近视率又提高了&#xff01;根据国家卫健委的报道&#xff0c;儿童青少年近视总体发生率高…

Walrus 0.5发布:重构交互流程,打造开箱即用的部署体验

开源应用管理平台 Walrus 0.5 已于近日正式发布&#xff01; Walrus 0.4 引入了全新应用模型&#xff0c;极大程度减少了重复的配置工作&#xff0c;并为研发团队屏蔽了云原生及基础设施的复杂度。Walrus 0.5 在这一基础上&#xff0c;通过重构交互流程、增强抽象能力&#xff…