BRAVE:扩展视觉编码能力,推动视觉-语言模型发展

news2024/11/26 15:41:37

视觉-语言模型(VLMs)在理解和生成涉及视觉与文本的任务上取得了显著进展,它们在理解和生成结合视觉与文本信息的任务中扮演着重要角色。然而,这些模型的性能往往受限于其视觉编码器的能力。例如,现有的一些模型可能对某些图像特征视而不见,或者在处理图像时产生视觉幻觉,这些局限严重制约了VLMs在复杂场景中的应用。

BRAVE方法正是为了解决这些问题而诞生的。它通过结合多个具有不同视觉偏好的视觉编码器,拓宽了模型对视觉信息的编码能力。与传统的单一编码器方法相比,BRAVE能够捕获更加丰富和多样化的视觉特征,从而显著提升了模型在图像描述和视觉问答等任务上的性能。BRAVE通过使用参数高效的微调技术,减少了模型训练时所需的参数数量,同时保持了紧凑的模型表示,这不仅提高了模型的效率,也增强了模型对不同类型输入的泛化能力。通过这种方式,BRAVE为构建更加健壮和高效的视觉-语言模型提供了新的可能性。

BRAVE如何通过结合多个视觉编码器的特征来扩展VLMs的视觉能力。左侧部分通过示例图片展示了现有方法(如InstructBLIP和LLaVA-1.5)与BRAVE的区别。右侧部分展示了BRAVE在多个任务上达到的最新性能水平

不同视觉编码器对视觉-语言任务性能的影响

先来看看视觉-语言模型(VLM)的基本架构。在VLM中,一个冻结的视觉编码器与一个冻结的语言模型通过一个带有可训练参数的桥接网络连接。这个桥接网络通常采用特定的模块(例如Q-Former),它能够将视觉特征重新采样到固定长度的输出,然后将其输入到语言模型中。

作者评估的8种不同视觉编码器的详细信息,包括它们的参数量、训练数据和目标。

具有不同偏好的视觉编码器,例如CLIP、OpenCLIP、EVA-CLIP等。这些编码器虽然都使用基于Vision Transformer(ViT)的骨干网络,但在训练数据、训练目标和模型大小方面存在差异。这些差异导致每个编码器具有不同的视觉偏好,可能捕获场景的不同方面。

对于预训练数据和目标对VLM性能的影响研究者们使用WebLI数据集对Q-Former进行预训练,并使用WebLI中的alt-text作为目标进行训练。在标准的图像描述和VQA任务上评估了得到的VLMs。他们使用了COCO图像描述基准,并在Karpathy训练集上进行了微调。对于VQA任务,他们遵循标准实践,并在VQAv2和OKVQA的数据集上进行了微调。

不同视觉编码器在COCO图像描述、VQAv2、OKVQA、GQA和MMVP等任务上的性能比较

在不同视觉编码器下的VLMs性能如下:

  • 不同编码器的偏好可以导致相似的性能水平,表明没有单一编码器在所有任务中始终保持最佳性能。
  • 在MMVP基准测试中,大多数编码器的性能都低于随机猜测的准确率,表明这对所有编码器来说仍然是一个挑战。
  • 在需要组合推理和开放世界知识的任务上,VLMs的性能有所下降,性能差距也随之缩小。
  • 通过增加视觉编码器的大小可以提高性能,这在ViT-e的性能提升中得到了体现。
  • 预训练数据的分布对VLM性能有重要影响,例如OpenCLIP-G/14模型虽然比CLIP-L/14模型大,但在大多数评估的VQA和图像描述任务中表现不佳,这表明训练目标和数据集对VLM性能都有重要影响。

如何通过BRAVE方法有效地结合多个视觉编码器,以增强视觉-语言模型(VLMs)的性能和鲁棒性

尽管现有的VLMs在多种视觉-语言任务上取得了进展,但它们仍然受限于单一视觉编码器的能力。为了解决这个问题,BRAVE提出了一种新颖的方法,通过结合多个具有不同视觉偏好的视觉编码器,来拓宽模型的视觉编码能力。这种方法的动机是,不同的编码器可以捕获图像的不同方面,通过整合这些编码器,模型能够获得更全面的图像理解。

BRAVE框架的架构,特别是多编码器查询变换器(MEQ-Former)如何接受文本提示和可学习查询作为输入,并与不同视觉编码器的特征进行交叉注意

在BRAVE架构中,图2展示了一个创新的系统设计,旨在通过结合多个视觉编码器(VEs)和语言模型(LM)来增强视觉-语言模型的能力。在左侧的描述中,我们看到所有的视觉编码器和语言模型在预训练后都被冻结,即它们的参数不再更新。这是为了保持模型的稳定性,并减少进一步训练所需的计算资源。通过使用线性投影层,系统能够将来自K个不同VEs的特征序列化并串联起来,例如K=5,系统同时考虑五个编码器的输出。

紧接着,MEQ-Former(多编码器查询变换器)发挥了关键作用。它接受一组可学习的查询和描述任务的文本提示作为输入,并通过交叉注意力机制对串联的特征进行有效重采样,生成固定长度的输出。这一步骤至关重要,因为它能够整合多样化的视觉信息,并将其转化为对语言模型有用的形式。

在右侧的描述中,MEQ-Former的详细架构被展示出来,它包含N=12个变换器层。这些层与串联的视觉特征进行交云注意力交互,产生一个固定长度的输出,这个输出随后被用作软视觉提示,输入到冻结的语言模型中。这种设计不仅提高了模型处理视觉信息的能力,而且还保持了参数的高效性,因为BRAVE的可训练参数总数仅为116M,大约是模型总参数量的1%。

BRAVE的核心是多编码器查询变换器(MEQ-Former),这是一个轻量级的变换器模块,它能够接受来自不同视觉编码器的特征,并将其整合成一个固定长度的视觉表示。MEQ-Former通过交叉注意力机制与输入的文本提示以及可学习的查询向量相互作用,有效地重采样和整合视觉特征。

在预训练阶段,研究者们只训练MEQ-Former的参数,而保持所有视觉编码器和语言模型冻结。这种策略显著减少了预训练所需的可训练参数数量。在微调阶段,MEQ-Former可以根据下游任务的需要进行微调,以进一步提高模型的性能。BRAVE不仅可以应用于现有的视觉编码器,还可以轻松地整合新的编码器,以适应不断变化的视觉-语言任务需求。BRAVE的设计允许它在未来的研究中进一步扩展,例如结合更多模态的信息或处理多帧输入。

实验

研究者们使用了包括COCO图像描述和多个VQA数据集在内的标准基准测试,以及针对视觉幻觉和长尾视觉概念的鲁棒性测试。

用于评估VLMs的不同任务,包括图像描述和视觉问题回答(VQA)任务

在性能评估部分,研究者们展示了BRAVE在图像描述和VQA任务上的结果。他们将BRAVE与其他最先进的方法进行了比较,包括单一视觉编码器的方法和一些集成方法。结果表明,BRAVE在多个任务上都取得了显著的性能提升,证明了其在视觉-语言任务上的优越性。

BRAVE与不同视觉编码器在MMVP基准测试中的预测结果对比,突出了BRAVE在处理具有语义差异的图像对时的一致性和鲁棒性

为了测试BRAVE的鲁棒性,研究者们在POPE和MMVP等具有挑战性的数据集上进行了评估。这些数据集旨在测试模型对于视觉幻觉和难以区分的图像对的处理能力。BRAVE在这些测试中表现出了良好的鲁棒性,即使在面对困难的样本时也能保持较高的准确率。

在消融研究中,研究者们通过一系列的实验来分析不同组件对BRAVE性能的贡献。他们探讨了不同视觉编码器的组合、MEQ-Former的不同变体、以及预训练数据集大小对模型性能的影响。这些实验结果帮助研究者们理解了BRAVE的关键优势,并为进一步优化提供了方向。

对BRAVE不同设计选择的消融研究结果,包括语言模型微调、合成VQA数据的使用、编码器dropout等对性能的影响

基于BRAVE的实验结果,讨论其在视觉-语言任务中的潜力和应用前景,同时提出未来可能的研究方向,如自适应机制、提高样本效率、扩展视觉编码器的种类等。

通过一系列实验和性能评估,验证了BRAVE在参数效率和模型扩展性方面的优势。BRAVE不仅在COCO图像描述和多个VQA数据集上取得了优于现有最先进方法的结果,还在面对视觉幻觉和长尾视觉概念时展现出了卓越的鲁棒性。

BRAVE的提出,为视觉-语言模型的研究和应用开辟了新的可能性。它不仅提高了模型的性能,还通过减少训练参数和提高泛化能力,为解决实际问题提供了更为实用的工具。随着人工智能技术的不断进步,期待BRAVE能够在更广泛的领域中发挥作用,推动视觉-语言研究的进一步发展。

论文链接:https://arxiv.org/abs/2404.07204

项目地址:https://brave-vlms.epfl.ch/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1832532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

苹果Mac电脑遭恶意软件攻击 Mac第三方恶意软件删除不了

苹果Mac电脑一直以来都以安全性和稳定性著称,许多用户认为Mac电脑不会受到恶意软件的侵害,但事实上,Mac电脑也不是绝对安全的,近年来,有越来越多的恶意软件针对Mac电脑进行攻击,甚至有些恶意软件可以绕过苹…

MSPM0L1306——定时器

相关配置: #include "ti_msp_dl_config.h"int main(void) {SYSCFG_DL_init();//清除定时器中断标志NVIC_ClearPendingIRQ(TIMER_0_INST_INT_IRQN);//使能定时器中断NVIC_EnableIRQ(TIMER_0_INST_INT_IRQN);while (1) { } }//定时器…

Thinkpad系列产品进入Bios并设置U盘启动

Thinkpad系列产品,进入Bios并设置U盘启动,常用于以下场景: 1. 安装操作系统。 通过U盘启动盘,用户可以在电脑无法从硬盘启动或需要重装系统时,将操作系统安装到电脑中。这种方法简单且有效,节省了时间并方便…

Redis-数据结构-跳表详解

Redis概述 Redis-数据结构-跳表详解 跳表(Skip List)是一种基于并联的链表结构,用于在有序元素序列中快速查找元素的数据结构。 Redis 中广泛使用跳表来实现有序集合(Sorted Set)这一数据结构。 1.跳表的基本概念和…

1832javaERP管理系统之实践教学管理Myeclipse开发mysql数据库servlet结构java编程计算机网页项目

一、源码特点 java erp管理系统之实践教学管理是一套完善的web设计系统,对理解JSP java编程开发语言有帮助采用了servlet设计,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Mye…

早期发现,健康生活!第三届ZAODX世界肿瘤早筛大会圆满落幕!

2024年6月15日-16日,第三届ZAODX世界肿瘤早筛大会在雄安新区盛大开幕!本次会议由河北雄安新区管理委员会公共服务局指导,第三届ZAODX世界肿瘤早筛大会组委会和早筛网主办,粤港澳大湾区精准医学研究院(广州)…

双绞线(网线)的制作与测试

实验目的 1、熟悉常用双绞线(网线)及其制作工具的使用; 2、掌握非屏蔽双绞线的直通线、交叉线的制作及连接方法; 3、掌握双绞线连通性的测试。 设备要求:RJ45压线钳,RJ45水晶头,UTP线缆&…

《跟我一起学“网络安全”》——安全设备

安全设备 一、安全设备–IDS IDS入侵检测 (1)什么是入侵检测: 入侵检测系统(intrusion detection system,简称“IDS”)是一种对网络传输进行即时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备。…

50etf期权交易规则杠杆怎么计算?

今天带你了解50etf期权交易规则杠杆怎么计算?近年来,期权交易在股票市场中变得愈发流行,其中50ETF期权备受关注。作为一种金融衍生品,50ETF期权为投资者提供了更灵活的投资方式和更多的策略选择。 50etf期权交易规则杠杆怎么计算&…

Hi3861 OpenHarmony嵌入式应用入门--启动流程

目录 BootLoader的启动与运行 Hi3861 RiSC-V boot 启动文件介绍 Loaderboot 启动过程 Flashboot代码介绍 printf串口配置 内核启动任务 BootLoader的启动与运行 Hi3861 RiSC-V boot 启动文件介绍 - Hi3861 的引导程序分为两部分,一部分是在芯片出厂时已经固…

谷歌插件将网页转图片

将网页转换为图片并保存 /*** 给网页转换为图片上传到FTP* param ftpUtils FTP连接对象* param pdfid 上传业务对象* param type 网页类型 1 审核表 2 合同 3 申请书* return https://registry.npmmirror.com/binary.html?pathchromedriver/*/private boolean htmlToImgFtp(Ft…

汇聚荣拼多多运营策略是怎么样的?

拼多多作为中国领先的电商平台,其运营策略一直备受关注。拼多多的成功不仅在于其创新的“社交电商”模式,更在于其精细化的市场定位和高效的用户增长策略。本文将深入分析拼多多的运营策略,探讨其如何在激烈的电商竞争中突围而出。 一、用户增…

人民日报:高考填志愿十问十答,填报志愿时需要考虑哪些因素?

高考结束,志愿填报即将开始,填报志愿时需要考虑哪些因素?如何避免高分低录甚至落榜?高考填志愿你需要知道的事↓↓ 祝福考生考入理想大学、就读喜欢的专业。加油! 责任编辑:曹继炜

初级篇-Docker容器知识

Docker容器 容器主要是解决跨平台、跨服务运行环境的问题 容器将运行业务应用所需要的东西进行打包,包括依赖项、配置、脚本、二进制文件等。在容器中运行镜像,不用担心不同环境下运行不一致的问题。 容器本质上是一个特殊的进程,将资源、…

Golang内存模型与分配机制

简述 mheap为堆,堆和进程是一对一的;mcentral(小mheadp),mcahe(GMP的P私有),分配内存顺序由后向前。 在解决这个问题,Golang 在堆 mheap 之上,依次细化粒度&a…

SQL注入-上篇

SQL注入 注入是web安全的头号大敌。注入攻击漏洞往往是应用程序缺少对输入进行安全性检查所引起的。攻击者把一些包含攻击代码当做命令或者查询语句发送给解释器,这些恶意数据可以欺骗解释器,从而执行计划外的命令或者未授权访问数据。注入漏洞通常能sq…

AI + 3D:用单个图像和文本提示创建可交互的3D世界

你是否曾经梦想过只需一张照片和一些简单的文字描述,就能立即进入一个生动的3D虚拟世界?今天,我们将介绍一个革命性的技术,它就像是一台神奇的3D场景制造机,能够根据你的想象快速构建出令人惊叹的虚拟空间。 一、技术概览 这项技术不仅仅是一个简单的图像到3D的转换工具…

线程池吞掉异常的case:源码阅读与解决方法

1. 问题背景 有一天给同事CR,看到一段这样的代码 try {for (param : params) {//并发处理,func无返回值ThreadPool.submit(func(param));} } catch (Exception e) {log.info("func抛异常啦,参数是:{}", param) } 我:你这段代码是…

函数式编程基本语法

文章目录 1.函数对象表现形式1.Lambda表达式(功能全面)1.基本语法2.只有一行逻辑,该逻辑结果是返回值3.复杂逻辑4.省略参数类型(可以通过上下文推导出类型时,比如实现了函数式接口)5.只有一个参数时&#x…

SQL160 国庆期间每类视频点赞量和转发量

描述 用户-视频互动表tb_user_video_log iduidvideo_idstart_timeend_timeif_followif_likeif_retweetcomment_id110120012021-09-24 10:00:002021-09-24 10:00:20110NULL210520022021-09-25 11:00:002021-09-25 11:00:30001NULL310220022021-09-25 11:00:002021-09-25 11:00…