大模型视觉理解能力更进一步,谷歌提出全新像素级对齐模型PixelLLM

news2025/1/11 11:50:01

983e3112bf2e4ec8be25c7fe0c2e86c9.png

论文题目:Pixel Aligned Language Models
论文链接:https://arxiv.org/abs/2312.09237
项目主页:Pixel Aligned Language Models

近一段时间以来,大型语言模型(LLM)在计算机视觉领域中也取得了巨大的成功,并且衍生出了一系列视觉语言模型,例如LLaVA、VisualChatGPT等,这些模型也可以以对话的方式来理解和回答用户提出的一些视觉任务,或者对图像进行复杂的推理。但这些模型仍然不具备执行一些细粒度视觉任务的能力,例如对图像进行word grounding(单词定位)或 referring localization(指代定位)等

本文介绍一篇来自谷歌研究院和加利福尼亚大学圣迭戈分校合作完成的论文,本文的研究团队深入探索了LLM在视觉嵌入空间的运行机制,并提出了一种可以将位置信息(例如一组点或框)作为输入或输出的视觉语言模型,称为PixelLLM(像素大模型)。当将位置作为输入时,PixelLLM会执行位置条件字幕生成任务(location-conditioned captioning),对用户给定的感兴趣区域生成对应的文字描述。而当模型将生成的位置信息作为输出时,PixelLLM会对每个输出单词的像素坐标进行回归,以达到密集word grounding的效果。作者通过大量的实验表明,PixelLLM目前在RefCOCO 和 Visual Genome 等视觉定位数据集上达到了SOTA性能。

01. 引言

先前的视觉语言模型,大多是在额外加入视觉信息之后,对大规模的LLM进行指令微调,使其适应到各种视觉任务中,例如对图像或者视频数据生成描述或生成对话。但这种方式需要将整张图像或整段视频作为LLM的输入,并且产生的输出全部都是文本格式。从实际操作角度来看,这种方式缺乏灵活性,生成的输出结果也缺乏直观性,人们往往更想知道,大模型给出的回答到底与图中的哪些目标或哪些区域有关。因此本文作者提出:LLM能否在视觉世界中实现空间的理解和推理?即将模型推理的重心放在对特定区域和物体位置的理解上,而不是像传统LLM一样仅在语言空间中进行计算。

为此,本文提出了一种PixelLLM模型,PixelLLM通过将每个输出单词密集对齐到像素位置,实现了细粒度的视觉理解能力。模型的实现也非常简单,作者仅在LLM输出的单词特征之后加入了一个轻量级的MLP,同时冻结LLM的权重参数,随后通过低秩微调(LoRA)方式对该MLP层进行更新

43de9f736cf946d4ae2b2ea7bc173598.png

上图展示了PixelLLM可以执行多种细粒度的视觉理解和推理任务,主要分为三个任务:

(1)Pixel-aligned Image Captioning:像素级图像字幕生成仍然以单张图像作为模型输入,但PixelLLM会对输出的每一个单词在原图的位置坐标进行回归,如上图右侧蓝色框线中,每个单词都使用彩色在原图中进行了标注。

(2)Referring Localization:指代定位任务则同时将图像和文本作为模型输入,PixelLLM会直接输出当前文本所指代的图像区域。

(3)Location-conditioned Captioning:位置条件字幕生成任务将图像和一组位置信息作为输入,PixelLLM会根据该位置信息在图中的感兴趣区域进行视觉理解,来生成细粒度的文本描述。

为了实现上述惊艳的视觉推理效果,作者使用像素级对齐的数据集Localized Narrative[1]进行训练,该数据集不仅包含对图像的详细描述,同时还保留了标注员在标注过程中注意力的鼠标轨迹,这对于训练模型的像素级对齐能力至关重要。

02. 本文方法

2.1 PixelLLM的整体框架

f574d7718a2744d09e2f8b15d8b16368.png

在视觉社区中,模型的定位能力有多种形式,例如目标检测(根据预定义的类别来定位目标),指代定位(根据一段文本描述来定位目标)和实体定位(根据句子中的每个单词来定位目标)。本文提出的PixelLLM则探索了一种全新的定位方式,即对句子中的每个单词进行像素级对齐。

2.2 在LLM中加入视觉定位能力

2.3 PixelLLM如何适应到下游任务中

4104758309b94073895aaaa58011a023.png

对于条件位置字幕生成(location-conditioned captioning)和密集对象字幕生成任务(dense object captioning),作者为PixelLLM加入了一个目标检测头(Proposal Head)来获得图像中的感兴趣目标,并将得到的边界框信息作为LLM的输入条件进行生成,整体过程如下图所示。

e91632d37aa5419b819158ec683dd8f9.png

03. 实验效果

本文的实验主要在RefCOCO、Visual Genome等视觉定位基准上进行,对于指代定位和分割任务,作者采用了RefCOCO数据集的标准评价指标P@0.5和分割cIoU。下表展示了PixelLLM在RefCOCO、RefCOCO+ 和 RefCOCOg三个数据集上的性能对比效果,PixelLLM在绝大多数数据集子集上均超越了先前的方法。

5a37ee7213564ee4925ca0f5c84e6dbc.png

对于条件位置字幕生成任务,作者在RefCOCOg 和 Visual Genome 数据集上进行了评估,模型的输入是真实的边界框,输出是与指示区域相对应的文本字幕,性能评估指标是每个框的 METEOR 和 CIDEr。下表展示了详细的实验对比,本文的方法在Visual Genome的条件文本生成精度为 19.9CIDEr。

63319f23b2774584b2691c26a16ab545.png

此外,作者还对PixelLLM在Localized Narrative的测试集上进行了可视化实验,下图展示了本文方法生成的单词注意力回归轨迹,模型生成的跟踪轨迹在语义上与生成的文本字幕可以很好的对应,PixelLLM准确的描述出了图像中的一些关键目标,例如一个带着帽子的人,拿着一根棍子等等,同时对于背景的草地,模型的注意力轨迹也都定位的较为准确。

b754b05c340e488cb35f3200ad136d7f.png

04. 总结

本文引入了一种全新的视觉模型定位机制,即在大型语言模型的基础上,对视觉内容进行空间交互理解,并生成文本字幕描述,然后对文本字幕中的每个句子进行像素级对齐。这种模式可以建立在目前常见的LLM之上,因而被称为PixelLLM,PixelLLM可以将图像以及目标位置信息或文本的任意组合作为输入或输出,具有较高的灵活性。此外,作者在PixelLLM中引入了轻量化的微调模块,可以在不破坏原有LLM参数的情况下训练像素级对齐,这使得模型可以轻松的迁移到各种细粒度的下游视觉理解任务中。

参考

[1] Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, RaduSoricut, and Vittorio Ferrari. Connecting vision and language with localized narratives. In ECCV, 2020. 1, 2, 4, 6, 8, 11

[2] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML, 2023.


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1417807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详解操作系统各章大题汇总(死锁资源分配+银行家+进程的PV操作+实时调度+逻辑地址->物理地址+页面置换算法+磁盘调度算法)

文章目录 第三章:死锁资源分配图例一例二 第三章:银行家算法第四章:进程的同步与互斥做题步骤PV操作的代码小心容易和读者写者混 1.交通问题(类似读者写者)分析代码 2.缓冲区问题(第二个缓冲区是复制缓冲区…

探索Pyecharts关系图绘制技巧:炫酷效果与创意呈现【第42篇—python:Pyecharts水球图】

文章目录 Pyecharts绘制多种炫酷关系网图引言准备工作代码实战1. 基本关系网图2. 自定义节点样式和边样式3. 关系网图的层级结构4. 添加标签和工具提示5. 动态关系网图6. 高级关系网图 - Les Miserables 示例7. 自定义关系网图布局8. 添加背景图9. 3D 关系网图10. 热力关系网图…

CVPR——Latex模版下载

CVPR官网 -> AuthorGuidelines 链接:AuthorGuidelines

基于Java SSM框架实现学生就业服务平台系统项目【项目源码】

基于java的SSM框架实现学生就业服务平台系统演示 JSP技术介绍 JSP技术本身是一种脚本语言,但它的功能是十分强大的,因为它可以使用所有的JAVA类。当它与JavaBeans 类进行结合时,它可以使显示逻辑和内容分开,这就极大的方便了学生…

Python笔记15-实战小游戏飞机大战(中)

文章目录 创建第一个敌机创建一群敌机创建多行敌机让敌机移动射杀敌机生成新的敌机群结束游戏有敌机到达屏幕底端游戏结束 在上一篇基础上继续 本示例源码地址 点击下载 创建第一个敌机 在屏幕上放置外星人与放置飞船类似。每个外星人的行为都由Alien 类控制,我们…

[Python图像处理] 使用OpenCV创建深度图

使用OpenCV创建深度图 双目视觉创建深度图相关链接双目视觉 在传统的立体视觉中,两个摄像机彼此水平移动,用于获得场景上的两个不同视图(作为立体图像),就像人类的双目视觉系统: 通过比较这两个图像,可以以视差的形式获得相对深度信息,该视差编码对应图像点的水平坐标的…

智慧文旅:打造无缝旅游体验的关键

随着科技的快速发展和消费者需求的不断升级,旅游业正面临着前所未有的变革压力。智慧文旅作为数字化转型的重要领域,旨在通过智能化、数据化手段为游客提供更加优质、便捷、个性化的服务,打造无缝的旅游体验。本文将深入探讨智慧文旅在打造无…

【golang】16、dlv 调试工具、vscode+ssh 远程调试

文章目录 Goland Debug 模式崩溃 Goland Debug 模式崩溃 有时遇到如下现象: Golang Run 模式正常,Debug 无 BreakPoint 模式正常,但 Debug 加 BreakPoint 就会偶现 panic,panic 信息如下。 panic: runtime error: index out of …

多维时序 | Matlab实现DBO-LSTM蜣螂算法优化长短期记忆神经网络多变量时间序列预测

多维时序 | Matlab实现DBO-LSTM蜣螂算法优化长短期记忆神经网络多变量时间序列预测 目录 多维时序 | Matlab实现DBO-LSTM蜣螂算法优化长短期记忆神经网络多变量时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现DBO-LSTM多变量时间序列预测&#x…

【Javaweb程序】【C00155】基于SSM的旅游旅行管理系统(论文+PPT)

基于SSM的旅游旅行管理系统(论文PPT) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于SSM的旅游旅行管理系统 本系统分为前台系统模块、管理员模块、用户模块以及商家模块 其中前台系统模块的权限为:当游客打开系统的网址后…

1月全志芯片开源项目分享合辑

1、柚子爱AI相机(YuzuAI-YuzuMaix-AIoT-V831) 本项目于去年4月首次发布,是基于V831的AI相机开源项目,经过几个版本的迭代,最终运用了叠层的设计来实现AI摄像头掌控板的奇葩组合。 开发板主控是全志V831,采…

Windows下EDK2快速搭建(详细)过程总结附软件包地址

目录 简介一、软件包下载安装VS2019下载NASM安下载LLVM/CLANG下载IASL下载安装Python安装OpenSSL下载EDK2 二、设置环境变量新增python系统变量新增NASM系统变量 三、编译3.1 在edk2目录直接输入cmd3.2 在cmd目录输入:edksetup.bat3.3 打开edk2编译窗口3.4 确认编译…

2023年度总结——忙忙碌碌,终有归章

思来想去,还是决定写一篇年终总结,一来算是对23年的一年的回顾,二来是对24年的展望。记得22年也写过一篇年度总结,题目是《2022年度总结——一切都在慢慢变好》。今年,我想起的题目是《2023年度总结——忙忙碌碌&#…

基于springboot的历史馆藏系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式 🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 &…

将elasticsearch数据存储到excel中

由于elasticsearch数据在线上,偶尔需要将数据导到本地环境进行分析。目前有需求是将数据导入到excel表中,下面是我在用的实现方案。 1、将线上elasticsearch数据备份成文件 首先通过elasticdump组件将线上指定的index导出成文本文件 elasticdump --in…

12.16对象序列化(血干JAVA系列)

对象序列化 12.16对象序列化12.16.1 基本概念与 Serializable 接口12.16.2 对象输出流ObjectOutputStream【例12.71】将Person类的对象保存在文件之中 12.16.3 对象输入流 Objectinputstream【例12.72】从文件中将Person对象反序列化(读取) 12.16.4 Exte…

第八篇【传奇开心果短博文系列】Python的OpenCV技术点案例示例:深度学习

传奇开心果短博文系列 系列短博文目录Python的OpenCV技术点案例示例系列 短博文目录一、前言二、OpenCV深度学习介绍三、OpenCV常用深度学习算法和实现分别示例代码四、归纳总结 系列短博文目录 Python的OpenCV技术点案例示例系列 短博文目录 一、前言 OpenCV深度学习&…

降压模块LM2596S的操作使用

一、技术参数 二、使用说明 1.引脚说明: IN输入正极 IN-输入负极 OUT输出正极 OUT-输出负极 2.输入电压范围:直流3.2V 至 46V (输入的电压必须比要输出的电压高1.5V以上。不能升压) 3.输出电压范围:直流 1.25V至 35V 电压连续可调&#…

激光雷达,角力「降本增效」

高工智能汽车研究院最新发布的数据显示,2023年1-11月,中国市场(不含进出口)乘用车前装标配激光雷达搭载量为46.48万颗,同比增长372.35%,继续保持高增长态势。 随着激光雷达在中国市场完成规模化上量的节点&…

C++(16)——vector的模拟实现

前面的文章中,给出了对于的模拟实现,本篇文章将给出关于的模拟实现。 目录 1.基本框架: 2. 返回值与迭代器: 2.1 返回值capacity与size: 2.2 两种迭代器iterator和const_iterator: 3. 扩容与push_back与pop_back&#xff1a…