谷歌联合CMU提出全新语义金字塔概念,无需额外训练使LLMs学会执行视觉任务

news2024/9/28 17:33:56

3bde3bfe66894efa8780dddde1eb71ad.png

论文链接:https://arxiv.org/abs/2306.17842
代码仓库:https://github.com/google-research/magvit/

在目前的大模型社区中,发展较为成熟的当属以ChatGPT为代表的纯语言模型(LLMs),以GPT-4为代表的多模态模型发展相对较慢。因此如何进一步挖掘和激发现有LLMs的内在潜力已经成为一个非常有趣的方向,研究者们开始思考如何仅通过冻结的LLMs来执行涉及图像或视频等非语言模态的理解和生成任务

本文介绍一篇来自谷歌研究院与卡内基梅隆大学合作完成的工作,在这项工作中,作者团队提出了一种全新的“语义金字塔自编码器(Semantic Pyramid AutoEncoder,SPAE)”概念,意在将输入的视觉内容转换为包含丰富语义的token,该token呈现金字塔结构的多尺度表示金字塔上层包含了较强的语义中心概念(semantic-central concepts),金字塔底层则侧重于捕获将输入图像重构所需要的细节外观表示。这种设计可以将输入的视觉信息直接转换为LLMs可以理解的嵌入空间token,使得模型可以直接执行后续的多种多模态任务,而无需像其他多模态大模型一样使用海量的图像文本对进行预训练,大大降低了模型成本。作者分别使用谷歌的PaLM 2和OpenAI的GPT 3.5模型作为基础LLM模型进行实验,在多种图像理解和生成任务上进行上下文学习(In-Context Learning)评估,实验结果表明,SPAE可以赋予原生LLMs理解生成视觉内容的能力,在相同实验设置下可以超过其他图像理解SOTA性能约25%。

01. 引言

目前社区内常见的LLMs通常以Transformer为基础backbone,这使得它们在广泛的自然语言处理任务上具有天然的优势,尤其是在经过大规模语料库预训练后,LLMs在一些特定领域中甚至出现了“涌现”现象,例如智能问答、代码生成、推理、解决数学问题等多种复杂任务。目前已经证明,LLMs在其词汇嵌入中捕获了有关自然场景中的丰富概念知识。这就引出了一个很自然的问题:如果提供适当的视觉表示作为输入,LLMs能否解决视觉模态中的复杂任务? 事实是,不使用视觉样本进行微调,想让LLMs直接编码和理解视觉内容是一个极具挑战性的任务。

为了赋予LLMs解决这类跨模态任务的能力,本文提出了SPAE方法,SPAE主要通过学习一组特征编码器来将图像或其他非语言模态信息映射到LLMs的token空间,然后可以借助LLMs强大的语义理解和生成能力来完成各种视觉任务。此外,SPAE还设置了一个额外的解码器来将编码得到的语义token转换回像素空间,构建起视觉空间到LLMs嵌入空间的信息传输桥梁。在具体实现时,SPAE提供了一种新型的语义金字塔结构,该结构可以动态调整视觉编码特征的长度来适应到多种下游任务中,例如使用较少的token来执行理解任务,使用较多的token来执行生成任务。作者提到,SPAE方法并没有对LLMs进行任何形式的参数更新,只对引入的编码器和解码器进行独立训练。此外,SPAE还具有即插即用的特点,可以兼容任意的LLMs。

02. 本文方法

设计语义金字塔自编码器(SPAE)的目标是将图像或其他非语言模态(例如视频或音频)建模为LLMs可以直接理解的token序列,该token序列的长度可以进行动态调整来适应不同的下游任务,SPAE的整体框架示意图如下图所示。

b3333dbfc5b541b49957b488edb6480a.png

2.1 语义金字塔自编码器

2.2 渐进式的上下文去噪

eedf5682998f4213869e0f2343eaa6b4.png

03. 实验效果

为了验证本文方法的灵活性以及与不同LLMs的兼容性,作者选取了两个具有代表性的LLMs(PaLM 2和GPT 3.5)进行实验,构建了SPAE的两种变体,即SPAEPaLM和SPAEGPT.为了与之前的方法进行公平对比[28],SPAE的编码器可以将128×128大小的图像编码为具有6层的token金字塔。本文的实验包含常规的视觉分类任务和复杂的视觉理解和推理任务,对于前者,作者在mini-ImageNet上的few-shot分类基准上进行。

d068789a301349da80c10cfd5860a326.png

上表展示了SPAE与其他基线方法的对比情况,可以看到,SPAE的两个版本的小样本识别性能均高于对比基线方法。下图进一步展示了本文方法在六种其他few-shot设置中的性能表现,可以看到,使用3层的21个token的SPAEPaLM达到了最佳性能,这表示SPAE可以在语义概念纯度和序列长度之间进行权衡

d43f3c6f79e74368b02a2e2c7371dee6.png

此外作者也进一步探索了SPAE在其他下游任务上的性能表现,对于图像到文本生成任务和VQA任务,作者分别选取了来自COCO数据中的10个样本示例作为LLMs的提示信息,然后使用SPAE的不同金字塔层进行文本生成,如下图所示。

308ff13e09b6416b99b547b6e3aae1fb.png

而对于VQA任务,作者对每个样本提供10个不同的答案来构成10-way 1-shot的上下文提示,然后使用SPAE对新查询图像进行预测,下图展示了部分问答效果。

d76fade4f87a446c85a8375d07b65419.png

为了清晰的验证SPAE确实可以捕获到不同尺度的语义概念和图像细节信息,作者在下图中对token金字塔进行了可视化,其中1-4层为出现最高频率的token直方图,5层和6层为模型重构出来的图像。可以看到,位于顶层的几个token似乎抓住了图像的主要主题,例如图中使用橙色圆圈标注的presso代表浓缩咖啡机,而其他token(如搅拌机)则指向其周围的相关区域。此外,第3层和第4层分别表示局部对象的其他详细信息。例如,Thermo指的是图中左上角区域的温度计,而炉灶(stove)则出现在右下角区域。

2977004462c0416da4a2a72e494b29b0.png

04. 总结

本文引入了一种全新的多模态理解概念,即语义金字塔,作者在此基础上提出了一种SPAE框架,使大型语言模型能够直接执行涉及图像或视频等非语言模式的理解和生成任务,SPAE可以在原始像素和LLMs所包含的词表中提取可解释的token,并将二者联系起来,由此产生的token捕获了视觉重建所需的语义概念和细粒度细节,可以有效地将视觉内容翻译成LLMs可以直接理解的内容,从而使其能够执行各种多模态视觉任务。此外,SPAE具有跨模型兼容的特点,其仅需要任意一个预训练LLMs的API即可开始工作,具有非常高的灵活性和兼容性,它为我们将LLMs更快更好地引入视觉社区提供了一种全新的范式。

参考

[1] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. In NeurIPS, 2017. 2, 3

[2] Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, t al. MAGVIT: Masked generative video transformer. In CVPR, 2023. 3, 4, 7


 关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/837870.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【大数据】ELK最简入门案例(带你进入ELK世界)

文章目录 1. 前言2. 安装3. 启动ELK启动Elasticsearch启动Kibana启动Logstash 4. 测试ELK环境 本文通过最简单纯正的案例带你入门ELK世界。 1. 前言 ELK是Elasticsearch、Logstash、Kibana的缩写,如果对Elasticsearch、Logstash、Kibana不是很了解,可以…

2023华数杯C题完整模型代码

华数杯C题完整论文模型代码已经完成,文末获取! 母亲的心理健康状况对婴儿的成长和发展有重要的影响。本研究使用大数据分析方法,探索了母亲的心理健康状况、婴儿的行为特征以及婴儿的睡眠质量之间的相关性。我们采集了大量的数据,…

Python零基础入门(十一)——异常处理

系列文章目录 个人简介:机电专业在读研究生,CSDN内容合伙人,博主个人首页 Python入门专栏:《Python入门》欢迎阅读,一起进步!🌟🌟🌟 码字不易,如果觉得文章不…

MS5182N/MS5189N——16bit、4/8 通道、200KSPS、 SAR 型 ADC

产品简述 MS5182N/MS5189N 是 4/8 通道、 16bit 、电荷再分配逐次 逼近型模数转换器。采用单电源供电。 MS5182N/MS5189N 内 部集成无失码的 16 位 SAR ADC 、低串扰多路复用器、内部低 漂移基准电压源 ( 可以选择 2.5 或 4.096 V) 、温度传感器、可选 择的单极…

Java 之LocalDateTime的介绍和使用

LocalDateTime是Java的日期和时间类之一,用于表示不带时区信息的日期时间。 LocalDateTime 没有时区, 所以也就不能用来直接获取时间戳LocalDateTime 是一个基于值得类, 所以该类的示例不是通过构造函数的方式进行创建 以下是一些关于Loca…

华为推出手机系统云翻新服务:什么是云翻新?如何使用?

华为手机系统云翻新是华为推出的一项功能,旨在通过云服务提供系统翻新的服务。它可以帮助用户对手机的系统进行优化和更新,以提高手机的性能和流畅度。具体而言,华为手机系统云翻新功能提供了免费的云空间,用户可以将手机中的系统…

【学习笔记】生成式AI(ChatGPT原理,大型语言模型)

ChatGPT原理剖析 语言模型 文字接龙 ChatGPT在测试阶段是不联网的。 ChatGPT背后的关键技术:预训练(Pre-train) 又叫自监督式学习(Self-supervised Learning),得到的模型叫做基石模型(Founda…

JavaScript【静态方法、实例方法/to类、实例方法/get类、实例方法/set类、Math与Date实操、 JS时间戳、日期互相转换】(九)

目录 Math对象_静态方法三 Date对象 Date对象_静态方法 Date对象_实例方法/to类 Date对象_实例方法/get类 Date对象_实例方法/set类 Math与Date实操 JS时间戳、日期互相转换 Math对象_静态方法三 Math.random() Math.random() 返回0到1之间的一个伪随机数,可…

python中几个有趣的函数和推导式

前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 一、range()函数 1、range()通常用来做循环。 2、range()生成器的特性。 例子:假如range()中使用的数值特别大,为100000000000000000000000000000? python解释…

同比增长50%!W/AR HUD赛道持续向好背后的变化

在智能座舱进入域控制器时代的同时,带来人机交互体验升级的HUD赛道,同样持续火热。 高工智能汽车研究院监测数据显示,2023年1-6月中国市场(不含进出口)乘用车前装标配W/AR HUD交付90.49万台,潜在选装规模6…

【深度学习_TensorFlow】梯度下降

写在前面 一直不太理解梯度下降算法是什么意思,今天我们就解开它神秘的面纱 写在中间 线性回归方程 如果要求出一条直线,我们只需知道直线上的两个不重合的点,就可以通过解方程组来求出直线 但是,如果我们选取的这两个点不在直…

使用 Amazon ECS Anywhere 在边缘部署 Amazon IoT Greengrass

1.概述 亚马逊云科技提供了完备的IoT服务能力,涵盖设备服务、连接和控制服务以及云端分析服务,是快速构建安全可靠、可扩展的 IoT 平台的常见选择。Amazon IoT Greengrass 边缘运行时和云服务,可帮助您在设备上构建、部署和管理 IoT 应用。A…

中小企业如何做好私域运营呢?

​通过在公域平台上进行引流到私域平台,流量一旦进来,后面再做活动就不需要进行推广的成本,从而进行多次复购。而在于公域平台,流量进来只是一次性,当它出去后可能就不会再记得你的这个产品或者这个店,即当…

NUEDC 2022 E - 声源定位跟踪系统

更好的阅读体验参考个人博客:NUEDC 2022 E | Framist’s Little House NUEDC 2022 E - 声源定位跟踪系统 省级大学生电子设计竞赛 一等奖作品 仓库地址:framist/NUEDC2022-E 求小星星♥(ˆ◡ˆԅ) fork from: framist/STemWinForHAL: 移植emWin与HAL库…

【React学习】—虚拟DOM两种创建方式(二)

【React学习】—虚拟DOM两种创建方式&#xff08;二&#xff09; 一、Hello React案例 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, init…

初识网络(JavaEE初阶系列9)

目录 前言&#xff1a; 1.网络的发展史 1.1独立模式 1.2网络互联 1.3局域网LAN 1.4广域网WAN 2.网络通信基础 2.1IP地址 2.2端口号 3.认识协议 3.1协议分层 3.2分层的作用 3.3TCP/IP五层&#xff08;或四层&#xff09;模型 3.4OSI七层模型 3.5网络设备所在分层 …

Delphi Professional Crack,IDE插件开发和扩展IDE

Delphi Professional Crack,IDE插件开发和扩展IDE 构建具有强大视觉设计功能的单源多平台本机应用程序。 Delphi帮助您使用Object Pascal为Windows、Mac、Mobile、IoT和Linux构建和更新数据丰富、超连接、可视化的应用程序。Delphi Professional适合个人开发人员和小型团队构建…

MGRE综合

实验 一、实验思路 1.先按照上图配置IP地址及环回 2.写缺省使公网可通 3.让R1、R4、R5每台路由器均成为中心站点形成全连网状结构拓扑 4.让R1成为中心站点R2R3为分支站点 5.分区域宣告ospf之后更改ospf在虚拟接口Tunnel工作方式为broadcast及让R1 当选DR 二、上虚拟机操作…

2023奇安信天眼设备--面试题

1.在天眼分析平台网络协议中sip、dip、sport、dport字段表示的含义是什么&#xff1f; sip 源IP、dip 目的IP、sport 源端口、dport 目的端口 2.在天眼分析平台DNS协议中dns type字段表示的含义是? dns type表示DNS请求类型 0代表DNS请求&#xff0c;1代表DNS响应 3.dns_typ…