读论文《SHOW-O》8.22发布的贼强的大模型多模态理解和生成解决方案

news2024/11/13 18:15:12

全名:Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

8月22发表的,一个名为Show-o的统一变换器(transformer)

论文地址:2408.12528v2 (arxiv.org)

项目地址:GitHub - showlab/Show-o: Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.

能够同时处理多模态理解和生成任务。Show-o模型的创新之处在于它将自回归(autoregressive)和(离散)扩散(diffusion)建模融合在一起,以适应各种不同和混合模态的输入和输出。

摘要:

我们提出了一个统一的转换器,即 Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中,它展示了与现有单个模型相当或更好的性能,这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。

听着很厉害,不同模态完全混合

1. 引言 (Introduction)

  • 报告首先指出了多模态智能的两个关键支柱:理解和生成,并提到了近期在这两个领域的显著进展。

        展示了 Show-o 与跨各个领域的现有再现方法之间的模型特征的比较。可以观察到,Show-o 是一个统一的模型,它灵活地涉及现有的先进技术,以全面解决多模态理解和生成问题。

        现有的尝试主要独立地处理每个领域,并且经常涉及分别负责理解和生成的单个模型(如图 1(c) 左侧所示)。

        “Vision” 和 “Language” 表示来自特定输入模态的表示。在这种情况下,“Diffusion” 代表连续和离散的 diffusion。

  • 作者提出了一个问题:是否可以用单个变换器处理多模态理解和生成。

在这里,我们设想了一种新的范式,即文本表示为离散标记,并与大型语言模型 (LLM) 相同进行自回归建模,并且连续图像像素使用去噪扩散进行建模。然而,由于离散文本标记和连续图像表示之间存在显着差异,因此将这两种不同的技术集成到一个网络中并非易事。另一个挑战在于,现有的最先进的扩散模型通常依赖于两个不同的模型,即文本编码器对文本条件信息进行编码,而去噪网络用于预测噪声。

本文的主要贡献可以概括为: 

• 我们提出了一个统一的模型,即 Show-o,它使用一个转换器统一了多模态理解和生成。

• Show-o 创新性地将自回归和(离散)扩散建模统一在一个转换器中,展示了在独特处理文本和图像方面的多功能性。

• 作为一个统一的模型,Show-o 在多模态理解和生成基准中表现出与具有同等或更多参数的个体基线模型相当甚至更好的性能。

• Show-oinntly 支持各种下游应用程序,如基于文本的修复和外推,无需任何微调。此外,它还展示了混合模态生成的可能性。• 我们探讨了不同类型的表示(离散或连续)对多模态理解的影响,为在统一模型的现有功能下改进多模态提供了有价值的见解。

2. 相关工作 (Related Work)

  • 报告回顾了多模态理解、视觉生成以及统一视觉-语言基础模型的研究进展。

3. 方法论 (Methodology)

Show-o 概述。输入数据(无论其模态如何)都会被标记化,然后提示到格式化的输入序列中。Show-o 通过全神贯注在(离散)去噪扩散建模中用因果注意力和图像词元自回归地处理文本词元,然后生成所需的输出。具体来说,Show-o 能够处理图像描述、视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。

3.1 标记化 (Tokenization)

  • 文本标记化:使用预训练的大型语言模型(LLM)相同的分词器进行文本数据的标记化。
  • 图像标记化:使用MAGVIT-v2量化器将图像编码为离散的标记。图像被量化为16x16的标记网格,每个标记对应一个嵌入向量。
  • 用于多模态理解的可选输入

3.2 架构 (Architecture)

  • Show-o模型基于预训练的LLM,并且对架构进行了微小的改动,主要是在每个注意力层前添加了QK-Norm操作,以提高模型的稳定性和性能。
  • 模型的嵌入层被扩展,以包含8192个新的可学习嵌入,用于离散图像标记。

3.3 统一提示策略 (Unified Prompting)

  • 设计了一种统一的提示格式,将图像和文本标记组合成一个序列,以适应不同类型的任务,如多模态理解、文本到图像的生成等。
  • 使用特殊的任务标记和开始/结束标记来明确序列的开始和结束。
  • 建议的统一提示格式的图示

3.4 全注意力机制 (Omni-Attention Mechanism)

  • Show-o采用了一种新颖的注意力机制,能够根据输入序列的类型自适应地应用因果注意力或全注意力。
  • 文本标记使用因果注意力,而图像标记使用全注意力,允许每个图像标记与序列中的所有其他标记交互。

 全能关注机制(深色方块代表“允许参加”,而白色方块表示“阻止参加”)。它是一种多功能的注意力机制,具有因果性和充分注意力,可根据输入序列的格式自适应地混合和变化。如 (a)、(b) 和 (c) 所示,在包含文本和图像标记的序列中,全向注意力机制使用因果注意处理文本标记,而使用完全注意处理图像标记。此外,关于输入序列,(a) 文本标记可以关注所有前面的图像标记,(b) 图像标记可以访问所有先前的文本标记,以及 (c) 在仅提供文本标记的情况下,注意力会降级为因果注意力。

3.5 训练目标 (Training Objectives)

  • Next Token Prediction (NTP):使用标准的语言表达模型目标,最大化文本标记的预测概率。
  • L_{NTP} = \sum_i logp(v_i | v_1,...,v_{i-1},u_1,...,u_M; \Theta)
  • Mask Token Prediction (MTP):采用生成掩码模型的方法,随机掩盖图像标记,并训练模型预测原始值。从未掩码标记和前面的文本标记的掩码标记中重建原始图像标记:
  • L_{MTP} = \sum_j logp(u_j|u_*,u_2,...,u_*,u_M,v_1,...,v_N;\Theta)
  • L=L_{MTP}+\alpha L_{NTP}

3.6 训练流程 (Training Pipeline)

  • 第一阶段:图像标记嵌入和像素依赖性学习。使用RefinedWeb数据集进行语言模型训练,使用ImageNet-1K数据集进行类条件图像生成和图像描述训练。
  • 第二阶段:图像-文本对齐训练。在35M图像-文本对上进行文本到图像的生成训练。
  • 第三阶段:高质量数据微调。使用过滤的高质量图像-文本对和指令数据进行微调,以提高特定任务的性能。

4. 实验 (Experiments)

  • 数据集:使用了三种类型的数据集,包括文本数据、图像数据和图像-文本对。
  • 评估:在多个基准上评估Show-o模型,包括多模态理解(如图像描述和视觉问答)和视觉生成(如文本到图像的生成)。
  • 实现细节:描述了模型的训练细节,包括使用的优化器、学习率调度、批次大小等。

5. 结论 (Conclusion)

  • Show-o模型成功地将多模态理解和生成任务统一到一个变换器框架中,展示了其作为下一代基础模型的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2079052.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开放式耳机有哪些优点?开放式耳机推荐

开放式耳机,相较于封闭式耳机,以其独特的声学设计和佩戴体验,为用户带来了更加自然流畅的听觉享受。以下是开放式耳机几个显著优点: 宽广的音场与深度:开放式耳机最大的魅力之一在于它们能够模拟出更加宽广和深邃的音场…

P1533 可怜的狗狗

*原题链接* 题意:m次询问区间[l,r]中第k大的数,各询问区间互不相交。 这道题的解法可谓是八仙过海,而我看到询问区间[l,r]中第k大的数,直接就想到了权值线段树(本蒟蒻不会更高级的数据结构了),权值线段树维护区间中数…

Python编写BC260Y TCP数据收发压力测试脚本

Python编写BC260Y TCP数据收发压力测试脚本 使用BC260Y的TCP AT命令发送数据时,能够在数据中带有’\r\n’(回车换行),而其他模组会将’\r\n’当做AT命令处理的结束符,例如EC800E,为了验证TCP数据中带有’\r…

Zoom iOS 转录例子

一、在zoom marketplace创建通用app,zoom-recall 详见Zoom会议机器人转写例子-CSDN博客 二、mac下按照Xcode,创建APP项目meetingbot4ios 三、本实用的SDK为MobileRTC,即Meeting SDK的iOS版本 四、依赖如下: MobileRTC和Crypto…

Swift-UITableView列表动态设置高度,根据不同的内容长度,设置heightForRowAt

此篇文章主要阐述如何利用swift语言,实现返回内容不同长度文本的高度,比如第一个列表文字1行,只需要50像素高度,第二个列表文字超出了1行,如2行,那么就自动调整这个单元文本的高度; 用MVC实现&…

给房子“养老”,你准备好了吗?

文|琥珀食酒社 作者 | 积溪 真崩不住了啊 一觉醒来 朋友圈被房屋养老金刷屏了 有人说买房如买“爹”,真的好费钱 有的说咱自己的养老还没着落呢 未来还得给房子养老? 当然,这事已经被辟谣了 说公共账户不需要咱老百姓额外…

力扣经典题目之->相同的树(递归判断两颗二叉树是否相同)

一:题目 二:代码 三:递归展开 第一种模型: 递归展开图: 左: 右: 第二种模型及其递归展开图: 解释: 递归思路即:根相同,左子树相同,…

cdga|制造业、工程设计行业、创投行业的数据治理痛点与解决方案

在当今数字化时代,数据已成为企业核心资产,数据治理成为推动企业数字化转型和高质量发展的关键。然而,不同行业在数据治理过程中面临着不同的痛点与挑战。 今天小编来和大家聊聊制造业、工程设计行业、创投行业的数据治理痛点进行详细分析&a…

【java计算机毕设】网上商城MySQL springcloud vue HTML maven项目设计源码带项目报告PPT 前后端可分离也可不分离

目录 1项目功能 2项目介绍 3项目地址 1项目功能 【java计算机毕设】网上商城MySQL springcloud vue HTML maven项目设计源码带项目报告PPT 前后端可分离也可不分离 2项目介绍 系统功能: 网上商城包括管理员、用户两种角色。 管理员功能包括个人中心模块用于修改…

Java | Leetcode Java题解之第375题猜数字大小II

题目&#xff1a; 题解&#xff1a; class Solution {public int getMoneyAmount(int n) {int[][] f new int[n 1][n 1];for (int i n - 1; i > 1; i--) {for (int j i 1; j < n; j) {f[i][j] j f[i][j - 1];for (int k i; k < j; k) {f[i][j] Math.min(f[…

leetcode 560 和为k 的子数组

leetcode 560 和为k 的子数组 正文一般解法字典方法 正文 一般解法 class Solution:def subarraySum(self, nums: List[int], k: int) -> int:number 0for i in range(len(nums)):for j in range(i , len(nums)):if sum(nums[i:j 1]) k:number 1return number上述方法虽…

北斗卫星导航系统的应用落地,改变未来出行方式

近年来&#xff0c;随着北斗卫星导航系统在全球范围内的部署和完善&#xff0c;它的应用范围不断扩大&#xff0c;正逐渐成为数字化出行时代的重要基础设施。从智能导航到车联网&#xff0c;从航空导航到陆地测绘&#xff0c;北斗卫星导航系统的应用正在深入各个领域&#xff0…

视频单条剪、脚本靠手写?云微客开启海量视频时代

老板们注意了&#xff0c;现在已不再是视频单条剪&#xff0c;脚本靠手写的时代&#xff01;在这个信息爆炸的时代&#xff0c;短视频已经成为了现代信息传播和娱乐消费的重要载体&#xff0c;那么我们该如何高效、快速地制作出大量高质量的短视频内容呢&#xff1f;这就需要云…

TRIZ理论在手术机器人功能区设计中的应用

TRIZ&#xff0c;全称为“Theory of Inventive Problem Solving”&#xff0c;是一套系统化地分析和解决复杂问题的理论工具。它不仅能够预测技术系统的发展趋势&#xff0c;还能提供一套高效的问题解决策略&#xff0c;帮助设计师突破思维定势&#xff0c;实现突破性创新。在手…

视频转换成MP3怎么转?这里有快速转换通道

视频转换成MP3怎么转&#xff1f;在数字化时代&#xff0c;视频和音频内容无处不在&#xff0c;我们时常需要将视频中的音频提取出来&#xff0c;以便在特定场合下单独播放或编辑。将视频转换成MP3音频格式是一种常见且实用的需求。为了帮助你轻松实现这一操作&#xff0c;本文…

openlayers10+vue3+ts

在 Vue 3 应用程序中使用 Vite 工具链和 OpenLayers10 创建一个简单的地图实例&#xff0c;并实现一些基础的地图交互功能。 Demo 地图初始化 底图加载与切换 GeoJSON 数据的加载与导出 绘制功能 轨迹回放功能 使用 VectorLayer postrender 实现丝滑的轨迹运动效果。

基于Java的音乐网站与分享平台

你好&#xff0c;我是音乐技术爱好者&#xff0c;专注于音乐与技术的结合。如需交流或合作&#xff0c;请联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;Java语言&#xff0c;Spring Boot框架&#xff0c;B/S架构 工具&#xff1a;Eclipse&a…

007、架构_MDS

​架构 什么是元数据 什么是元数据 元数据又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能;GoldenDB 数据库元数据大致分为两类: 数据字典:库、表、字段属性信息、视图、函数、存储过程属…

【数据结构-前缀异或】力扣1310. 子数组异或查询

有一个正整数数组 arr&#xff0c;现给你一个对应的查询数组 queries&#xff0c;其中 queries[i] [Li, Ri]。 对于每个查询 i&#xff0c;请你计算从 Li 到 Ri 的 XOR 值&#xff08;即 arr[Li] xor arr[Li1] xor … xor arr[Ri]&#xff09;作为本次查询的结果。 并返回一…

SpringBoot2:依赖管理与自动配置

一、依赖管理 什么叫依赖管理&#xff1f; 我们做过Maven项目的&#xff0c;都知道pom.xml的作用。里面配置了一大堆的包依赖。 所以&#xff0c;SpringBoot的依赖管理&#xff0c;意思就是&#xff0c;我们用SpringBoot开发web应用&#xff0c;那么&#xff0c;相关的依赖包&…