拳打DALL-E 2脚踢Imagen,谷歌最新Muse模型刷新文本图像合成排行榜

news2024/9/20 22:21:41

原文链接:https://www.techbeat.net/article-info?id=4501
作者:seven_

在这里插入图片描述

论文链接:
https://arxiv.org/abs/2301.00704
项目主页:
https://muse-model.github.io/

近期火爆AI社区的文本图像合成模型家族又添新成员了,之前在这一领域占据上风的是以DALL-E 2[1]和Imagen[2]为代表的扩散模型,以及以Parti[3]为代表的自回归模型。为了进一步提升文本图像合成任务的效率,近日,谷歌研究院再度发布全新基于生成式Transformer架构的Muse模型。不得不说,这一领域发展实在是太卷太快了。谷歌研究团队已经宣布,Muse模型目前已成为这一领域的新SOTA。Muse在训练过程中加入了Mask建模任务,首先给定从预训练的大型语言模型(LLMs)中提取的文本嵌入,Muse会根据文本内容来预测生成随机Mask掉的图像tokens。与DALL-E 2和Imagen等像素空间扩散模型相比,Muse基于离散tokens的训练模式大大减少了模型迭代次数,与Parti等自回归模型相比,作者设计的并行编码方式有效提高了模型的生成效率。此外,Muse可以从预训练的LLMs中获取细粒度的语言知识,从而转化为高精度的视觉概念识别能力。下面展示了一些Muse的文本图像生成效果。
在这里插入图片描述
Muse可以让”两个宇航员在埃菲尔铁塔前踢足球“,也可以让”两只喵喵一起做科学研究“。每张示例图像都展现了非常生动有趣的图像生成效果,并且每张图像都可以使用一张TPUv4在1.3秒内生成

而对于AIGC应用的必备功能,图像编辑任务,Muse也可以胜任。用户可以指定一个Mask区域,随后输入编辑指令,如下图所示,Muse就可以直接将Mask区域更换为纽约或者巴黎。作者还强调,Muse无需对模型进行微调即可实现上述图像编辑功能,实现了”开箱即用“。
在这里插入图片描述

一、引言

以扩散模型为代表的文本图像合成模型的爆火,背后离不开新颖的深度学习训练范式,例如对语言和图像两种模态的Mask建模和重构任务等。但是这些工作需要极高的训练成本,而且在推理时仍然费事费力。本文提出的Muse模型在不损失图像生成效果的基础上,主打的就是模型推理效率。Muse凭借离散token编码和推理时的并行解码机制,在相同的硬件条件下(例如TPU-v4芯片)比Imagen-3B或Parti-3B模型的推理速度快10倍以上,比Stable Diffusion v1.4快3倍。此外,Muse为了同时兼顾生成图像的高层语义和低层图像细节,加入了双分辨率编码解码的机制,即同时对每张图像的256x256和512x512分辨率版本进行操作,尽管这样,Muse仍然相比其他扩散模型有明显的速度优势。虽然Muse主打模型效率,但是其图像合成质量仍然非常具有竞争力,Muse在目前公认的文本图像合成基准CC3M上以达到了6.06的FID分数,是目前业内的最高水平。

二、本文方法

之前的扩散模型或者自回归模型均需要庞大的参数量来存储从海量文本图像数据学习到的知识,这加重了模型的训练负担以及部署成本。Muse的提出,标志着另一种新型图像文本框架模式的诞生,作者将其概括为掩码生成式Transformer架构,即在训练时将输入图像的一部分像MAE那样随机Mask掉,然后设计预训练的文本任务来进行重构学习。下图为Muse的整体框架,其中内置了一个预训练文本编码器来对输入prompt进行编码,还包含一对VQGAN tokenizer模型,用来将输入图像编码为一系列离散tokens,两个VQGAN分别处理低分辨率(256x256)和高分辨率(512x512)。此外作者还设计了一个SuperRes Transformer,负责将低分辨率token转换为高分辨率token,实现超分辨率功能。下面我们将详细介绍这些模块。
在这里插入图片描述

2.1 预训练文本编码器

作者在模型构建过程中发现,使用预训练的LLMs非常有利于生成高质量的图像,从LLMs中可以提取到图像中有关对象(名词)、动作(动词)、视觉属性(形容词)、空间关系(介词)和其他属性的丰富信息。因此作者在这里内置了一个预训练的T5-XXL[4]编码器,并且冻结其参数,可以对输入文本prompt进行编码,产生维度为4096的语言嵌入向量,这些向量随后被投影到下游的Transformer模型中。

2.2 VQGAN生成离散tokens

基于VQGAN的跨分辨率编码模块是Muse模型的核心操作模块,每个编码模块由一个编码器和一个解码器构成,负责将图像输入转换为一系列特征tokens,为了能够适应不同分辨率的输入,作者将其设计为全卷积结构,给定大小为 H × W H \times W H×W 的图像,编码后的token大小为 H / f × W / f H / f \times W / f H/f×W/f,下采样率为 f f f。 两个VQGAN模块的下采样率分别为 f f f= 16 和 f f f=8。作者在256×256像素图像上使用 f f f=16,产生的token尺寸为16x16。在512x512像素图像上使用 f f f=8,产生的token尺寸为64x64。

2.3 基础模型

在将tokens随机mask后,联合文本嵌入一起送入到基础模型中,这里的基础模型是一个Masked Transformer结构,作者将Mask掉的token区域使用特殊的「MASK」进行标记,然后通过Transformer的自注意力层、交叉注意力层和MLP层来进行特征映射。在模型的输出层,使用MLP将每个Masked图像嵌入转换为一组logits(logits大小对应与VQGAN生成的离散tokens),这样设计就可以直接应用交叉熵损失函数,将原有tokens作为Ground-Truth进行优化。

2.4 超分辨率Transformer

作者发现直接预测512x512分辨率的tokens会导致模型更多的关注细节信息而忽略了对图像高级语义的学习,因此作者采用了双分辨率设计,即首先使用基础模型生成低分辨率token特征图(16x16分辨率,对应于256x256的输入图像),随后将其输入到超分辨率模型中上采样到64x64分辨率(对应于512x512的输入图像),整体流程如下图所示。
在这里插入图片描述
通过这种设计,模型可以实现跨分辨率的信息融合,低分辨率的token包含较多的图像语义,高分辨率的token又兼顾了图像细节,随后通过Transformer中的交叉注意力进行特征融合,并使用更高分辨率的VQGAN解码来得到最终的高质量高分辨率生成图像。

2.5 动态遮蔽率和迭代并行编码

作者对Muse的Mask进行了动态调整,使用基于余弦规则的调节方式来实现动态掩蔽率的训练,具体来说,对于每个训练样本,使用采样函数 p ( r ) = 2 π ( 1 − r 2 ) − 1 2 p(r)=\frac{2}{\pi}\left(1-r^{2}\right)^{-\frac{1}{2}} p(r)=π2(1r2)21 采样掩蔽率 r ∈ [ 0 , 1 ] r \in[0,1] r[0,1] 。与某些自回归方法中来学习条件分布 P ( x i ∣ x < i ) P(x_{i}\mid x_{< i}) P(xix<i) 指导的固定token相比,动态遮蔽率允许模型实现推理阶段的迭代并行编码。迭代并行编码即模型在单个前向传播过程中来同时预测多个输出token,这一操作要求模型在解码时所处理的很多token都是条件独立的,由于这里的解码是通过余弦规则进行调度,该规则要求在当前预测时将最高置信度的区域进行标记,然后在后续步骤中对其进行屏蔽,这样就可以大大提高模型的解码效率,在基础模型中,模型仅通过24个解码步骤就可以完成256个token的推理,而在超分辨率模型中仅使用8个解码步骤就可以执行4096个token推理,这一设计有效提高了Muse模型的推理速度。下图展示了基础模型(左)和超分辨率模型(右)的迭代过程。
在这里插入图片描述

三、实验结果

Muse使用由460M规模的文本图像对构成的Imagen数据集进行训练,训练机器为512核的TPU-v4,batchsize设置为512,大概需要一周的时间进行训练。作者首先展示了Muse奇妙的图像生成效果,如下图所示,它可以根据不同属性的文本提示来精确的合成图像。下图左上角展示了Muse对数字概念的理解能力。下图右上角的例子展示了Muse对对象组合和相关性的理解,其不会简单的将对象放置在一个随机位置,而是会提取输入文本中的方位介词,例如”上与下,左与右“等。下图左下角的示例展示了Muse的跨风格图像生成能力,既可以描绘著名艺术家(例如伦勃朗,是欧洲巴洛克绘画艺术的代表画家之一)的绘画风格,又可以概括较为完整的整体艺术风格(例如中国水墨画)。下图右下角部分展示了Muse渲染单词和短语的能力。
在这里插入图片描述
此外,作者还将Muse与DALL-E 2和Imagen等明星模型进行了对比,对比效果如下图所示,可以看到,在某些文本条件情况下,Muse的生成效果与Imagen持平,图像质量相较于发布较早的DALL-E 2更好。
在这里插入图片描述
随后作者也进行了一系列的量化评估实验,评估数据集使用CC3M和COCO,评价指标为FID和CLIP分数,下面的表格分别展示了Muse在CC3M和COCO上的评估结果。其中Muse的632M版本在CC3M达到了SOTA效果,显着提高了FID和CLIP分数的最新水平
在这里插入图片描述

四、总结

Muse模型的提出,再次证实了使用现有预训练大型语言模型作为训练文本图像合成模型模式的成功,这表明社区努力发展大模型的方向是正确的。此外,作者还表明,基于生成式Transformer架构的Muse模型也可以与现有流行的扩散模型和自回归模型相媲美,同时还具有更高的推理效率,并且还实现了精确的图像编辑功能。但是作者也呼吁社区,在开发生成模型时,也应该考虑模型的安全性,防止其被用于错误信息和危险信息的生成,因此,作者团队选择暂时不发布源代码,需要进行进一步的安全审查。

参考

[1] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., and Chen, M. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022.
[2] Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E., Ghasemipour, S. K. S., Ayan, B. K., Mahdavi, S. S., Lopes, R. G., et al. Photorealistic text-to-image diffusion models with deep language understanding. arXiv preprint arXiv:2205.11487, 2022.
[3] Yu, J., Xu, Y., Koh, J. Y., Luong, T., Baid, G., Wang, Z., Vasudevan, V., Ku, A., Yang, Y., Ayan, B. K., et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2022.
[4] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., et al. Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140):1–67, 2020.

Illustration by Delesign Graphics from IconScout

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/358713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络计划--时间参数的计算和优化

根据网络图的基本概念和原则绘制出网络图之后&#xff0c;我们可以计算网络图中有关的时间参数&#xff0c;主要目的是找出关键路线&#xff0c;为网络计划的优化、调整和执行提供明确的时间概念。如下图中从始点①到终点⑧共有4条路线&#xff0c;可以分别计算出每条路线所需的…

基于Hive的河北新冠确诊人数分析系统的设计与实现

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下&#xff0c;你想解决的问…

通过官网怎么查找联盟申请链接

欢迎关注勤于奋每天12点准时更新国外LEAD相关技术今天还是来聊聊这个问题吧&#xff0c;很多人问我这个问题&#xff0c;我觉得这个都不是啥多难的技术&#xff0c;用点心就能找到。最简单的办法就是通过浏览器去搜索&#xff0c;比如通过google 搜索,就能找到一些信息&#xf…

第三届无线通信AI大赛分享交流会暨颁奖典礼顺利举办,大赛圆满收官

2月16日&#xff0c;第三届无线通信AI大赛分享交流会暨颁奖典礼在北京顺利举行&#xff0c;宣告大赛圆满收官。 分享交流会暨颁奖典礼以线上线下结合的形式展开&#xff0c;邀请无线通信领域的多位专家、学者与「基于AI的信道估计与信道状态信息反馈联合设计」、「基于AI的高精…

将二进制文件作为目标文件中的一个段

将二进制文件作为目标文件中的一个段 python 生成2进制文件 import sysdef testFile(fileName):# --with open(fileName, modewb) as hexFile:bBuf bytes.fromhex("0123456789abcdef")print("bBuf:",bBuf.hex())len hexFile.write(bBuf)print ("l…

Vue3搭建记录

一、初始化项目&#xff1a;项目名称vue3-element-admin npm init vitelatest vue3-element-admin --template vue-ts 二、整合Element-Plus 1.本地安装Element Plus和图标组件 npm install element-plus npm install element-plus/icons-vue 2.全局注册组件 // main.ts imp…

【C#】async关键字修饰后有无await的影响

文章目录测试总结拓展&#xff1a;js的async await问题参考测试 来自微软官网的说法&#xff1a; 异步方法通常包含 await 运算符的一个或多个匹配项&#xff0c;但缺少 await 表达式不会导致编译器错误。 如果异步方法未使用 await 运算符标记悬挂点&#xff0c;则该方法将作…

RK3568工业开发板工控板说明

说明HW356X-GKA是采用中高端的通用型 SOC&#xff0c;一款基于Rockchip公司RK3568处理器的工控主板。主板标配处理器为Cortex-A55四核&#xff0c;最高主频2GHz的RK3568处理器&#xff0c;内置4GB DDR4内存(最大8GB)&#xff0c;32GB eMMC存储。集成4核 arm架构 A55 处理器和Ma…

记录使用ROS驱动USB相机

参考https://blog.csdn.net/weixin_48657767/article/details/126054121?spm1001.2014.3001.5502cmake编译时有bug&#xff0c;缺包&#xff0c;安装对应的包sudo apt-get install ros-melodic&#xff08;对应ros版本&#xff09;-****&#xff08;对应包名&#xff0c;下划线…

OpenGL学习日记之光照计算

引言 现实生活中的光照极其复杂&#xff0c;而且会收到很多因素的影响&#xff0c;是我们当前计算机的算力无法模拟的。因此我们会根据一些简化的模型来模拟现实光照&#xff0c;这样在可以模拟出近似的光照感受&#xff0c;但是又没有那么复杂的计算。 常用的光照模型有&…

27 pandas 数据透视

文章目录pivot_table 函数1、index需要聚合的列名&#xff0c;默认情况下聚合所有数据值的列2、values在结果透视的行上进行分组的列名或其它分组键【就是透视表里显示的列】3、columns在结果透视表的列上进行分组的列名或其它分组键4、Aggfunc聚合函数或函数列表&#xff08;默…

【1】linux命令每日分享——mkdir

大家好&#xff0c;这里是sdust-vrlab&#xff0c;Linux是一种免费使用和自由传播的类UNIX操作系统&#xff0c;Linux的基本思想有两点&#xff1a;一切都是文件&#xff1b;每个文件都有确定的用途&#xff1b;linux涉及到IT行业的方方面面&#xff0c;在我们日常的学习中&…

【Spring】难理解的Aop编程 | 入门?

作者&#xff1a;狮子也疯狂 专栏&#xff1a;《spring开发》 坚持做好每一步&#xff0c;幸运之神自然会驾凌在你的身上 目录一. &#x1f981; 前言二. &#x1f981; 常见概念2.1 常见术语2.2 AOP入门Ⅰ. &#x1f407; 功能场景Ⅱ. &#x1f407; 实现过程2.3 通知类型Ⅰ.…

XXL-JOB分布式任务调度框架(三)-集群部署

文章目录 1.引言2.集群服务启动3.反向代理4.总结1.引言 XXL-JOB有中心化的思想,一旦调度中心挂机会导致整体不可使用,所以要引入集群。 需要考虑点: db配置保持一致登录账号配置保持一致集群机器时钟保持一致(单机集群可忽视)2.集群服务启动 在是在同一台机器中,并且在…

wav2vec 2.0:一种自监督的语音识别方法

总体框架&#xff1a; 主要分为2个大模块&#xff1a;1:语音特征提取模块 2:语音特征向量融合模块 1:特征提取模块 输入&#xff1a;音频 输出&#xff1a;音频特征向量 过程&#xff1a; 1&#xff09;跟具体采样率有关&#xff0c;如果一段1S的音频&#xff0c;采样率是1…

踔厉奋发·勇毅前行 | 2023广和通中国区代理商大会成功召开

2月16日&#xff0c;以“踔厉奋发 勇毅前行”为主题的2023广和通中国区代理商大会暨颁奖晚宴于深圳盛大开启并顺利落幕。广和通CEO应凌鹏、中国区销售部副总裁陈绮华等高层领导出席本次会议并发表演讲&#xff0c;与来自全国各地的代理商合作伙伴齐聚一堂&#xff0c;共话商机。…

云原生周刊 | 2023 年热门:云 IDE、Web Assembly 和 SBOM | 2023-02-20

在 CloudNative SecurityCon 上&#xff0c;云原生计算基金会的首席技术官 Chris Aniszczyk 在 The New Stack Makers 播客的这一集中强调了 2023 年正在形成几个趋势&#xff1a; 随着 GitHub 的 Codespaces 平台通过集成到 GitHub 服务中获得认可&#xff0c;云 IDE&#xf…

【SQL】MySQL秘籍

chihiro-notes 千寻简笔记 v0.1 内测版 &#x1f4d4; 笔记介绍 大家好&#xff0c;千寻简笔记是一套全部开源的企业开发问题记录&#xff0c;毫无保留给个人及企业免费使用&#xff0c;我是作者星辰&#xff0c;笔记内容整理并发布&#xff0c;内容有误请指出&#xff0c;笔…

用户行为分析项目MySQL+Tableau

文章目录1. 项目背景及目的1.1 项目背景1.2 项目目的2. 理解数据3. 数据预处理3.1 字段调整3.2 数据清洗3.2.1 空值3.2.2 重复值3.2.3 异常值4. 数据分析4.1 人4.1.1 获客情况&#xff08;PV、UV、PV/UV)4.1.2 留存情况&#xff08;留存率、跳失率&#xff09;4.1.3 行为情况&a…

数据在内存中的存储【上篇】

文章目录⚙️1.数据类型的详细介绍&#x1f529;1.1.类型的基本归类⚙️2.整型在内存中的存储&#x1f529;2.1.原码、反码、补码&#x1f529;2.2.大小端的介绍⚙️1.数据类型的详细介绍 &#x1f973;基本的内置类型 &#xff1a; &#x1f4a1;char ---------- 字符数据类型…