9款最新文生图模型汇总!含华为、谷歌、Stability AI等大厂创新模型(附论文和代码)

news2024/11/25 22:26:40

2023年真是文生图大放异彩的一年,给数字艺术界和创意圈注入了新鲜血液。从起初的基础图像创作跃进到现在的超逼真效果,这些先进的模型彻底变革了我们制作和享受数字作品的途径。

最近,一些大公司比如华为、谷歌、还有Stability AI等人工智能巨头也没闲着,纷纷推出了自己的最新文生图模型。

今天就给大家盘点一下近期新推出的文生图模型,为了让各位更全面地理解这些技术,我还特别准备了相关的研究论文和代码分享!

1、PanGu-Draw(华为)

论文:PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

PanGu-Draw:通过时间解耦训练和可重用 Coop-Diffusion 推进资源节约型文本到图像合成

简述:本文提出了PanGu-Draw,一种高效的文本到图像潜在扩散模型,能适应多控制信号。该模型采用时间解耦训练策略,分为结构器和纹理器,大幅提升数据和计算效率。同时,研究人员引入Coop-Diffusion算法,允许不同潜在空间和分辨率的模型协同工作,无需额外数据或重新训练。PanGu-Draw在文本到图像和多控制图像生成上表现出色,指向了训练效率和生成多功能性的新方向。

图片

2、Imagen & Imagen 2(谷歌)

论文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

具有深度语言理解的逼真文本到图像扩散模型

简述:本文提出了Imagen,一款新型的文本到图像扩散模型,实现了极高的真实感和深度语言理解。该模型结合了大型Transformer语言模型和扩散模型的技术,优化了语言模型的大小以提高图像质量和文本对齐。在COCO数据集上,Imagen取得了领先的FID分数,且其样本的图像-文本对齐得到了人类评分者的好评。研究人员还引入了DrawBench基准测试,比较了Imagen与其他最新方法,发现其在样本质量和图像文本对齐方面更优秀。

图片

3、SDXL Turbo(Stability AI

论文:Adversarial Diffusion Distillation

对抗性扩散蒸馏

简述:本文提出了SDXL Turbo,它在 SDXL 1.0 的基础上进行迭代,并为文本到图像模型实现了一种新的蒸馏技术:对抗扩散蒸馏(ADD),能够高效地从大规模基础图像扩散模型中采样,同时保持高质量图像。该模型在一步中明显优于现有几步方法,并在四步内达到最先进扩散模型的性能。ADD 是首个使用基础模型实现单步实时图像合成的方法。

图片

4、CM3Leon(Meta)

论文:Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

扩展自回归多模态模型:预训练和指令调优

简述:本文提出了CM3Leon,一种多模态语言模型,擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型,包括大规模检索增强预训练和多任务监督微调阶段。CM3Leon在文本到图像生成上实现了领先性能,计算量比同类方法少5倍。此外,CM3Leon在图像编辑和控制生成等任务中展现出前所未有的可控性。

图片

5、PixArt-α(华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等机构)

论文:PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

PixArt-α:快速训练扩散变压器,实现逼真的文本到图像合成

简述:本文提出了PixArt-α,一种高效的基于Transformer的文本转图像模型,它能以较少的训练资源生成与最先进模型相媲美的商业级图像。PixArt-α采用三种策略:优化的训练步骤、高效的Transformer架构和增强的数据处理,实现了快速、低成本且环保的训练过程。实验结果显示,PixArt-α在多个方面表现出色,为AIGC领域提供了新的创新方向。

图片

6、Kandinsky 3.0(俄罗斯AI Forever研究团队

论文:Kandinsky 3.0 Technical Report

Kandinsky 3.0 技术报告

简述:本文提出了Kandinsky 3.0,一个基于潜在扩散的大规模文本到图像生成模型,旨在提高图像生成的质量和真实性。该模型通过使用更大的U-Net主干网和文本编码器以及去除扩散映射进行改进。文中详细介绍了模型的架构、训练过程和生产系统,并强调了关键组件对提升模型质量的重要性。实验表明,Kandinsky 3.0在文本理解和特定领域表现上有所提升。

图片

7、DreamBooth(谷歌)

论文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth:微调文本到图像扩散模型,用于主题驱动的生成

简述:本文提出了DreamBooth,一种个性化文生图模型,它通过微调预训练的文生图模型,如Imagen,将一个独特的标识符与某个物体绑定,这样模型就可以在含有该标识符的prompt下,在不同场景中生成包含该物体的新颖图片。这种技术利用模型的语义先验和新的特定类先验保留损失,实现了在多样化条件下合成主体的能力。研究人员将此技术应用于多种任务,并提出了新的数据集和评估标准,以推动主题驱动的图像生成的发展。

图片

8、GigaGAN(POSTECH、卡内基梅隆大学和 Adobe 研究院的研究人员)

论文:Scaling up GANs for Text-to-Image Synthesis

扩展 GAN 以进行文本到图像合成

简述:本文提出了GigaGAN,一种改进的 GAN 架构,它被设计用于提高文本到图像合成的效率和质量,它具有三大优势:首先,它在推理时间快几个数量级,合成 512px 的图像只需 0.13 秒;其次,它可以合成高分辨率图像,例如,在 16 秒内合成 3.66 像素的图像;最后,GigaGAN支持各种潜在空间编辑应用,如潜在插值、样式混合和向量算术运算。

图片

9、LCM (清华大学交叉信息研究院的研究者们)

论文:Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

潜在一致性模型:通过少步推理合成高分辨率图像

简述:本文提出了LCM,一种在预训练LDM上快速推理的新模型,通过预测常微分方程的解减少迭代,实现快速、高保真的图像采样。LCM在预训练的无分类器引导扩散模型上表现出色,只需少量步骤即可生成高质量的图像,训练仅需少量计算资源。研究人员还提出了LCF,用于在自定义图像数据集上微调LCM。在LAION-5B-Aesthetics数据集上的评估显示,LCM实现了最先进的文本到图像生成性能。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【文生图模型】获取完整论文和代码

👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1405391.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件工程实验报告(完整)

博主介绍:✌全网粉丝喜爱、前后端领域优质创作者、本质互联网精神、坚持优质作品共享、掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战✌有需要可以联系作者我哦! 🍅附上相关C语言版源码讲解🍅 &#x1f44…

c语言编译链接

目录 目录 前言 一.c语言的编译链接 1.翻译环境 编译阶段可以分为预处理,编译,汇编三个阶段 预处理阶段 编译阶段 词法分析 语法分析 语义分析 汇编阶段 链接阶段 2.运行环境 二.预处理详解 #define定义常量 #define定义宏 宏和函数的对比 #和##运算符…

ETL概念

ETL ETLELT 技术原理ETL 模式应用场景常见工具ETL未来发展方向 ETL 在BI项目中ETL会花掉整个项目至少1/3的时间, ETL设计的好坏直接关接到BI项目的成败。ETL(Extract-Transform-Load) : 用来描述将数据从来源端经过抽取(extract)、转换&…

VS2019配置Reshaper

参考VisualStudio神级插件。一JetBrains Resharpera2023.3.2学习版 拉到下面下载主程序,下载就点下一步就好了 然后不要打开VS2019,再按上面的地址下载学习补丁,下载好如图: 查看ReadMe 我们已经装好Reshaper了,然后点…

gmpy2与一些python库在vscode下没有自动补全的一种缓解方案

经过一定的研究,该问题的原因初步判断是gmpy2这个库天生没有把补全的函数doc说明附在pip包中。且因gmpy2是由C编译而来,以dll或so的形式作为动态链接库给python调用,这意味着无法从源码薅到可用的源码注释。 接下来先讲解决方案,再…

el-table样式错乱解决方案

bug: 图片的椭圆框住的地方,在页面放大缩小之后就对不齐了。 原因: 主要原因是当你对页面放大缩小的时候,页面进行了重构,页面的宽高及样式进行了变化,但是在这个更新的过程中,table的反应并没…

Python爬虫之协程

Python爬虫之协程 为什么要用协程 协程声明 await aiohttp aiofiles 案例修改 案例完整代码 为什么要用协程 轻量级:协程是轻量级的执行单元,可以在同一个线程中并发执行。相比于多线程或多进程,创建和切换协程的开销更小。高效利用资源&…

78.网游逆向分析与插件开发-背包的获取-背包类的C++还原与获取物品名称

内容参考于:易道云信息技术研究院VIP课 上一个内容:77.网游逆向分析与插件开发-背包的获取-物品类的C还原-CSDN博客 码云地址(ui显示角色数据 分支):https://gitee.com/dye_your_fingers/sro_-ex.git 码云版本号&…

影响ETL数据传输性能的9大因素及主流ETL应对策略

前言 现在很多企业在选择ETL工具时都特别关注ETL的数据传输性能,而有很多开源ETL工具都说自已是性能如何如何快,而事实上数据传输性能是不是这些工具说的那样快呢? 数据传输性能受制于哪些因素呢?企业在自身数据库性能受制的情况…

Redis(七)复制

文章目录 是什么功能配置配主库不配从库权限细节 案例配置文件修改 一主二仆固定配置文件主从问题命令操作手动指定 薪火相传反客为主复制原理和工作流程存在问题 是什么 https://redis.io/docs/management/replication/ 就是主从复制,master以写为主,S…

农业气象站的工作原理!

TH-NQ8农业气象站的工作原理是基于传感器技术、数据采集技术、数据传输技术和数据处理技术等多个环节相互配合而实现的。 首先,农业气象站通过各种传感器对不同的气象指标进行实时监测和记录。传感器的种类有很多,包括温度传感器、湿度传感器、风速传感…

3dmax渲不出模型是什么原因---模大狮模型网

3DMax无法渲染模型可能有多种原因。以下是一些常见的问题和解决方法: 材质设置错误:检查模型的材质设置是否正确,包括纹理贴图的路径、UV映射是否正确等。确保材质的属性设置正确,如颜色、反射率、透明度等。 灯光设置问题&#…

vue3中form对象无法赋值问题

加上 async await还是不行 有时候对象的值死活赋不上值,这时候可以看下赋值的对象变量名是否和页面组件中的ref相同,如果存在相同,则参照以下解决方案: 问题定位:setup 中抛出的变量不能与页面组件中的 ref 重复 解决…

第40集《佛法修学概要》

请大家打开讲义第一百零六页。我们讲到大乘的果位。大乘佛法的修学跟小乘最大的差别,主要在于一句话,就是大乘佛法是一种“称性起修,全修在性”。大乘佛法的功德第一个“称性”,这个“称”就是随顺。我们一念明了的心,…

Java 异常及处理|Error、Throwable、Exception

目录 一、Java 异常概述 二、异常类 1、Throwable: 1.1 Throwable 类的常用方法包括: 1.2 创建和抛出 Throwable 2、Error: 2.1 Error 与异常处理的关系 3、Exception: 3.1 如何处理 Exception 方式1 、往外抛&#xff1…

Qt6入门教程 10:菜单栏、工具栏和状态栏

目录 一.菜单栏 1.Qt Designer 1.1添加菜单和菜单项 1.2添加二级菜单 1.3给菜单和菜单项添加图标 1.4给菜单项添加功能 2.纯手写 二.工具栏 1.Qt Designer 1.1添加工具栏按钮 1.2工具栏的几个重要属性 2.纯手写 三.状态栏 1.Qt Designer 2.纯手写 用Qt Creator新…

Unity - 简单音频视频

“Test_04” 音频 使用AudioTest脚本控制Audio Source组件,在脚本中声明"music"和"se"之后,在unity中需要将音频资源拖拽到对应位置。 AudioTest public class AudioTest : MonoBehaviour {// 声明音频// AudioClippublic AudioC…

Raspbian安装云台

Raspbian安装云台 1. 源由2. 选型3. 组装4. 调试4.1 python3-print问题4.2 python函数入参类型错误4.3 缺少mjpg-streamer可执行文件4.4 缺失编译头文件和库4.5 python库缺失4.6 图像无法显示,但libcamera-jpeg测试正常4.7 异常IOCTL报错4.8 Git问题 5. 效果5.1 WEB…

CSS文本外观属性内容(知识点1)

知识引入 使用HTML可以对文本外观进行简单的控制,但是效果并不理想,为此CSS提供了一系列的文本外观样式属性,具体如下。 color:文本颜色 color属性用于定义文本的颜色,其取值方式有以下三种。 (1)预定义…

springboot中一些注解

springboot中一些注解 1:项目启动时会去扫描启动的注解,一般是启动时就想要被加载的方法: 2:springBoot中MSApplication启动类的一些其他注解: EnableAsync:这是一个Spring框架的注解,它用于开启方法异步调用的功能。当…