Llama也能做图像生成?文生图模型已开源

news2024/12/22 18:43:42

导读

基于next-token prediction的图像生成方法首次在ImageNet benchmark超越了LDM, DiT等扩散模型,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

Llama也能做图像生成?文生图模型已开源 香港大学、字节跳动提出了基于自回归模型LLama的图像生成模型LlamaGen。这是基于next-token prediction的图像生成方法首次在ImageNet benchmark超越了LDM, DiT等扩散模型,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。

在这里插入图片描述
图1:LlamaGen生成图像示例。第一行是class-conditional图像生成,第二行是text-conditional图像生成(文生图)。

文章: Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

项目主页: https://peizesun.github.io/llamagen/

开源代码: https://github.com/FoundationVision/LlamaGen

开源模型: https://huggingface.co/FoundationVision/LlamaGen

体验网站: https://huggingface.co/spaces/FoundationVision/LlamaGen

1. 研究动机

多模态大模型的技术路线: 基于next-token prediction的自回归模型主导了大语言模型,那么多模态大模型的技术路线往LLM的技术路线靠是一种非常自然的选择。

我们从ViT中学到了什么? ViT在2020年提出后,CV领域有相当长一段时间内致力于给ViT加inductive bias,例如,多尺度策略,以期实现更优秀的性能。这个过程诞生了许多优秀的工作。但是站在2024年往回看,会发现最初的ViT架构也能够达到相似的性能。那么,同样的故事是否会发生在多模态领域?

自回归模型vs扩散模型: 开源社区对自回归模型做图像生成的印象大多停留在2020年的VQ-GAN的ImageNet benchmark FID15左右。然而,早在2021年的ViT-VQGAN已经达到了FID 3.0左右的性能,DALL-E v1,Parti等更是在文生图领域展现了巨大的潜力。不过这些工作都没有闭源,而同时期的扩散模型在Stable Diffusion社区的带领下一骑绝尘。

于是,研究团队致力于提出开源版的基于自回归模型的图像生成 !!!

2. Method

回顾现有的先进的图像生成模型,我们总结出其成功的三点关键设计:

(1)图像压缩/量化器(image compressors/tokenizers)

(2)可scale up的图像生成模型(scalable image generation models)

(3)高质量的训练数据(high-quality training data)

2.1 重训 image tokenizer

我们采用与VQ-GAN同样的CNN架构将连续的图像转化成离散的token。相比2020年的VQ-GAN,我们对image tokenizer有了更多的认知:一个优秀的tokenizer需要更大的codebook size,更低的codebook vector dimension,同时,更好的图像重建需要更多的token数量。

2.2 基于Llama架构的图像生成模型

我们的模型架构主要基于Llama语言模型,包括使用RMSNorm的pre-normalization、SwiGLU 和 RoPE。我们尽可能的保持与Llama语言模型一模一样的架构,尽管图像生成领域一些常用的技术可能进一步提高性能,如AdaLN。

在Class-conditional和Text-conditional(文生图)图像生成模型中,我们使用最简单的实现:class或text embedding直接作为start token,后续的image token应用next-token prediction范式产生。

2.3 多阶段的文生图模型训练流程

在第一阶段,模型在LAION-COCO的50M子集上进行训练,图像分辨率为 256×256。LAION-COCO原始数据集有 600M图文对。我们通过有效的图像 URL、美学分数、水印分数、CLIP图文相似度分数和图像大小来筛选这些图像。

在第二阶段,模型在10M的内部高美学质量图像上进行微调,图像分辨率为 512×512。这些美学图像的文本描述由LLaVa产生。

2.4 LLM部署框架

基于原生自回归模型架构的图像生成模型可以无缝采用现有的LLM部署框架,例如vLLM。这也是统一模型架构的一大优势。

3. 实验

3.1 Image tokenizers (图像量化器)

我们重新训练的image tokenizer在ImageNet和COCO上优于以前的tokenizers,包括VQGAN,ViT-VQGAN, MaskGIT。重要的是,基于离散表征的tokenizer与基于连续表征的VAE性能持平,例如在扩散模型中被广泛使用的SD VAE。这表明图像量化的离散表征不再是图像重建的一大瓶颈。

在这里插入图片描述

3.2 Class-conditional image generation

在ImageNet benchmark中,LlamaGen在 FID、IS、Precision和Recall等指标上都表现出了极强的竞争力,其中,LlamaGen-3B 模型优于广为流行的扩散模型 LDM和DiT。这表明最朴素的自回归模型架构有能力作为先进图像生成系统的基础模型。同时,与之前的自回归模型相比,我们的模型在各个参数量级上均优于以前的模型。这得益于更好的image tokenizer和Llama架构更好的扩展性。

在这里插入图片描述

3.3 Text-conditional image generation (文生图)

经过第一阶段的训练,模型基本拥有了图文对齐的能力,但其生成图像的视觉质量有待提高。第二阶段的训练显著提高了生成图像的视觉质量。我们认为这种提高来自两个方面:(1)第二阶段的训练使用了高质量的美学图像(2)第一阶段的图像分辨率是256x256,第二阶段是512x512,更大的图像分辨率会带来更好的视觉效果。

图片

当输入更长的文本时,LlamaGen也可以生成兼具图文对齐与视觉质量的图像。

图片

3.4 部署

基于vLLM部署框架,LlamaGen实现了326% - 414%的加速。

图片

4. 结语

如果以扩散模型的发展路线做类似,目前的LlamaGen只是Stable Diffusion v1阶段,改进方向包括SDXL(更大的分辨率,更多的aspect ratio),ControlNet(更高的可控性),Sora(视频生成)。

从多模态大模型的视角看,自回归模型分别实现理解任务和生成任务都被证明了可行性,下一步就是在同一个模型中联合训练。这需要更多的图文数据和更大的计算资源才能走得通,也可能由于文本数据和图像数据的内在distribution不同这条路走到后面不太行得通。

大模型时代,一切皆有可能!

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【AI大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变_图像识别大模型

写在前面 2023年12月31日,第十九届中国图象图形学学会青年科学家会议在广州举行,由中国图象图形学学会主办。 该会议的目标是促进青年科学家之间的交流与合作,以提升我国在图像图形领域的科研水平和创新能力。 由中国图象图形学学会和上海合合…

如何将音频文件发送至摄像头

目前再很多互联互通的场景下,如AI盒子再从摄像头上取视频分析,分析出发生某个事件,需要反向通过摄像头的喇叭播放语音,发出告警提示,使用场景如下 盒子上对于此类场景的需求往往不能满足,或者为这个需求需要…

Day8: 232.用栈实现队列 225. 用队列实现栈 20. 有效的括号 1047. 删除字符串中的所有相邻重复项

题目232. 用栈实现队列 - 力扣(LeetCode) class MyQueue { public:MyQueue() {}void push(int x) { // 出栈input.push(x);}int pop() {// 如果出栈为空,把入栈元素全都转移到出栈if (output.empty()) {while (!input.empty()) {int itop i…

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第52课-语音控制机器人

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第52课-语音控制机器人 使用dtns.network德塔世界(开源的智体世界引擎),策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎…

彭涛 | 2024年6月小结

6月是忙碌的一个月,换办公室,买家具,群发售,新小伙伴入职等等 1、出海小报童 这个月时间主要做小报童,从刚开始设计内容大纲,到写作,后续拉新花费了大量时间。 比如我们要去调研同行&#xff0c…

新能源行业必会基础知识-----电力市场概论笔记-----中长期合约电力市场

新能源行业知识体系-------主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/139946830 目录 1. 合约市场2. 双边交易3. 集中交易4. 挂牌交易及互联网中长期电力交易平台5. 中长期交易的优势 1. 合约市场 什么是合约市场 …

从选题到定稿:软考高级系统架构设计师论文写作全攻略

一、论文考试概述 软考系统架构设计师考试的最后一门是论文写作,安排在下午进行,时长两小时,要求撰写约3000字的论文,以45分为及格线。时间紧迫,不容过多犹豫与思考,因此需迅速选定并着手撰写。论文题目通…

【数据结构】C语言实现二叉树

C语言实现二叉树 导读一、二叉树的数据类型二、二叉树的初始化2.1 补充知识点——传址传参2.2 补充知识点——指针传参 三、二叉树的创建3.1 通过添加结点创建BST3.2 通过结点序列创建二叉树3.2.1 由遍历序列手算构建二叉树3.2.1.1 构建步骤3.2.1.2 习题演练3.2.1.3 小结 3.2.2…

在C#/Net中使用Mqtt

net中MQTT的应用场景 c#常用来开发上位机程序,或者其他一些跟设备打交道比较多的系统,所以会经常作为拥有数据的终端,可以用来采集上传数据,而MQTT也是物联网常用的协议,所以下面介绍在C#开发中使用MQTT。 安装MQTTn…

yolov5实例分割跑通以及C#读取yolov5_Seg实例分割转换onnx进行检测部署

一、首先需要训练yolov5_seg的模型,可以去网上学习,或者你直接用我的, 训练环境和yolov5—7.0的环境一样,你可以直接拷过来用。 yolov5_seg算法 链接:https://pan.baidu.com/s/1m-3lFWRHwg5t8MmIOKm4FA 提取码&…

第十四届蓝桥杯省赛C++B组D题【飞机降落】题解(AC)

解题思路 这道题目要求我们判断给定的飞机是否都能在它们的油料耗尽之前降落。为了寻找是否存在合法的降落序列,我们可以使用深度优先搜索(DFS)的方法,尝试所有可能的降落顺序。 首先,我们需要理解题目中的条件。每架…

tcpdump命令详解及使用实例

1、抓所有网卡数据包,保存到指定路径 tcpdump -i any -w /oemdata/123.pcap&一、tcpdump简介 tcpdump可以将网络中传送的数据包完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来去掉无用的信…

Python中爬虫编程的常见问题及解决方案

Python中爬虫编程的常见问题及解决方案 引言: 随着互联网的发展,网络数据的重要性日益突出。爬虫编程成为大数据分析、网络安全等领域中必备的技能。然而,爬虫编程不仅需要良好的编程基础,还需要面对着各种常见的问题。本文将介绍…

Qt中文乱码如何解决

目录 一、使用建议 二、其它设置 一、使用建议 Qt对中文的支持不是很友好,使用QtCreator会出现各种乱七八糟的中文代码问题,如何处理这种问题? (1)粘贴别人的代码时,先在记事本里粘贴一遍,再…

【Python机器学习】gradio库(快速创建简单的 Web 界面来演示机器学习模型)

文章目录 1. 主要特点2. 安装 Gradio3. 基于tensorflow的例子4. 基于Pytorch的例子4.1 步骤4.2 代码4.3 使用说明Gradio 是一个 Python 库,用于快速创建简单的 Web 界面来演示机器学习模型。它被广泛用于各种应用,如音频、文本、图像处理和更多。Gradio 使得任何人都可以轻松…

深圳比创达电子EMC|EMC电磁兼容性行业:推动电子产品向更高发展

随着科技的飞速发展,电子产品在我们的日常生活中无处不在,从智能手机到智能家居,从医疗设备到工业自动化,这些设备的普及和更新换代对电磁兼容性(EMC)提出了更高的要求。 一、EMC电磁兼容性行业的概述 EM…

深度学习笔记: 最详尽解释预测系统的分类指标(精确率、召回率和 F1 值)

欢迎收藏Star我的Machine Learning Blog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star, 有问题可以随时与我交流, 谢谢大家! 预测系统的分类指标(精确率、召回率和 F1 值) 简介 让我们来谈谈预测系统的分类指标以及对精确率、召回…

气象站的气象工具都有哪些呢?

气象站,作为观测和记录天气现象的重要基地,拥有一系列专业的气象工具。这些工具不仅能够帮助我们深入了解大气的运动规律,还能为天气预报、气候研究等提供宝贵的数据支持。 风速风向仪也是气象站重要的工具。它通常由风向变送器和风速变送器组…

【数据结构与算法】堆排序算法原理与实现:基于堆实现的高效排序算法

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《数据结构与算法》 期待您的关注 ​ 目录 一、引言 堆排序的简介 堆排序的特点 二、堆的概念 三、堆排序算法的原理 四、堆…

智能技术【机器学习】总结

文章目录 第一部分 优化第二部分 模型第一章 神经网络(MLP, BP, CNN, GNN, and Attention)1.1 神经网络基础1.1.1 高次非线性函数1.1.2 感知器与神经网络1.1.3 联结主义模型1.1.4 动机——为什么每个人都在谈论深度学习?1.1.5 背景1.1.6 神经…