Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

news2024/11/20 15:39:26

Lumina-T2X 是一个新的内容生成系列模型,统一使用 DiT 架构。通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

可以在大幅提高生成质量的前提下大幅减少训练成本,而且同一个架构支持不同的内容生成。图像质量相当不错。

由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类 6 亿参数模型的 35%。

目前放出了 Lumina-T2I 图像生成模型,模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。

相关链接

论文链接:https://arxiv.org/pdf/2405.05945 模型下载:https://huggingface.co/Alpha-VLLM/Lumina-T2I

论文阅读

摘要

Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的实施细节。

在这份技术报告中,我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器(FLAG-DIT),作为一个统一的框架,旨在将噪声转换为图像,视频,多视图 3D对象和音频剪辑以文本说明为条件。

通过对潜在的时空空间进行象征,并结合了[Nextline]和[NextFrame]令牌等可学习的占位符,Lumina-T2X无缝地统一了各种时空分辨率的不同方式的表示。这种统一的方法可以在单个框架内培训不同方式,并可以在任何分辨率,宽高比和推理期间的长度下灵活地生成多模式数据。诸如绳索,rmsnorm和流匹配之类的高级技术增强了旗帜dit的稳定性,灵活性和可扩展性,使Lumina-T2X的模型可扩展到高达70亿个参数,并将上下文窗口扩展到128K tokens。

带有Lumina-T2I型号和Lumina-T2V型号的长720p视频的图像对于创建超高定义特别有益。值得注意的是,由50亿参数的旗帜驱动的Lumina-T2i仅需要6亿参数NAIVE DIT(PIXART-α)的训练计算成本的35%,这表明参数数量显着增加 加速生成模型的收敛性而不损害视觉质量。我们进一步的全面分析强调了Lumina-T2X在分辨率外推,高分辨率编辑,生成一致的3D视图以及具有无缝过渡的综合视频方面的初步能力。

方法

Flag-dit与标签和文本条件的比较。(左)Flag-dit与标签调节。(右)具有零初始化注意机制的文本条件反射。

我们的Lumina-T2X框架由四个组件组成:逐帧编码,输入和基于Flag-DiT的目标构建、文本编码和预测。

Lumina-T2I是一个统一的和免训练的框架,支持文本到图像的生成,分辨率外推,风格一致生成,合成生成和高分辨率编辑。

实验

Lumina-T2I能够生成任意宽高比的图像,提供优越的分辨率视觉质量和保真度,同时严格遵守给定的文本说明。

Lumina-T2I的分辨率外推样本。无需任何额外的训练,LuminaT2I能够直接生成从512512到17921792的各种分辨率的图像。

由Lumina-T2I生成的风格一致的图像生成样本。给定一个共享样式描述,Lumina-T2I可以生成一批具有不同风格一致内容的图像。

Lumina-T2I的成分生成样本。我们的Lumina-T2I框架可以生成高质量的图像与复杂区域组成基于提示和指定的组合。

演示高分辨率图像的样式编辑和主题编辑教练免费的方式。

Lumina-T2I与PixArt-α在图像生成中的定性比较 多个决议。来自Lumina-T2I的样本显示了与给定文本更好的对齐与PixArt-α相比,在所有分辨率下都具有卓越的视觉质量。

结论

在本文中,我们提出了Lumina-T2X,这是一个统一的框架,旨在将文本说明转换为任意分辨率和持续时间的任何模式,包括图像,视频,3D对象的多视图以及语音。 Lumina-T2X的核心是一系列基于流动的大扩散变压器(FLAG-DIT),精心设计用于可扩展的条件生成。配备了关键修改,包括绳索,RNSNORM,KQ-NORM和零定位的注意体系结构,[NextLine]和[NextFrame]令牌用于数据表示形式,以及与原点扩散变压器相比,我们的旗帜位从扩散到流匹配公式的转换为稳定性,灵活性和可扩展性的大大提高。我们首先验证了Imagenet基准上标志dit的生成能力,该功能表现出卓越的性能和 与扩展模型参数一致的更快收敛。

鉴于这些有前途的发现,我们以各种方式实例化旗杆,并为文本对图像,视频,视频提供统一的食谱 多文章和语音产生。我们证明,该框架不仅可以在任意分辨率下生成逼真的图像或视频任务,例如以无训练的方式推断出外推,高分辨率编辑和组成生成。

总体而言,我们希望我们的尝试,发现和开源的Lumina-T2X可以帮助阐明生成AI的路线图,并成为进一步研究开发有效大型多模式生成模型的新起点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1675113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning

ICML 2023 Poster paper Intro 文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。 Method 原始的RL目标…

【LangChain系列 15】语言模型——LLMs(一)

原文地址:【LangChain系列 15】语言模型——LLMs(一) 本文速读: 异步API 自定义LLM Fake LLM HumanInput LLM 本文将介绍LLMs在LangChain中的一些用法,帮助我们更好地了解LLM模块。 01 异步API LangChain通过异步库实现了对异步的支持&a…

创意无限!AI一键生成漫画视频,每天轻松收入300+,粘贴复制简单操作!

AI项目算是2023到2024一直都非常火爆的项目,这次的AI漫画项目也是相当暴利的项目了,我知道一个老铁通过AI漫画半年已经获利100W了,真的是相当暴利了。 不再多说,直接上手拆解项目。 项目获取: https://zzmbk.com/htt…

Springboot+MybatisPlus如何实现分页和模糊查询

实现分页查询的时候我们需要创建一个config配置类 1、创建MybatisPlusConfig类 Configuration //表明这是一个配置类 ConditionalOnClass(Value{PaginationInterceptor.class} //ConditionalOnClass:当指定的类存在时,才会创建对应的Bean // 这里当PaginationInt…

解决springboot+vue静态资源刷新后无法访问的问题

一、背景 原项目是有前后端分离设计,测试环境是centos系统,采用nginx代理和转发,项目正常运行。 项目近期上线到正式环境,结果更换了系统环境,需要放到一台windows系统中,前后端打成一个jar包,…

最高可得 300 元现金!分享实操经验,即可轻松获得奖励

OpenBayes贝式计算平台第二期「创作者激励计划」上线啦,快来和 HyperAI超神经一起参加吧! 无论你是深度学习、数据科学或大模型的资深玩家,还是刚入门技术小白; 无论你是拥有丰富创作经验的老手,还是刚踏入社交媒体世…

(2024,MambaOut,Mamba 适合长序列,区分指标,不适合分类,适合检测和分割)视觉真的需要 Mamba 吗?

MambaOut: Do We Really Need Mamba for Vision? 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 3. 概念讨论 3.1 Mamba 适合哪些任务? 3.2 视觉识别任…

【小笔记】streamlit使用笔记

【小笔记】streamlit使用笔记 1.streamlit是什么,为什么要用它? 一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。 类似的可视化库…

惠普发布全新AI战略,重塑办公空间 引领企业智能化新浪潮

近日、全球知名科技公司惠普在北京隆重举办了以“用智能,开启无限可能”为主题的2024惠普商用AI战略暨AI PC新品发布会,此次盛会标志着惠普在人工智能领域迈出了重要一步,惠普紧跟时代步伐,推出了更高效、更安全、更灵活的AI PC产…

redis报错500

之前自己举一反三把value也给序列化了: 然后报错了: 原因是这里传入的是Integer类型,序列化的话就变为string类型了

web入门练手案例(一)

下面是一下web入门案例和实现的代码,带有部分注释,倘若代码中有任何问题或疑问,欢迎留言交流~ 新闻页面 案例描述: 互联网的发展使信息的传递变得方便、快捷,浏览新闻称为用户获取信息的重要渠道。下面将实现一个简…

云服务器和主机的区别

在今天的数字化时代,对于个人和企业来说,选择适当的服务器托管解决方案至关重要。然而,很多人对于云服务器和传统主机之间的区别不太清楚。本文将为您提供一个详细的指南,帮助您理解云服务器与主机之间的区别,以便您能…

Chatgpt教你使用Python开发iPhone风格计算器

上次使用Chatgpt写爬虫,虽然写出来的代码很多需要修改后才能运行,但Chatgpt提供的思路和框架都是没问题。 这次让Chatgpt写一写GUI程序,也就是你常看到的桌面图形程序。 由于第一次测试,就来个简单点的,用Python写用…

Linux防火墙iptalbes

1 iptalbes 1.1 概念 防火墙(Firewall)是一种隔离技术,用于安全管理与筛选的软件和硬件设备,使计算机内网和外网分开,可以防止外部网络用户以非法手段通过外部网络进入内部网络,保护内网免受外部非法用户的侵入。 1.2 SELinux …

【瑞萨RA6M3】2. UART 实验

https://blog.csdn.net/qq_35181236/article/details/132789258 使用 uart9 配置 打印 void hal_entry(void) {/* TODO: add your own code here */fsp_err_t err;uint8_t c;/* 配置串口 */err g_uart9.p_api->open(g_uart9.p_ctrl, g_uart9.p_cfg);while (1){g_uart9.…

有 10000 个 if else 该如何优化?被问懵了!

这个问题可以看作是一道场景题,它考察一个程序员在面对复杂逻辑判断时的优化能力,也是在考察一个程序员临场发挥技术能力。 方案1:策略模式 使用策略模式确实可以提升代码的优雅性,但也会存在以下问题: 如果是大量的…

代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集

代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集 文章目录 代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集01背包问题理论基础一、01背包问题二、…

Transformer 模型

文章目录 前言一、模型结构 前言 Transformer 模型是由谷歌在 2017 年提出并首先应用于机器翻译的神经网络模型结构。机器翻译的目标是从源语言(Source Language)转换到目标语言(Target Language)。Transformer 结构完全通过注意力…

JS中的宏任务和微任务

JavaScript 引擎是建立在一个事件循环系统之上的,它实时监控事件队列,如果有事件就执行,如果没有事件就等待。事件系统是一个典型的生产消费模式,生产者发出事件,接收者监听事件,在UI 开发中是常见的一个设…

电源模块效率的正确测试方法

电源效率是评价电源性能的重要指标,它直接关系到设备的稳定性和能源的利用效率。因此,对电源进行效率测试显得尤为重要。电源在工作过程中,会有部分能量损耗,因此,电源效率的高低,不仅影响着设备的性能&…