华为PixArt-α：高质量、低成本的文生图模型，训练时长只有SD 1.5的10.8%

华为PixArt-α：高质量、低成本的文生图模型，训练时长只有SD 1.5的10.8%

news2025/12/23 15:14:53

2024年3月11日由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队共同开发的PixArt-Σ是一款能够直接生成4K分辨率图像的扩散变换模（DiT）。PixArt-Σ相比其前作PixArt-α，在图像质量和文本提示对齐方面有了显著提升，展示了从“弱”到“强”的训练效率。

由于PixArt-Σ和PixArt-α有着很大的关联。所以在向大家介绍PixArt-Σ之前，先为大家介绍PixArt-α的相关工作。

文生图模型如DALLE2、Imagen和Stable Diffusion的发展，开启了逼真图像合成的新时代。这不仅对图片编辑、视频制作、3D素材创建等领域产生了深远影响，还为研究社区和企业提供了许多下游应用的机会。

现在训练一个媲美 MJ 的文生图模型，26K 美元就能实现了。

来自华为诺亚方舟实验室等研究机构的研究者联合提出了开创性的文本到图像（T2I）模型 PixArt-α, PixArt-α主打的是低训练成本。采用Meta之前提出的DiT架构，模型参数只有0.6B，它的训练时长只有SD 1.5的10.8%，而且只使用了25M数据进行训练。

相关链接

项目主页：https://pixart-alpha.github.io/
项目地址：https://github.com/PixArt-alpha/PixArt-alpha
论文地址：https://arxiv.org/abs/2310.00426

在线Demo

Demo试用链接：https://github.com/PixArt-alpha/PixArt-alpha

效果展示

论文阅读

摘要

PIXART-α是一种基于transformer的T2I扩散模型，其图像生成质量与最先进的图像生成器(例如Imagen, SDXL，甚至Midjourney)相媲美，达到了接近商业应用标准。

此外，它支持分辨率高达1024px的高分辨率图像合成，训练成本低。为了实现这一目标，提出了三个核心设计:

(1)训练策略分解:我们设计了三个不同的训练步骤，分别优化像素依赖性、文本-图像对齐和图像美学质量;
(2)高效T2I变压器:在扩散变压器(Diffusion Transformer, DiT)中加入交叉关注模块，注入文本条件，简化计算密集型类条件分支;
(3)高信息量数据:我们强调概念密度在文本-图像对中的重要性，并利用大型视觉语言模型自动标记密集的伪标题，以辅助文本-图像对齐学习。

因此，PIXART-α的训练速度明显超过了现有的大规模tti模型。此外，与更大的SOTA模型RAPHAEL相比，训练成本仅为1%。大量的实验表明，PIXART-α在图像质量、艺术性和语义控制方面表现优异。

方法

相比于T2I的CO2排放与训练花费，PIXART-α实现了26,000美元的极低训练成本。与RAPHAEL相比，碳排放量和训练成本分别仅为1.1%和0.85%。

ControlNet

来自PIXART-α的ControlNet定制样本。使用参考图像生成相应的HED边缘图像，并将其作为PIXART-α ControlNet的控制信号。

DreamBooth

PIXART-α可以与Dreambooth结合使用。在给定少量图像和文本提示的情况下，PIXART-α可以生成高保真图像，表现出与环境的自然交互，精确修改物体颜色。

更多效果

写在最后，PixArt-α的相关知识就为大家介绍到这里，后续会给大家带来华为最新的PixArt-Σ的相关文章介绍，敬请期待！也欢迎大家点击下方卡片，关注“AIGC Studio”！一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1525120.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Mybatis-xml映射文件与动态SQL

Mybatis-xml映射文件与动态SQL

xml映射文件动态SQL <where><if test"name!null">name like concat(%,#{name},%)</if><if test"username!null">and username#{username}</if></where>  <!-- …

阅读更多...

CoAP计算机协议，应用于物联网

CoAP计算机协议，应用于物联网

什么是CoAP协议？ CoAP（Constrained Application Protocol，受限应用协议）是一种专为物联网（IoT）设备和资源受限网络设计的应用层协议。它的诞生也是由于物联网设备大多都是资源限制型的，比如 CP…

阅读更多...

HTML详细教程

HTML详细教程

文章目录前言一、快速开发网站最简模板二、HTML标签1.编码2.title3.标题4.div和span5.超链接6.图片7.列表8.表格9.input系列10.下拉框11.多行文本三、GET方式和POST方式1.GET请求2.POST请求前言 HTML的全称为超文本标记语言，是一种标记语言，是网站开发…

阅读更多...

Spring Boot(六十九)：利用Alibaba Druid对数据库密码进行加密

Spring Boot(六十九)：利用Alibaba Druid对数据库密码进行加密

1 Alibaba Druid简介之前介绍过Alibaba Druid的，章节如下，这里就不介绍了： Spring Boot(六十六)：集成Alibaba Druid 连接池这章使用Alibaba Druid进行数据库密码加密，在上面的代码上进行修改，这章只介绍密码加密的步骤。目前越来越严的安全等级要求，我们在做产品…

阅读更多...

RuoYi-Vue开源项目2-前端登录验证码生成过程分析

RuoYi-Vue开源项目2-前端登录验证码生成过程分析

前端登录验证码实现过程生成过程分析生成过程分析验证码的生成过程简单概括为：前端登录页面加载时，向后端发送一个请求，返回验证码图片给前端页面展示前端页面加载触发代码： import { getCodeImg } from "/api/login&q…

阅读更多...

JavaWeb请求响应

JavaWeb请求响应

目录一请求响应 1.1请求响应概述： 1.2网页接口与发送 1.2.1简单参数传输 1.2.2实体参数 1.2.3数组集合参数编辑1.2.4集合参数 1.2.5日期时间的参数 1.2.6Json参数 1.2.7路径参数小结 1.3响应请求二请求响应小demo 源码链接： 一请求响…

阅读更多...

愈宠引领宠物大健康生态新时代——打造临床医养与新膳食营养的完美融合

愈宠引领宠物大健康生态新时代——打造临床医养与新膳食营养的完美融合

愈宠(VetCurePet)创立于2023年，隶属于中创集宠(深圳)科技有限公司，是一家集研发、生产、销售为一体的综合型现代化企业。愈宠致力于打造宠物大健康生态系统，以临床医养新膳食营养自効愈宠健康，旗下产品涵盖宠物膳食食品烘焙处方粮…

阅读更多...

蓝桥杯嵌入式2021年第十二届第二场省赛主观题解析

蓝桥杯嵌入式2021年第十二届第二场省赛主观题解析

1 题目 2 解析 /* Includes ------------------------------------------------------------------*/ #include "main.h" #include "adc.h" #include "tim.h" #include "gpio.h"/* Private includes ----------------------------…

阅读更多...

sql join

sql join

-- 创建事实表 CREATE TABLE product_facts (id INT AUTO_INCREMENT PRIMARY KEY,product_name VARCHAR(255),price DECIMAL(10, 2) );-- 插入数据 INSERT INTO product_facts (product_name, price) VALUES (Product A, 100.00); INSERT INTO product_facts (product_name, pr…

阅读更多...

【GPT-SOVITS-03】SOVITS 模块-生成模型解析

【GPT-SOVITS-03】SOVITS 模块-生成模型解析

说明：该系列文章从本人知乎账号迁入，主要原因是知乎图片附件过于模糊。知乎专栏地址： 语音生成专栏系列文章地址： 【GPT-SOVITS-01】源码梳理【GPT-SOVITS-02】GPT模块解析【GPT-SOVITS-03】SOVITS 模块-生成模型解析【G…

阅读更多...

分布式搜索引擎（3）

分布式搜索引擎（3）

1.数据聚合 **[聚合（](https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html)[aggregations](https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html)[）](https://www.ela…

阅读更多...

旅游系统-软件与环境

旅游系统-软件与环境

一. 软件 1.Navicat、phpstudy、Idea、Vsode 参考网盘链接二.配置文件 1.NodeJS、JDK、Mysql 参考网盘链接注意点： 1.Mysql 切记需要环境变量配置 2.数据库密码要好记点的，别乱设 3.环境变量配置的路径要能找到三.安装运行 1.下载网盘内的软件&am…

阅读更多...

html系列：按钮被样式图片挡着了，无法点击怎么办

html系列：按钮被样式图片挡着了，无法点击怎么办

背景在开发中会遇到一些奇奇怪怪的需求，比如在按钮上要显示一个样式图片，同时还要能不影响按钮的点击使用；这时候，设置好了样式，按钮无法点击怎么办？ 在查阅资料的时候找到了解决方案。解决方案 …

阅读更多...

kafka集群介绍

kafka集群介绍

介绍 kafka是一个高性能、低延迟、分布式的消息传递系统，特点在于实时处理数据。集群由多个成员节点broker组成，每个节点都可以独立处理消息传递和存储任务。路由策略发布消息由key、value组成，真正的消息是value，key是标识路…

阅读更多...

前端面试题01（css）

前端面试题01（css）

前端面试题01（css） 文章目录前端面试题01（css）1、CSS选择器的优先级2、隐藏元素的方法有哪些3、px和rem的区别4、重绘和重排的区别5、水平垂直居中的方式6、CSS的那些属性可以继承7、预处理器 🎉写在最后 hello hello…

阅读更多...

2023安洵杯 ezjava

2023安洵杯 ezjava

2023安洵杯 ezjava 附件地址：https://github.com/D0g3-Lab/i-SOON_CTF_2023 先看依赖： <dependency><groupId>org.postgresql</groupId><artifactId>postgresql</artifactId><version>42.3.1</version><…

阅读更多...

Google云计算原理与应用（三）

Google云计算原理与应用（三）

目录五、分布式存储系统Megastore（一）设计目标及方案选择（二）Megastore数据模型（三）Megastore中的事务及并发控制（四）Megastore基本架构（五）核心技术——复制…

阅读更多...

Transformer的前世今生 day02（神经网络语言模型

Transformer的前世今生 day02（神经网络语言模型

神经网络语言模型使用神经网络的方法，去完成语言模型的两个问题，下图为两层感知机的神经网络语言模型： 以下为预备概念感知机线性模型可以用下图来表示：输入经过线性层得到输出线性层 / 全连接层 / 稠密层：假…

阅读更多...

【C++ leetcode 】双指针问题

【C++ leetcode 】双指针问题

1. 183. 移动零题目给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素的相对顺序。请注意 ，必须在不复制数组的情况下原地对数组进行操作。题目链接 . - 力扣（LeetCode） 画图和文字分…

阅读更多...

无尘室设计常用参数与选型

无尘室设计常用参数与选型

无尘车间（Clean Room）是指空气无尘度达到规定级别的受控空间。其功能是把空气中的微粒子、有害空气、细菌等污染物排除室外，并将室内的无尘度、温度、湿度、室内压力、气流速度与气流分布、噪音、振动、照明及静电控制在某一需求范围内。无尘车间最主要的作用在于控制产品所…

阅读更多...

推荐文章

最新文章