DiffiT

news2024/11/27 21:02:37

本文首发于AIWalker,欢迎关注。

alt

https://arxiv.org/abs/2312.02139
https://github.com/NVlabs/DiffiT

扩散模型以其强大的表达能力和高样本质量在许多领域得到了新的应用。对于样本生成,这些模型依赖于通过迭代去噪生成图像的去噪神经网络。然而,去噪网络架构的作用并没有得到很好的研究,大多数工作都依赖于卷积残差U-Nets。
本文研究了视觉transformer在基于扩散的生成学习中的有效性。本文提出一种新模型,称为扩散视觉transformer (DiffiT),由一个具有U形编码器和解码器的混合分层架构组成。本文提出一种新的依赖时间的自注意力模块,允许注意力层以有效的方式自适应其在去噪过程的不同阶段的行为
此外,本文还提出了LatentDiffiT,由transformer模型和所提出的自注意力层组成,用于高分辨率图像生成。结果表明,DiffiT在生成高保真图像方面惊人地有效,并在各种类条件和无条件合成任务中实现了最先进的(SOTA)基准。在潜空间中,DiffiT在ImageNet256数据集上取得了新的SOTA FID分数1.73

alt

本文方案

alt

上图为本文所提DiffIT整体架构示意图,很明显,核心是所提DiffiT ResBlock,故我们仅对该核心模块进行简要介绍。

alt

上图为DiffiT模块示意图,可以描述如下:

关于TMSA,在每一层,我们的transformer块接收{xs},一组标记在其输入中空间上排列在2D网格上。它还接收xt,这是表示时间步长的时间标记。通过将位置时间嵌入提供给具有swish激活的小型MLP来获得时间标记[19]。这次令牌被传递到我们的去噪网络中的所有层。本文提出了时间依赖的多头自注意力,通过在共享空间中投影特征和时间标记嵌入来捕捉长程空间和时间依赖性。具体来说,共享空间中的时间依赖查询q、键k和值v是 通过空间和时间嵌入的线性投影xs和xt via计算

alt

key、query和value都是时间和空间token的线性函数,它们可以针对不同的时间步长自适应地修改注意力的行为。

alt

图像空间

DiffIT结构 DiffiT使用对称的u型编码器-解码器架构,其中收缩和扩展路径在每个分辨率上通过跳跃连接相互连接。编码器或解码器路径的每个分辨率由L连续的DiffiT块组成,其中包含所提出的时间依赖的自注意力模块。在每条路径的开始,对于编码器和解码器,使用一个卷积层来匹配特征图的数量。此外,卷积上采样或下采样层还用于每个分辨率之间的过渡。我们推测,这些卷积层的使用嵌入了可以进一步提高性能的归纳图像偏差。在本节的其余部 分,我们讨论了DiffiT Transformer块和提出的时间依赖自注意力机制。在构建u型去噪架构时,使用所提出的Transformer块作为残差单元。

DiffiT ResBlock 通过将所提出的DiffiT Transformer块 与额外的卷积层相结合,定义最终的残差单元:

alt

潜空间

潜扩散模型被证明可以有效地生成高质量的大分辨率图像。在图4中,我们展示了隐DiffiT模型的架构。我们首先使用预训练的变分自编码器网络对图像进行编码,然后将特征图转换为不重叠的块并投影到新的嵌入空间。与DiT模型[52]类似,我们使用视觉transformer,没有上采样或下采样层,作为潜空间中的去噪网络。此外,还利用三通道无分类器指导来提高生成样本的质量。架构的最后一层是一个简单的线性层,用于对输出进行解码。

alt

本文实验

alt

alt DiffiT在CIFAR- 10数据集上取得了最先进的图像生成FID分数1.95, 超 过 了EDM [34]和LSGM [69]等 最 先 进 的 扩 散 模 型 。 与 最 近 的 两 个 基 于vit的 扩 散 模 型 相 比 , 所 提出的DiffiT在CIFAR-10数据集上的FID分数明显优 于U-ViT [7]和GenViT [76]模 型 。 此 外 , 就FID分 数 而言,DiffiT在VP和VE训练配置方面明显优于EDM [34]和ddpm++ [66]模型。在图5中,我们对FFHQ-64数 据集上生成的图像进行了说明。

alt
alt
  • 在ImageNet-256数据集中, 潜在DiffiT模型在FID分数方面优于MDT-G [21]、DiTXL/2-G [52]和StyleGAN-XL [61]等竞争方法,并设 置了新的SOTA FID分数为1.73。在IS和sFID等其他 指 标 方 面 , 潜DiffiT模 型 表 现 出 了 有 竞 争 力 的 性 能 , 从 而 表 明 了 所 提 出 的 时 间 依 赖 自 注 意 力 的 有 效 性 。
  • 在ImageNet-512数 据 集 中 , 隐DiffiT模 型 在FID和Inception分数(IS)方面明显优于DiT-XL/2-G。 尽管StyleGAN-XL [61]在FID和IS方面显示了更好的 性能,但众所周知,基于gan的模型存在多样性低 的问题,这些问题无法被FID分数捕获。这些问题 反映在StyleGAN-XL在准确率和召回率方面的次优 性能上。
  • 此外,在图6中,我们展示了在ImageNet- 256和ImageNet-512数据集上生成的未策划图像的可视 化。潜DiffiT模型能够在不同的类别中生成各种高质量 的图像。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1300552.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每天五分钟计算机视觉:使用1*1卷积层来改变输入层的通道数量

本文重点 在卷积神经网络中有很多重要的卷积核,比如1*1的卷积核,3*3的卷积核,本文将讲解1*1的卷积核的使用,它在卷积神经网络中具有重要的地位。由于1*1的卷积核使用了最小的窗口,那么1*1的卷积核就失去了卷积层可以识…

Redis 持久化 —— 超详细操作演示!

四、Redis 持久化 四、Redis 持久化4.1 持久化基本原理4.2 RDB持久化4.3 AOF持久化4.4 RDB与AOF对比4.5 持久化技术转型 五、Redis 主从集群六、Redis 分布式系统七、Redis 缓存八、Lua脚本详解九、分布式锁 数据库系列文章: 关系型数据库: MySQL —— 基础语法大全…

leetcode 100.相同的树

涉及到递归,最好多画图理解,希望对你们有帮助 100.相同的树 题目 给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 题目链接…

2023-12-05 Qt学习总结6

点击 <C 语言编程核心突破> 快速C语言入门 Qt学习总结 前言十八 QMessageBox消息对话框十九 Qt布局管理总结 前言 要解决问题: 学习qt最核心知识, 多一个都不学. 十八 QMessageBox消息对话框 QMessageBox消息对话框是Qt中的一个提供用户交互界面的对话框窗口。 它通常…

perl处理base64、md5、SHA-1、SHA-256的计算

使用perl可以进行base64、md5、SHA-1、SHA-256的计算&#xff0c;使用也非常方便&#xff0c;下面是示例代码&#xff1a; #! /usr/bin/perl use v5.14; use MIME::Base64; use Digest;my $test_str hello world;# 测试base64 say encode_base64($test_str);# 测试md5 my $md…

kafka入门(四):消费者

消费者 (Consumer ) 消费者 订阅 Kafka 中的主题 (Topic) &#xff0c;并 拉取消息。 消费者群组&#xff08; Consumer Group&#xff09; 每一个消费者都有一个对应的 消费者群组。 一个群组里的消费者订阅的是同一个主题&#xff0c;每个消费者接收主题的一部分分区的消息…

STM32-TIM定时器输出比较

目录 一、输出比较简介 二、PWM简介 三、输出比较通道&#xff08;通用&#xff09; 四、输出比较通道&#xff08;高级&#xff09; 五、输出比较模式 六、PWM基本结构 七、PWM参数计算 八、外设介绍 8.1 舵机 8.2 直流电机及驱动 九、开发步骤 十、输出比较库函数…

TCP数据粘包的处理

TCP数据粘包的处理 背锅侠TCP解决方案2.1 发送端2.2 接收端 背锅侠TCP 在前面介绍套接字通信的时候说到了TCP是传输层协议&#xff0c;它是一个面向连接的、安全的、流式传输协议。因为数据的传输是基于流的所以发送端和接收端每次处理的数据的量&#xff0c;处理数据的频率可…

springboot084基于springboot的论坛网站

springboot084基于springboot的论坛网站 源码获取&#xff1a; https://docs.qq.com/doc/DUXdsVlhIdVlsemdX

[香橙派]orange pi zero 3 烧录Ubuntu系统镜像——无需HDMI数据线安装

一、前言 本文我们将介绍如何使用orange pi zero 3 安装Ubuntu系统&#xff0c;本文相关步骤均参考自开发手册。 二、实施准备 根据开发手册中所提到的&#xff0c;我们应该拥有如下配件: 1.orange pi zero 3 开发板 2.TF 卡——最小 8GB 容量的 class10 级或以上的高速闪迪卡。…

十大排序算法讲解

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和技术。关…

ActiveMQ任意文件写入漏洞(CVE-2016-3088)

简述&#xff1a;ActiveMQ的fileserver支持写入文件(但是不支持解析jsp),同时也支持移动文件。所以我们只需要先上传到服务器&#xff0c;然后再移动到可以解析的地方即可造成任意文件写入漏洞。我们可以利用这个漏洞来上传webshell或者上传定时任务文件。 漏洞复现 启动环境 …

一个例子带你入门影刀编码版(一)

文章结构 摘要需求分析伪代码编写代码实现完整代码相关链接 摘要 将通过一个电商业务场景下的真实需求&#xff0c;带领大家零基础入门影刀编码版&#xff0c;本系列将会分三步讲解&#xff0c;从接到需求到最后完成发版&#xff0c;整个过程中我们需要做些什么&#xff1f;带…

网页设计中增强现实的兴起

目录 了解增强现实 增强现实的历史背景 AR 和网页设计的交叉点 AR 在网页设计中的优势 增强参与度和互动性 个性化的用户体验 竞争优势和品牌差异化 AR 在网页设计中的用例 结论 近年来&#xff0c;增强现实已成为一股变革力量&#xff0c;重塑了我们与数字领域互动的方式。它被…

2023北京智慧城市与电气高峰论坛-安科瑞 蒋静

2023年7月27日&#xff0c;北京土木建筑学会电气设计委员会、北京电气设计技术协作及情报交流网联合举办的“北京电气设计第43届年会”在京盛大召开。安科瑞作为企业微电网能效管理平台服务商与广大同仁共聚本次盛会&#xff0c;尽享技术盛宴。 本次会议采用线上线下相结合&…

Spring JDBC和事务管理

Spring JDBC是Spring框架用来处理关系型数据库的模块&#xff0c;对JDBC的API进行了封装。 Spring JDBC的核心类为JdbcTemplate&#xff0c;提供数据CRUD方法 Spring JDBC使用步骤 Maven工程引入依赖spring-jdbc <dependency><groupId>org.springframework<…

logstash插件简单介绍

logstash插件 输入插件(input) Input&#xff1a;输入插件。 Input plugins | Logstash Reference [8.11] | Elastic 所有输入插件都支持的配置选项 SettingInput typeRequiredDefaultDescriptionadd_fieldhashNo{}添加一个字段到一个事件codeccodecNoplain用于输入数据的…

代码随想录二刷 |二叉树 | 二叉树的右视图

代码随想录二刷 &#xff5c;二叉树 &#xff5c; 二叉树的右视图 题目描述解题思路代码实现 题目描述 199.二叉树的右视图 给定一个二叉树的 根节点 root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 示例…

【vtkWidgetRepresentation】第八期 vtkImplicitCylinderRepresentation

很高兴在雪易的CSDN遇见你 前言 本文分享vtkImplicitCylinderRepresentation&#xff0c;主要从源码解析、和实际应用方面展开&#xff0c;希望对各位小伙伴有所帮助&#xff01; 感谢各位小伙伴的点赞关注&#xff0c;小易会继续努力分享&#xff0c;一起进步&#xff01; …

基于PLC的电梯控制系统(论文+源码)

1.系统设计 电梯采用了PLC控制方式&#xff0c;通过对PLC进行逻辑程序设计&#xff0c;电梯不仅在控制水平上得到了质的提升&#xff0c;同时在安全性上也得到了大大提高。控制系统在构造上实现了简洁化&#xff0c;不仅优化了硬件接线方便了线路施工&#xff0c;同时对控制要…