[读论文]-FreeU: Free Lunch in Diffusion U-Net 提高生成质量

news2024/11/24 10:53:04

摘要

In this paper, we uncover the untapped potential of diffusion U-Net, which serves as a “free lunch” that substantially improves the generation quality on the fly.
We initially investigate the key contributions of the U-Net architecture to the denoising process and identify that its main backbone primarily contributes to denoising, whereas its skip connections mainly introduce high-frequency features into the decoder module, causing the network to overlook the backbone semantics.
Capitalizing on this discovery, we propose a simple yet effective method—termed “FreeU” — that enhances generation quality without additional training or finetuning.
Our key insight is to strategically re-weight the contributions sourced from the U-Net’s skip connections and backbone feature maps, to leverage the strengths of both components of the U-Net architecture.
Promising results on image and video generation tasks demonstrate that our FreeU can be readily integrated to existing diffusion models, e.g., Stable Diffusion, DreamBooth, ModelScope, Rerender and ReVersion, to improve the generation quality with only a few lines of code. All you need is to adjust two scaling factors during inference.

在本文中,我们揭示了扩散U-Net尚未开发的潜力,它可以作为“免费午餐”,在运行中大幅提高发电质量。

我们首先研究了U-Net架构对去噪过程的关键贡献,并确定其主要骨干主要有助于去噪,而其跳过连接主要将高频特征引入解码器模块,导致网络忽略骨干语义。

利用这一发现,我们提出了一种简单而有效的方法-称为“FreeU”-无需额外的培训或微调即可提高生成质量。

我们的关键见解是战略性地重新权衡来自U-Net的跳过连接和骨干特征映射的贡献,以利用U-Net架构的两个组件的优势。

在图像和视频生成任务上的良好结果表明,我们的FreeU可以很容易地集成到现有的扩散模型中,例如,Stable diffusion, DreamBooth, ModelScope, renderer和ReVersion,只需要几行代码就可以提高生成质量。您所需要的只是在推理过程中调整两个比例因子。

 

Fig.1
FreeU,一种无需任何成本就能大幅提高扩散模型样本质量的方法:无需训练,无需额外参数

Introduction

Beyond the application of diffusion models, in this paper, we are interested in investigating the effectiveness of diffusion U-Net for the denoising process.
To better understand the denoising pronizhe cess, we first present a paradigm shift toward the Fourier domain to perspective the generated process of diffusion models, a research area that has received limited prior investigation.
As illustrated in Fig. 2, the uppermost row provides the progressive denoising process, showcasing the generated images across successive iterations.
The subsequent two rows exhibit the associated low-frequency and high-frequency spatial domain information after the inverse Fourier Transform, aligning with each respective step.
除了扩散模型的应用之外,本文还对扩散U-Net在去噪过程中的有效性进行了研究。
为了更好地理解去噪过程,我们首先提出了一种范式转移到傅里叶域,以透视扩散模型的生成过程,这是一个研究领域,之前的研究有限。
如图2所示,最上面一行提供了渐进去噪过程,展示了在连续迭代中生成的图像。
随后的两行显示了傅里叶反变换后相关的低频和高频空间域信息,与每个步骤对齐。

Evident from Fig. 2 is the gradual modulation of lowfrequency components, exhibiting a subdued rate of change, while their high-frequency components display more pronounced dynamics throughout the denoising process.   These findings are further corroborated in Fig.3.   This can be intuitively explained: 1) Low-frequency components inherently embody the global structure and characteristics of an image, encompassing global layouts and smooth color.   These components encapsulate the foundational global elements that constitute the image’s essence and representation.   Its rapid alterations are generally unreasonable in denoising processes.  Drastic changes to these components could fundamentally reshape the image’s essence, an outcome typically incompatible with the objectives of denoising processes.  2) Conversely, high-frequency components contain the rapid changes in the images, such as edges and textures.  These finer details are markedly sensitive to noise, often manifesting as random high-frequency information when noise is introduced to an image.  Consequently, denoising processes need to expunge noise while upholding indispensable intricate details.

从图2中可以明显看出,低频分量的逐渐调制表现出较低的变化率,而高频分量在整个去噪过程中表现出更明显的动态
这些发现在图3中得到进一步证实。
这可以直观地解释为:
1) 低频分量固有地体现了图像的全局结构和特征,包括全局布局和平滑的颜色。
这些组件封装了构成图像本质和表现形式的基本全局元素。
它的快速变化通常在去噪过程中是不合理的。
这些成分的剧烈变化可能会从根本上重塑图像的本质,这一结果通常与去噪过程的目标不相容。
2) 相反,高频分量包含图像的快速变化,如边缘和纹理。这些更精细的细节对噪声非常敏感,当噪声被引入图像时,它们通常表现为随机的高频信息。
因此,去噪过程需要在去除噪声的同时保留必要的复杂细节
 

 Fig.3

Figure 3. Relative log amplitudes of Fourier with variations of the backbone scaling factor b. Increasing in b correspondingly results in a suppression of highfrequency components in the images generated by the diffusion model.
图3。傅里叶的相对对数振幅与主干比例因子b的变化。
增加b相应的结果抑制了扩散模型产生的图像中的高频成分
没看懂

In light of these observations between low-frequency and high-frequency components during the denoising process, we extend our investigation to ascertain the specific contributions of the U-Net architecture within the diffusion framework.
In each stage of the U-Net decoder, the skip features from the skip connection and the backbone features are concatenated together.
Our investigation reveals that the main backbone of the U-Net primarily contributes to denoising. Conversely, the skip connections are observed to introduce high-frequency features into the decoder module.
These connections propagate fine-grained semantic information to make it easier to recover the input data.
However, an unintended consequence of this propagation is the potential weakening of the backbone’s inherent denoising capabilities during the inference phase.
This can lead to the generation of abnormal image details, as illustrated in the first row of Fig. 1.

鉴于在去噪过程中低频和高频分量之间的这些观察结果,我们扩展了我们的研究,以确定U-Net架构在扩散框架中的具体贡献。
在U-Net解码器的每一阶段,从跳变连接得到的跳变特征骨干特征被连接在一起。我们的研究表明,U-Net的主干网主要有助于去噪
相反,可以观察到跳过连接将高频特征引入解码器模块。这些连接传播细粒度的语义信息,以便更容易地恢复输入数据。
然而,这种传播的一个意想不到的后果是在推理阶段骨干网固有的去噪能力的潜在削弱。这可能导致生成异常的图像细节,如图1第一行所示。



 

Figure 4.  FreeU Framework.  (a) U-Net Skip Features and Backbone Features.  In U-Net, the skip features and backbone features are concatenated together at each decoding stage.  We apply the FreeU operations during concatenation.  (b) FreeU Operations.  The factor b aims to amplify the backbone feature map x, while factor s is designed to attenuate the skip feature map h
图4。FreeU框架。
(a) U-Net跳变特征和骨干特征。在U-Net中,跳过特征和骨干特征在每个解码阶段都串联在一起。我们在连接期间应用FreeU操作。
(b)FreeU。因子b用于放大骨干特征图x,因子s用于衰减跳跃特征图h

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1972746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《计算机网络》(第8版)第9章 无线网络和移动网络 复习笔记

第 9 章 无线网络和移动网络 一、无线局域网 WLAN 1 无线局域网的组成 无线局域网提供移动接入的功能,可分为两大类:有固定基础设施的和无固定基础设 施的。 (1)IEEE 802.11 IEEE 802.11 是无线以太网的标准,是有固定…

SQL数据库备份

转载:数据库备份与还原 1. 以下过程为记录客户单位备份过程。 一般有E盘选择E盘备份,否则选择D盘备份。选中备份文件需要重命名,以防原文件被覆盖。切换选项,选中压缩备份。

IoTDB 入门教程 问题篇④——外网攻击导致OOM内存溢出,服务崩溃

文章目录 一、前文二、思考问题三、验证问题五、深入思考六、总结 一、前文 IoTDB入门教程——导读 二、思考问题 从上一篇博客得知,因为内存大小设置的不合理,容易导致OOM内存溢出,最终导致服务崩溃。 事后转念一想,又在思考&…

【ADC】欠采样的基本理论及其应用中的抗混叠滤波器设计原则

概述 之前的两篇文章:信号采样中的频谱混叠现象、频谱混叠的MATLAB仿真与抗混叠滤波器设计 介绍了关于 ADC 采样时,有关奈奎斯特采样定律的基本理论、频谱混叠现象的由来,以及抗混叠滤波器的设计与仿真。但这都是基于过采样的情况&#xff0…

如何理解进程?

前言: 我们在前面的对操作系统的学习,目的是为了让我们加深操作系统对“管理”的描述。我们在上一节了解到操作系统存在许多管理,今天我们就来初次了解一下——进程管理。 进程概念: 课本概念:程序的一个执行实例&…

cube studio 修改logo 水印,标题,图标等信息。

修改logo 修改后需重新打包前端镜像 修改登录界面标题 修改配置文件config.py中的app_name变量,线上需要重启后端pod 修改水印 修改后需重新打包前端镜像 修改标题 修改后需重新打包前端镜像 修改个性化图标 修改后需重新打包后端镜像 修改后需重新打包前端镜…

Elasticsearch:使用 API 密钥验证添加远程集群

API 密钥身份验证使本地集群能够通过跨集群 API 密钥(cross-cluster API key)向远程集群进行身份验证。API 密钥需要由远程集群的管理员创建。本地集群配置为在向远程集群发出每个请求时提供此 API 密钥。远程集群将根据 API 密钥的权限验证 API 密钥并授…

JVM—CMS收集器

参考资料:深入理解Java虚拟机:JVM高级特性与最佳实践(第3版)周志明 CMS收集器(Concurrent Mark Sweep)是一种以获取最短回收停顿时间为目标的收集器。低并发收集、低停顿。 CMS收集器是基于标记—清除算法实…

数据库相关概念大全!

一、什么是数据库? 1.数据库 数据库是一种更易于访问、更高效且更有条理的长期存储和处理信息的方式。 2. 优点,作用 数据库存储数据的规范性和系统性以及其检索数据的便捷性使其成为基于 Web 的应用程序中重要的部分。 数据库几乎可以用于所有应用程…

谷粒商城实战笔记-110~114-全文检索-ElasticSearch-查询

文章目录 一,110-全文检索-ElasticSearch-进阶-两种查询方式二,111-全文检索-ElasticSearch-进阶-QueryDSL基本使用&match_all三,112-全文检索-ElasticSearch-进阶-match全文检索四,113-全文检索-ElasticSearch-进阶-match_ph…

HarmonyOS 用List组件实现组合列表项

界面分析: 由于整体UX设计图符合从上至下的布局,所以可以采用Column组件作为外层容器 简介: 最上方的标题可以使用Text组件进行加载渲染中间的Banner图和简介分别可以使用Image组件和Text组件进行加载最后一部分可以看作是一个列表&#xf…

在PAI-DSW中连接Neo4J,并批量创建知识图谱

我在 阿里云DSW实例中安装并运行Neo4J 中提到过,由于PAI-DSW的专有网络配置不能确保百分之百成功,因而很难实现通过本地的浏览器登录在PAI-DSW中启动的Neo4J图数据库。 我当时想出的一个解决办法是使用./cypher-shell语句在命令行登录neo4j,…

工业5G路由器赋能户外组网远程监控及预警

随着物联网、大数据、云计算等技术的快速发展,工业领域对于远程监控、实时预警和数据传输的需求日益增长。特别是在户外复杂环境下,传统的有线网络组网方式面临着布线难度大、成本高、维护困难等问题。 工业5G路由器在户外组网远程监控预警应用基于高速…

Golang 并发控制模型

文章目录 Golang 并发控制模型一、使用 channel 通知实现并发控制1、无缓冲通道2、有缓冲通道 二、使用 sync 包中的 WaitGroup 实现并发控制1、sync.WaitGroup2、sync.Once 三、使用 Context 上下文实现并发控制1、简介2、context 包3、继承 context4、context 例子5、context…

基于springMVC的图书管理系统

进度终于来到了springMVC,下次估计就是springboot了,感觉每次开始新框架,环境都是大问题,项目一共敲四天,环境卡三天。总结一下这次碰到的问题和解决方法吧。 问题和解决方法 1、controller中return无法跳转到界面&a…

【安装】Linux Centos 或 Debian 离线安装指定版本MariaDB

【安装】Linux Centos 或 Debian 离线安装指定版本MariaDB 下载地址 https://mariadb.com/downloads/community/community-server/https://mirrors.aliyun.com/mariadb/yum/https://mariadb.com/downloads/community/community-server/ Download MariaDB Server - MariaDB.or…

NineData云原生智能数据管理平台新功能发布|2024年7月版

本月发布 12 项更新,其中性能优化 3 项、功能优化 8 项、安全性发布 1 项。 1. 性能优化 数据复制 - SQL Server 增量性能优化 调整读取和写入方式,让 SQL Server 增量复制的性能轻松达到 5000 RPS 以上。 数据复制 - Doris|SelectDB|StarRocks 性能优…

数据库原理之多表查询——使用Mysql进行内连接和外连接

作者:CSDN-PleaSure乐事 欢迎大家阅读我的博客 希望大家喜欢 使用环境:Idea 目录 1.内连接 1.1隐式内连接 1.1.1定义 1.1.2举例 1.1.3优缺点 1.2显式内连接 1.2.1定义 1.2.2举例 1.2.3优缺点 2.外连接 2.1左外连接 2.1.1定义 2.1.2举例 2.…

Creomagic 推出认知通信功能以应对电子战 (EW) 威胁

新时代的软件定义无线电 (SDR) 技术可以在电子战和竞争频谱环境中自主维护可靠的网络。 最近的全球冲突凸显了现代战场上战术通信面临的严峻挑战。随着自主部队的日益普及,战场感知变得比以往任何时候都更加先进,需要大量信息传输和同步。在战场上传输关…

【OpenCV C++20 学习笔记】腐蚀和膨胀

腐蚀和膨胀 形态学原理膨胀腐蚀 代码实现膨胀函数腐蚀函数运行结果 形态学原理 腐蚀和膨胀通常有以下用途: 去除噪音分离或合并图像中的元素找出图片上的强度的极大值区域和极小值区域 以下图作为原始图片: 膨胀 用核 B B B来扫描图像 A A A&#xff…