挑战没有免费的午餐定理?南洋理工提出扩散模型增强方法FreeU

news2024/9/24 17:20:56

e1f6cbd6bb4b429cbd5714cbf5040858.png

论文名称:FreeU: Free Lunch in Diffusion U-Net

文章链接:https://arxiv.org/abs/2309.11497 

代码仓库:https://github.com/ChenyangSi/FreeU
项目主页:https://chenyangsi.top/FreeU

机器学习领域中一个著名的基本原理就是“没有免费的午餐定理”,该定理指示我们:没有一种机器学习算法是适用于所有情况的,简单来说就是在构建算法时,有得必有失。本文介绍一篇来自南洋理工大学S-Lab的研究论文,本文的题目非常有趣:“扩散U-Net网络中的免费午餐”。作者在文中对U-Net架构在扩散过程中的基本原理进行了深入的探索,作者发现,U-Net的backbone网络主要来完成去噪过程,而其中的跳跃连接主要将高频特征引入解码器模块,从而导致整体模型忽略了从backbone中提取到的语义信息。因此本文提出了一种简单有效的方法,称为FreeU,FreeU的主要操作是重新权衡了U-Net的跳跃连接和backbone特征图对最终输出的贡献,而无需额外的训练或微调即可提高模型的生成图像质量,因此称为是“免费的午餐”。在实际操作时,只需要对现有的扩散模型,例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion等加入几行即插即用的重加权代码就可以提高模型的综合性能。

01. 介绍

扩散模型在生成模型领域引入了一种新型生成范式,整体过程由扩散过程和去噪过程构成,在扩散过程中,向输入数据逐渐添加高斯噪声,而在去噪过程中,原始输入数据通过学习逆扩散操作将原始序列从噪声状态中恢复出来。通常,扩散模型会使用U-Net来迭代预测每个去噪步骤中要去除的噪声信号。目前也有一些工作开始从频率域的角度来分析扩散模型的去噪过程,本文提出使用傅立叶变换工具来进行观察扩散生成,下图展示了扩散生成过程中傅里叶逆变换后相关低频和高频空间域的变化情况,可以看出,低频分量在整个过程中表现除了较为柔和的变化率,而高频分量在整个去噪过程中表现出更明显的动态

f1971dbdbbfb4be192b947947e5e839b.png

下图展示了与上图步骤对应的傅里叶对数振幅变化图,从图中可以分析得到:低频分量本质上体现了图像的全局结构和特征,可以理解为是一张图像的图像本质,因此在扩散过程中低频分量应该尽可能保持稳定。相反,高频成分包含图像中的边缘和纹理,这些更精细的细节对噪声非常敏感

3babf9c862a2400db94ca13b5c738a08.png

根据上述分析去噪过程中低频和高频分量之间的关系,本文从扩散U-Net的架构出发,作者发现U-Net中的跳跃连接会将高频特征不断引入解码器模块,这样会导致模型的backbone在推理时的去噪能力受到影响,从而导致生成异常图像细节,如下图第一行所示。

0e8682917f114d04bc521d1e4b19d079.png

基于以上观察,本文提出了一种FreeU的调制策略,即在模型的扩散推理阶段,设计了两个专门的调制因子,其中一个因子称为backbone特征因子,用来放大backbone的特征图效应,从而加强去噪过程,同时为了防止去噪带来的过度纹理平滑,第二个因子被设计为跳连特征缩放因子,用来进行权衡调节

02. 本文方法

2.1 扩散U-Net的架构

下图展示了扩散U-Net的主要框架,主要包括一个主要骨干网络,由编码器和解码器构成,以及促进编码器和解码器相应层之间信息传输的跳跃连接。

df830f6154714e99803aaa4067bb9214.png

574583a8e36e4fcdb355af78af30b8a8.png

30eb7cd900da4480b28fa28999b53e4d.png

然而,跳跃连接可以将编码器的浅层特征块直接传递给解码器,由于这些特征都属于高频信息,作者猜测,在U-Net架构的训练过程中,这些高频特征的存在可能会加速解码器学习对噪声预测的能力

6843df5f5c324f7f9ac3d42f865581f1.png

2.2 扩散U-Net中的免费午餐

03. 实验效果

本文的实验主要侧重于评估FreeU在目前流行的图像生成任务上的效果,例如文本到图像生成(text-to-image)和文本到视频生成(text-to-video),此外,由于FreeU的一大亮点是其可以轻松插入到现有的预训练扩散模型中来提升性能,因此作者还选用了一些流行的下游模型进行了实验。

3.1 文本到图像生成

文本到图像生成作者使用了Stable Diffusion模型作为baseline,并且将FreeU集成在上面,下图展示了使用FreeU对SD模型增强后的效果。可以看到,将FreeU 可以改善SD在实体描绘和细粒度细节的效果。例如,当出现“正在拍摄一辆蓝色汽车”的提示时,FreeU会细化图像,消除屋顶的不规则性并增强周围结构的纹理复杂性。

6565590c56624bb7830de6308b85483b.png

此外,作者还邀请了35名测试员来对图像质量和图像文本对齐情况进行评估。每个测试员都会收到一条文本提示和两张相应的合成图像,一张来自SD,另一张来自SD+FreeU。然后,测试员分别选择他们认为图像文本对齐和图像质量优异的图像,下图展示了最终的实验结果,可以看到测试员将大多数投票投给了SD+FreeU

dcff6074d39b4c5b88205b9940b126f5.png

3.2 文本到视频生成

对于文本到视频合成,作者使用ModelScope[2]作为基础baseline,作者使用了与文本到图像合成类似的评估方法,从下表中显示的结果也表明大多数测试员更喜欢FreeU生成的视频。

21f4ede86d434187bfd1bea9aa2939aa.png

3.3 下游模型实验

在这一部分,作者直接将FreeU嵌入到Dreambooth[3],这是一项发表在CVPR2023上的个性化文本到图像生成模型。如下图展示了使用FreeU的增强效果,其中DreamBooth模型很难根据提示“一张骑摩托车的人偶照片”来合理的生成人偶腿部的外观,而FreeU增强版本可以巧妙地解决这一问题。

82fc4c67166340529c0101f8fe3d1316.png

此外,作者还评估了FreeU对Rerender[4]的影响,这是一种zero-shot文本引导视频转换模型。下图展示了改进效果,例如,当文本提示为“戴着太阳镜的狗”时,Reender会生成一个带有与“太阳镜”相关的视频,但是视频中有一些伪影。加入FreeU后可以有效的消除此类伪影,从而提高最终的生成效果

b037b04fdff54d89b8b1e7ee5e069543.png

04. 总结

本文引入了一种优雅简单但高效的FreeU扩散模型方法,FreeU深入刨析了现有扩散模型内部不同组件之间的交互关系,其主干网络主要用于去噪过程,而跳跃连接主要将高频特征引入解码器。作者使用了一种巧妙的重加权方式来对两个模块进行重新调制,从而在不产生额外计算成本的情况下提升模型性能。FreeU可以无缝集成到各种扩散基础模型及其下游模型中,来显著增强生成图像中的复杂细节同时提高整体的视觉保真度。

参考

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.

[2] Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, and Tieniu Tan. VideoFusion: Decomposed diffusion models for high-quality video generation. In CVPR, 2023.

[3] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Finetuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.

[4] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender a video: Zero-shot text-guided video-to-video translation. arXiv preprint arXiv:2306.07954, 2023.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1131359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搜维尔科技:伦敦艺术家利用Varjo头显捕捉盲人隐藏的梦想

在伦敦举行的弗里泽艺术博览会上,与专业级虚拟现实/XR硬件和软件领域的全球领先者Varjo合作,展示一个突破性的混合现实艺术装置, 皇家国家盲人学会 (rnib),英国领先的视力丧失慈善机构。 这个名为"公共交通的私人生活"的装置是一个互动的声音和图像雕塑,旨在让有眼光…

配置中心那些事

闲着也是闲着,就看看过往是在没有时间来折腾的东西,这不,最近2天看了看配置中心。 比较有代表性的有老牌的apollo,新贵 nacos,再就是出身也很好的Spring cloud config,网上比较这3者的文章多余牛毛&#x…

一文了解企业云盘和大文件传输哪个更适合企业传输

文件传输是企业工作中必不可少的环节,无论是内部协作还是外部沟通,都需要高效、安全、稳定地传输各种类型和大小的文件。然而,市面上的文件传输工具众多,如何选择合适的工具呢?本文将从两种常见的文件传输工具——企业…

Spark项目实战-卡口流量统计

一、卡口介绍 卡口摄像头正对车道安装,拍摄正面照片。 功能:抓拍正面特征 这种摄像头多安装在国道、省道、高速公路的路段上、或者城区和郊区交接的主要路口,用来抓拍超速、进出城区车辆等行为。它进行的是车辆正面抓拍,可以清晰…

基于springboot+vue实现MOBA类游戏攻略平台项目【项目源码+论文说明】计算机毕业设计

基于springbootvue实现MOBA类游戏攻略平台 摘要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生&a…

postgresql14-表空间的管理(五)

基本概念 表空间tablespace在postgresql中,表示数据库对象(比如表或索引)的存放目录。当表被访问时,系统通过表空间定位到对应数据文件所在的位置。 优势: 1、如果数据库集群所在的初始磁盘分区或磁盘卷的空间不足&a…

改善游戏体验:数据分析与可视化的威力

当今,电子游戏已经超越了娱乐,成为一种文化现象,汇聚了全球数十亿的玩家。游戏制作公司正采用越来越复杂的技术来提高游戏质量,同时游戏数据分析和可视化工具变得不可或缺。 数据的力量:解析游戏体验 游戏制作涉及到大…

【深度学习】生成对抗网络(GANs)详解!

一、概述 生成对抗网络(Generative Adversarial Networks)是一种无监督深度学习模型,用来通过计算机生成数据,由Ian J. Goodfellow等人于2014年提出。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Mod…

非父子组件通信-发布订阅模式

发布订阅模式其实与vue无关,完全是ES6的代码,但是它可以通过这种模式实现非父子组件的通信 store.js文件 首先创建一个store.js文件,用于提供发布与订阅方法 export default {datalist: [], //存放带一个参数的函数集合//订阅subscribe(fu…

SpringBoot自动配置原理解析 | 京东物流技术团队

1: 什么是SpringBoot自动配置 首先介绍一下什么是SpringBoot,SpringBoost是基于Spring框架开发出来的功能更强大的Java程序开发框架,其最主要的特点是:能使程序开发者快速搭建一套开发环境。SpringBoot能将主流的开发框架(例如Sp…

二甲医院his系统源码,医院信息管理系统全套源码 电子病历评级4级

医院his系统源码,医院信息管理系统全套源码 电子病历评级4级 HIS系统完全基于云端部署,采用B/S架构,并通过软件即服务(SaaS)的形式面向二级医院的可快速交付、便捷运维、云化的医院核心业务平台产品。融合医院HIS和EMR…

CTF取证技术实战,图片、文件、流等相关内容的取证技术

I、背景 取证技术,尤其是计算机数据取证技术,是一种针对信息犯罪和计算机数据的专业取证技术。它旨在帮助学习者理解电子证据及其形成过程,并掌握计算机数据相关的取证技术。 具体来说,计算机取证是对计算机犯罪证据的识别获取、…

RetentionPolicy枚举类

包名package java.lang.annotation 作用 注释保留策略。此枚举类型的常量描述用于保留注释的各种策略。它们被使用与{ Retention}元注释类型一起指定注释要保留多长时间。 属性 SOURCE编译器将丢弃注释。CLASS注释将由编译器记录在类文件…

组件通信-跨级通信Provide | Inject

使用 provide/inject ,只需要向后代注入组件本身(this),后代组件中可以无视层级任意访问祖先组件中的状态。 当然它也有缺点:因为 provide/inject 中变量的修改是无法控制的。换句话说,不知道是哪个组件修…

Python网络编程之数据的主机字节序与网络字节序

在Python网络编程中,需要将数据通过网络在服务端与客户端中传递。而数据在主机中和在网络中保存的方式是不同的,即主机字节序和网络字节序。 1 介绍 1.1 主机字节序 数据的主机字节序指的是在高位内存保存数据的高位,在低位内存保存数据的…

霸王条款惹品牌争议,京东双11站在商家对立面?

作者 | 江北 来源 | 洞见新研社 双11活动第一天,京东就站上了风口浪尖。 与烘焙烤箱品牌海氏的话题接连登上微博热搜,海氏控诉京东滥用市场竞争地位,破坏市场竞争秩序。在海氏的声明中,京东的行为让吃瓜群众大开眼界&#xff1a…

HackTheBox---Starting Point-- Tier 0---Meow

文章目录 一 题目二 实验过程 一 题目 Tags Telnet、Network、Protocols、Reconnaissance、Weak Credentials、Misconfiguration译文:标签、远程登录、网络、协议、侦察、弱凭证、配置错误Connect To attack the target machine, you must be on the same networ…

深度学习--通过对Keras进行微调提升性能

本文使用微调(Fine-tune)技术来提升模型的性能。前面我们通过迁移学习将这个猫狗大战二分类问题的预测准确率提升到了90%左右,看上去效果已经很不错了,但是还能不能进一步提升了呢? 前面我们没有对VGG16的卷积层进行参数的优化,那么我们这里就可以来优化这部分的参数。由…

67 跳跃游戏 II

跳跃游戏 II 题解1 贪心1 正向题解2 贪心2 反向题解3 DP 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说,如果你在 nums[i] 处,你可以跳转到任意 nums[i j] 处: 0 &…