(2024,∞-Brush,无限维扩散,希尔伯特空间,超分辨率,跨注意力神经算子,线性注意)具有无限维度扩散模型的可控大图像合成

news2024/9/20 15:04:28

∞-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions

目录

0. 摘要

1. 简介

2. 相关工作

4. 提出的方法

4.1 函数空间中的条件扩散模型

4.2 带有跨注意力神经算子的条件去噪器

5. 实验

6. 限制

7. 结论


0. 摘要

将复杂、特定领域的信息合成高分辨率图像在生成建模中仍然是一个重大挑战,尤其是在如数字病理学和遥感等大图像领域的应用中。现有方法存在关键局限性:像素或潜在空间中的条件扩散模型在超过其训练分辨率时会失去保真度,而且图像尺寸越大,计算需求越显著增加基于小块的拼接方法虽然具有计算效率,但由于过度依赖局部信息,无法捕捉远距离的空间关系。在本文中,我们引入了一种新的无限维度条件扩散模型,∞-Brush,用于可控的大图像合成。我们提出了一种跨注意力神经算子,以实现函数空间中的条件化。我们的模型克服了传统有限维度扩散模型和基于小块的方法的限制,提供了更好的扩展性,并且在保持细节的同时,更好地保留了全局图像结构。据我们所知,∞-Brush 是第一个在函数空间中的条件扩散模型,能够在可控条件下合成任意分辨率、最高达 4096 × 4096 像素的图像。

1. 简介

目前的最先进方法在可控大图像生成方面仍然存在显著局限性。这些方法大致分为两类:

第一类方法直接在有限的潜在或像素空间中使用条件扩散模型,受设计限制,这些方法只能在其训练时的分辨率下生成图像。例如,SDXL [26] 和 Matryoshka Diffusion [11] 可以生成分辨率高达 1024 × 1024 像素的图像。尽管这些方法在一定程度上表现出色,但无法在更高分辨率下生成图像而不损失质量或保真度。此外,随着分辨率的增加,训练和运行这些模型所需的计算资源呈指数增长,这使得处理更大尺寸的图像过程变得越来越低效。

第二类策略由 MultiDiffusion [1] 引入,并由 Graikos 等人 [10] 进行了改进,涉及一种基于小块的生成方法,将大图像生成分割成较小的部分。该技术通过对大图像的局部区域进行训练,并使用扩展算法进行大图像合成。虽然这种方法在计算上更为高效,并且能够生成足够逼真的大图像,但它在捕捉远距离空间依赖性方面表现不足(如补充材料中讨论)。这一限制源于对局部信息的高度依赖,因为每个小块的生成主要受局部条件的影响,而不会受到远处小块信息的影响。

上述方法都在有限的图像或潜在空间中操作,无法在生成过程中显著超出训练图像的尺寸。因此,必须直接在整个大图像上训练模型,导致难以克服的计算成本。最近,Bond-Taylor 等人 [2] 通过将图像表示为希尔伯特空间 H 中的函数,展示了可以在固定尺寸输入上训练的同时合成任意大的图像。然而,他们的模型无法进行条件化,这对于在下游应用中高效利用模型(如数据增强)是必要的。

2. 相关工作

无限维度的扩散模型。Kerrigan 等人 [19] 首次提出了将扩散模型应用于功能性数据的概念,开创了生成模型可以超越有限维度空间限制的想法。基于无限维度扩散的思想,Lim 等人 [22] 和 ∞-Diff [2] 专门讨论了在函数空间中表示的图像生成。然而,这些方法无法进行条件化以实现可控的图像生成。据我们所知,我们的 ∞-Brush 结合了一种新的跨注意力神经算子,是第一个用于可控大图像合成的无限维度条件扩散模型。

(2024|ICLR,∞-Diff,无限维平滑扩散,希尔伯特空间,超分辨率,多尺度架构)具有子采样平滑状态的无限分辨率扩散 

4. 提出的方法

我们提出了一种在函数空间 H 中的新的条件扩散模型。在前面的背景介绍的基础上,我们现在构建我们条件扩散模型在无限维度中的前向和逆向过程以及训练目标。此外,我们提出了一种新颖的架构,利用带有跨注意力神经算子的条件去噪器来参数化去噪过程

4.1 函数空间中的条件扩散模型

在图像生成的背景下,我们通过对每个图像采样 N 个坐标,将函数 u_j 在网格

上离散化,这会导致非平滑的输入空间。为了实现更平滑的函数表示,应用平滑算子 A: H→H(例如截断的高斯核)来近似函数空间 H 中的粗糙输入。

前向过程。我们在无限维度中的条件扩散模型的前向过程等价于函数空间中的无条件扩散模型,它逐渐将概率测度 Q_0 = Q_data 加扰到高斯测度 N(m,C),并允许在任意时间步 t 进行采样:

逆向过程。我们使用变分方法来近似后验测度,用 H 空间上的变分测度族并结合条件嵌入 e 来控制生成过程。我们用条件高斯测度来建模基础的后验测度 Q(u_{t−1}∣ut):

命题 1(学习目标)。函数空间中的条件扩散模型的交叉熵具有变分上界:

证明。请参阅附录 A 中的完整证明。

要计算概率测度之间的 KL 散度 KL(Q || P),我们需要利用 KL 散度的测度理论定义,如下列引理中所述【6】。(见原论文)

4.2 带有跨注意力神经算子的条件去噪器

我们的 ∞-Brush 利用了一种分层去噪器架构,包括一个用于高效捕捉细节的稀疏层次和一个用于全局信息的网格层次(图 2)。我们通过随机选择坐标子集

来离散化噪声函数 u∈H 和去噪函数 s∈H。在稀疏层次上,我们依次应用稀疏神经算子、我们的跨注意力神经算子和自注意力机制对函数进行逐点评估。

普通注意力机制的计算复杂度相对于序列长度(即函数样本数量,在此情况下为 N)为二次 O(N^2·d),相对于其维度 d 为线性。对于在无限维度中学习算子,N 可以达到数百万个点(例如在生成 4096 × 4096 的图像时,N≈1600万)。我们通过提出一种计算复杂度相对于 N 为线性的跨注意力神经算子来解决这个问题。

具体来说,在跨注意力神经算子中,假设我们有 L 个条件嵌入

在我们的 ∞-Brush 中,L=3,分别表示扩散时间步嵌入 t、条件嵌入 e 和坐标嵌入 c。首先,我们计算查询 Q = (q_i)、键 K_l = (k^l_i) = Y_l·W_k 和值 V_l = (v^l_i) = Y_l·W_v​,然后将所有 qi​ 和 ki 归一化为 ~q_i = softmax(qi) 和 ~k_i = softmax(ki)。最后,跨注意力公式为:

其中 α 是归一化系数。与普通注意力的主要区别在于我们首先将逐点向量 ~k^l_i​ 和 v^l_i​​ 相乘,然后再与 ~q_t 进行点积。因此,公式 (15) 的复杂度为

相对于点数 N 是线性的。

(2020|ICML PMLR,线性注意力,线性 Transformer,核函数,RNN)Transformer 是 RNN 

稀疏层次的输出通过 k 近邻法线性插值到规则间隔的网格,这是网格层次模型的输入。网格数据点传递给基于网格的、有限维度的 UNO 架构【2, 22】,该架构用于聚合全局信息。UNO 架构基于广泛使用的 UNet 模型,该模型已被广泛研究用于条件有限维度扩散模型【30】。按照这方面的文献,我们在 UNet 去噪器的瓶颈处使用普通的跨注意力来整合网格层次的条件信息。在实验中,我们展示了由于网格层次的粗略插值不能完全表示函数,因此需要在有限维度(网格)和无限维度(稀疏)层次都应用条件化,以获得高质量的结果。

5. 实验

6. 限制

尽管 ∞-Brush 生成的图像在全局结构一致性和细节保留方面表现更好,但在局部细节上并不优于其他方法。我们强调几个关键原因,这些原因可能阻碍了我们模型的性能。首先,我们的模型参数量最少,只有 [10] 模型的一半。我们预计随着更多研究集中于无限维度扩散模型,模型规模会扩大,性能也会随之提升,正如在常规有限扩散模型中观察到的那样。此外,SDXL 和 [10] 都利用了预训练模型进行初始化,而我们的模型是从零开始训练的,因为目前没有可用的无限维度预训练模型,这导致在较小数据集上的表现较差。

7. 结论

总之,∞-Brush 在条件大图像生成领域,尤其是对高分辨率和领域特定条件生成需求的应用中,迈出了必要的一步。本文展示了我们的方法有效解决了先前扩散模型固有的可扩展性限制,同时保留了对生成输出的高度控制。通过提出一种在函数空间中的新型条件扩散模型,并辅以跨注意力神经算子,我们不仅在图像的全局结构上实现了最先进的保真度,还在高分辨率图像中保持了可接受的细节,而不需要通常与此类任务相关的过度计算成本。在未来的工作中,我们计划设计本地神经算子以捕捉精细细节,并从有限维度扩散模型中转移知识,以实现更强大的初始化。

论文地址:https://arxiv.org/abs/2407.14709

项目页面:https://github.com/cvlab-stonybrook/infinity-brush

公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
加 VX 群请备注学校 / 单位 + 研究方向

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974681.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】C++11(可变参数模板、lambda表达式、包装器)

文章目录 1. 可变参数模板1.1 介绍1.2 emplace系列接口实现 2. lambda表达式2.1 语法介绍2.2 原理 3. 包装器4. bind 1. 可变参数模板 1.1 介绍 可变参数我们在C语言阶段已经了解过了,C语言中叫做可变参数列表,其中使用 ... 代表可变参数。 C语言中的可…

百款精选的HTML5小游戏源码,你可以下载并直接运行在你的小程序或者自己的网站上

今天我带来了一份特别的礼物——百款精选的HTML5小游戏源码,你可以下载并直接运行在你的小程序或者自己的网站上,只需双击index.html即可开始。无论你是在寻找创意引流,还是想为你的网站增添互动性,这些小游戏都能帮你实现&#x…

Arch Linux - 2-安装中文输入法

文章目录 2 安装中文输入法2.0 准备2.0.1 前置条件2.0.2 建议 2.1 方案一:RimeIBus2.1.1 安装&配置2.1.2 添加输入法 2.2 方案二:IBusLibpinyin 2 安装中文输入法 2.0 准备 2.0.1 前置条件 预装gnome # 安装 pacman -S gnome# 设置开机自启动 sy…

开放式耳机有什么用?市面上热门的四款蓝牙耳机推荐

开放式耳机的用处相当广泛。 其一,它在耳朵健康方面表现出色。长期使用入耳式或者封闭式耳机,容易致使耳道处于潮湿状态、细菌大量滋生,甚至诱发耳部疾病。而开放式耳机不会阻塞耳道,能够使耳朵维持通风且干燥的状态,…

分享5款漂亮、简洁的登录页面模板分享,拿来即用(二)

文章目录 前言一、Bootstrap Material 风格的登录模板二、简洁清晰的jQuery登录模板三、防知乎的登录模板四、背景动态变化的登录模板五、背景动态变化的登录模板2六、深色背景登录模板 前言 在做管理系统的时候,有时为了做一个漂亮简洁的登录页面,对应…

【Log4j2】log4j-users-guide 官方文档阅读笔记

文章目录 前言1. Log4j2 架构直观了解2. Logger 的树状结构及 additivity3. Logger 的 Level 属性4. Filter 的结构5. Filter 作用的规则 前言 原文 Apache Log4j 官方文档 pdf需求 将指定包目录的日志打到指定文件中将 ERROR 日志单独打到指定文件中 目标 理解 log4j2 的架构…

java学习--集合

集合简介 关系示例图 Collection接口实现类的特点 Collection接口常用方法 Collection接口遍历元素方式: import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;/* author:我与java相爱相杀---c语言梦开始的地方 今天又是努力学习的…

【vulnhub】The Ether: Evil Science靶机

靶机安装 下载地址:https://www.vulnhub.com/entry/the-ether-evilscience-v101,212/ 运行环境:Vmware 信息收集 进行IP发现 nmap 192.168.93.0/24 进行端口扫描,开放了80和22端口 nmap -A 192.168.93.155 -p- 进行目录扫描 dirsearch -u http://…

MATLAB(15)分类模型

一、前言 在MATLAB中,实现不同类型的聚类(如K-means聚类、层次聚类、模糊聚类)和分类(如神经网络分类)需要用到不同的函数和工具箱。下面我将为每种方法提供一个基本的示例代码。 二、实现 1. K-means聚类 % 假设X是…

现代前端架构介绍(第一部分):App是如何由不同的构建块构成的

远离JavaScript疲劳和框架大战,了解真正重要的东西 几周前,我的同事们对我们的前端架构、代码结构和面临的挑战很感兴趣。在做了几次关于如何构建可扩展且健壮的前端的演讲后,我觉得把它们都总结一下并与社区分享我们的策略是一个不错的主意。…

主机安装要点

1.选择主板时,一定要先看能不能与 CPU 匹配得上。 2.后缀带 K 的 CPU,因为支持超频,也最好搭配 支持超频 系列主板。 3.主板尺寸大小E-ATX 加大板、ATX 大板、M-ATX 小板、ITX 迷你板,符合机箱大小。 4.部分主板不带A-RGB,有灯…

OpenHarmony应用开发和Android应用开发区别

OpenHarmony 和 Android 是两个不同的操作系统平台,各自有其独特的开发环境和架构。以下是 OpenHarmony 应用开发与 Android 应用开发之间的主要区别: 1. 架构设计 OpenHarmony 微内核架构:OpenHarmony 采用微内核设计,核心功…

中科院2区SCI,稳定检索39年!不收版面费,审稿友好,最快6周录用,速投!

关注GZH【欧亚科睿学术】,第一时间了解期刊最新动态! 中科院2区SCI,最快6周录用! MACHINE LEARNING 是一本国际性期刊,由知名出版社SPRINGER出版,创刊于1986年,一直致力于发布报道高质量的机器…

2、 qt平台opencv引入,和工程搭建

1. 准备工作 opencv 编译, 参考: https://blog.csdn.net/qq_51355375/article/details/140857966vscode qt cmake工程创建及环境搭建: https://blog.csdn.net/qq_51355375/article/details/140752130 2. 引入opencv 头文件和链接库 2.1 配…

大数据信用报告查询注意事项

在当今这个数据驱动的时代,大数据信用报告已成为评估个人信用状况的重要参考。无论是申请贷款、租房还是求职,一份良好的信用报告都能为您加分不少。然而,在查询大数据信用报告时,有几点注意事项不容忽视,以确保您的信…

CAN通信编程

ubuntu使用虚拟can 1. sudo modprobe vcan //加载虚拟can模块 2. sudo ip link add dev can0 type vcan //添加can0网卡 3. ifconfig -a //查看can0 4. sudo ip link set dev can0 up //开启can0 5. sudo ip link set dev can0 down //关闭can0 6. sudo ip link del dev can0 /…

图数据库 Nebula Graph下载安装

1. 安装包下载解压 进入官网https://www.nebula-graph.com.cn/download,下载对应版本 tar -zxvf nebula-graph-3.8.0.ubuntu2004.amd64.tar.gz cd nebula-graph-3.8.0.ubuntu2004.amd64/2. 启动 Nebula Graph 服务 2.1 修改配置文件名以应用配置 将子目录etc中的…

用Python代码制作一个全自动扫雷(详细教程)

用PythonOpenCV实现了自动扫雷,突破世界记录,我们先来看一下效果吧。 中级 - 0.74秒 3BV/S60.81 相信许多人很早就知道有扫雷这么一款经典的游(显卡测试)戏(软件),更是有不少人曾听说过中国雷圣…

开放式耳机哪个牌子质量好?热销的开放式耳机推荐

想要寻找一副舒适好听的开放式耳机可不是一件容易的事情,市面上数不胜数的品牌和型号让人眼花缭乱。不过,市面上的开放式耳机品牌繁多,质量参差不齐,究竟哪些牌子的产品更值得信赖呢?今天通过各大平台的推荐出了几款用…

常见的CMS漏洞

WordPress WordPress是⼀个以 PHP 和 MySQL 为平台的 ⾃由开源 的博客软件和 内容管理系统 。WordPress具 有插件架构和模板系统。截⾄2018年4⽉,排名前1000万的⽹站中超过30.6%使⽤WordPress。 WordPress是最受欢迎的⽹站 内容管理系统 。全球有⼤约30%的⽹站(7亿…