T2I-Adapter：学习适配器为文本到图像扩散模型挖掘更多可控能力

news2026/3/16 13:55:03

文章目录

一、研究动机
二、T2I-Adapter的特点
三、模型方法
- （一）关于stable diffusion
- （二）适配器设计
- - 1、结构控制
  - 2、空间调色板
  - 3、多适配器控制
- （三）模型优化
- - 训练期间的非均匀时间步采样

一、研究动机

T2I模型，也就是文本到图像模型（text-to-image model）具备强大的生成能力，能够学习到复杂的内部结构和语义信息。但是仅仅依靠文本提示并不能充分利用模型学到的知识，尤其是在需要灵活准确的控制（例如颜色和结构）时。

文本很难为图像合成提供结构指导，导致在一些复杂场景下结果随机且不稳定。这并不是由于生成能力差，而是因为文本无法提供准确的生成指导以充分将 SD 的内部知识与外部控制相结合。

因此文章提出了 T2I-Adapter，这是一种简单而小型的模型，可以为预训练的文本到图像（T2I）模型提供额外的指导，同时不影响其原始网络拓扑和生成能力。

借助 T2I-Adapter，我们可以生成原始 T2I 模型（例如stable diffusion）难以准确生成的更具想象力的结果。可以使用各种指导，例如颜色、深度、草图、语义分割和关键姿势。我们可以使用 T2I-Adapter 进一步实现本地编辑和可组合指导。

二、T2I-Adapter的特点

即插即用：不会影响现有 T2I 扩散模型（例如稳定扩散）的原始网络拓扑和生成能力。
简单、小型：可以轻松地插入到现有的 T2I 扩散模型中，训练成本较低，并且在扩散过程中只需要一次推理。它们是轻量级的，具有 ∼ 77 M 参数和 ∼ 300 M 存储空间。
灵活性：可以针对不同的控制条件训练各种适配器，包括空间颜色控制和精细结构控制。
可组合：可以方便地组合多个适配器来实现多条件控制。
可推广：经过训练后，只要从相同的 T2I 模型进行微调，它们就可以直接用于自定义模型。

三、模型方法

（一）关于stable diffusion

Stable Diffusion 是一个两阶段扩散模型，包含一个自动编码器和一个 UNet 降噪器。在第一阶段，SD 训练了一个自动编码器，它可以将图像 X0 转换为潜在空间，然后重建它们。在第二阶段，SD训练了一个改进的UNet降噪器来直接在潜在空间中执行降噪。

SD的优化过程：

$Z_t$ 表示第 t 步的噪声特征图
C代表条件信息
θ指的是UNet降噪器的函数

在推理过程中， 输入潜在图 $Z_T$ 由随机高斯分布生成。给定 $Z_T$ ， $\epsilon_θ$ 在每个步骤 t以 C 为条件预测噪声估计。通过减去它，噪声特征图变得逐渐清晰。经过 T 次迭代后，最终结果 $Z_0$ 作为干净的潜在特征，被输入到自动编码器的解码器中以执行图像生成。

在条件部分， SD 利用预先训练的 CLIP 文本编码器将文本输入嵌入到标记 y 的序列中。然后利用交叉注意力模型将 y 结合到去噪过程中：

在这里插入图片描述

（二）适配器设计

T2I 适配器由四个特征提取块和三个用于改变特征分辨率的下采样块组成。
在这里插入图片描述
原始条件输入的分辨率为512×512，利用像素 unshuffle 操作将其下采样到 64 × 64。在每个尺度中，利用一个卷积层和两个残差块（RB）来提取条件特征 Fck。最终形成多尺度条件特征Fc = {Fc1, Fc2, Fc3, Fc4}。注意，Fc的维度与UNet降噪器的编码器中的中间特征Fenc = {Fe1nc, Fe2nc, Fe3nc, Fe4nc}相同。然后在每个尺度上添加 Fc 和 Fenc。
在这里插入图片描述

1、结构控制

T2I-Adapter 具有良好的泛化性，可以支持各种结构控制，包括草图、深度图、语义分割图和关键姿势。这些模式的条件图直接输入到特定于任务的适配器中以提取条件特征Fc。
在这里插入图片描述

2、空间调色板

除了结构之外，颜色也是图像的基本组成部分，主要涉及两个方面：色调和空间分布。文章设计了一个空间调色板来粗略地控制生成图像的色调和颜色分布：

文章使用了高双三次下采样来去除图像的语义和结构信息，同时保留足够的颜色信息。
然后应用最近的上采样来恢复图像的原始大小。
最后，色调和颜色分布由几个空间排列的色块来表示。
根据经验，文章利用 64× 下采样和上采样来完成这个过程。训练过程利用颜色图作为C，通过FAD生成Fc。

3、多适配器控制

除了使用单个适配器作为条件外，T2I 适配器还支持多个条件。此策略不需要额外的培训。从数学上讲，这个过程可以定义为：
在这里插入图片描述

（三）模型优化

优化时固定SD中的参数，只优化T2I适配器。每个训练样本都是一个三元组，包括原始图像 $X_0$ 、条件图 $C$ 和文本提示 $y$ 。优化过程与SD类似。具体来说，给定图像 $X_0$ ，首先通过自动编码器的编码器将其嵌入到潜在空间 $Z_0$ 。然后从 $[0, T]$ 中随机采样一个时间步 $t$ ，并将相应的噪声添加到 $Z_0$ ，产生 $Z_t$ 。从数学上讲，我们的 T2I 适配器通过以下方式进行优化：
在这里插入图片描述