Imagic: Text-Based Real Image Editing with Diffusion Models

news2025/7/8 15:50:56

Imagic: Text-Based Real Image Editing with Diffusion Models

Bahjat Kawar, Google Research, CVPR23, Paper, Code

1. 前言

在本文中，我们首次展示了将复杂（例如，非刚性）基于文本的语义编辑应用于单个真实图像的能力。例如，我们可以改变图像中一个或多个对象的姿势和组成，同时保留其原始特征。我们的方法可以让站着的狗坐下，让鸟展开翅膀，等等——每一个都在用户提供的高分辨率自然图像中。与之前的工作相反，我们提出的方法只需要单个输入图像和目标文本（所需的编辑）。它对真实图像进行操作，并且不需要任何额外的输入（例如图像遮罩或对象的额外视图）。我们的方法称为Imagic，利用预先训练的文本到图像扩散模型来完成这项任务。它生成与输入图像和目标文本对齐的文本嵌入，同时微调扩散模型以捕捉图像特定的外观。我们在来自不同领域的大量输入上展示了Imagic的质量和多功能性，展示了大量高质量的复杂语义图像编辑，所有这些都在一个统一的框架内。为了更好地评估性能，我们引入了TEdBench，这是一个极具挑战性的图像编辑基准。我们进行了一项用户研究，其结果表明，与TEdBencch上以前的领先编辑方法相比，人类评分者更喜欢Imagic。

在这里插入图片描述

2. 整体思想

如下图，首先冻结扩散模型然后用目标Prompt优化出一个匹配Prompt，然后用这个Prompt微调扩散模型，最后在目标和匹配之间插值的Prompt生成图片。这里的关键在于第一步，第一步确保了优化的Prompt的语义和图片匹配，当然目标Prompt需要编辑的属性可以被区别出来，这对插值这步很重要。

在这里插入图片描述

3. 方法

Text embedding optimization：目标文本首先通过文本编码器，该文本编码器输出其相应的文本嵌入 $e_{t_{gt}} \in R^{T \times d}$ ，其中 $T$ 是给定目标文本中的标记数量， $d$ 是标记嵌入维度。然后，我们冻结生成扩散模型的参数，并使用去噪扩散目标优化目标文本嵌入。这导致文本嵌入尽可能与我们的输入图像匹配。我们运行这个过程的步骤相对较少，以便保持接近初始目标文本嵌入，获得 $e_{opt}$ 。这种接近性使得能够在嵌入空间中进行有意义的线性插值，这对于遥远的嵌入来说不会表现出线性行为。

Model Fine-tuning: 请注意，当通过生成扩散过程时，所获得的优化嵌入 $e_{opt}$ 并不一定会精确地导致输入图像，因为我们的优化只需少量步骤。因此，在我们方法的第二阶段，冻结优化的嵌入，微调模型。该过程移动模型以拟合点 $e_{opt}$ 处的输入图像 $x$ 。同时，我们微调基础生成方法中存在的任何辅助扩散模型，如超分辨率模型。我们用相同的重建损失对它们进行微调，但以 $e_{tgt}$ 为条件，因为它们将对编辑后的图像进行操作。这些辅助模型的优化确保了基本分辨率中不存在的 $x$ 的高频细节的保留。经验上，我们发现在推理时，将 $e_{tgt}$ 输入到辅助模型比使用 $e_{opt}$ 表现得更好。

Text embedding interpolation: 由于生成扩散模型被训练为在优化的嵌入 $e_{opt}$ 处完全重新创建输入图像 $x$ ，我们使用它通过向目标文本嵌入 $e_{tgt}$ 的方向前进来应用所需的编辑。更正式地说，我们的第三阶段是 $e_{tgt}$ 和 $e_{opt}$ 之间的简单线性插值。对于给定的超参数 $\in \left[ 0,1 \right]$ ，我们得到: