【论文笔记】SINE: SINgle Image Editing with Text-to-Image Diffusion Models

news2026/3/31 7:10:07

声明

不定期更新自己精度论文，通俗易懂，初级小白也可以理解

涉及范围：深度学习方向，包括 CV、NLP

论文标题：SINE: SINgle Image Editing with Text-to-Image Diffusion Models

论文链接：https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00d211f0efhttps://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00d211f0ef

论文代码：

发表时间：2022年12月

创新点

1、提出了一种新型的模型引导方法，即基于无分类器引导的模型引导，使得在单个图像上训练的模型的知识可以被提炼到预训练扩散模型中，从而可以进行内容创作，即使只有一个给定的图像。

2、提出了一种基于补丁的微调方法，可以有效地帮助模型生成任意分辨率的图像，从而解决了现有文本引导图像编辑工作中生成大分辨率图像时出现的问题。

Abstract

最近的扩散模型研究展示了在生成图像中进行条件控制的强大能力，例如文本引导图像合成。这种成功激励了许多尝试使用大规模预训练扩散模型解决一个具有挑战性的问题 - 实际图像编辑。

在这个领域进行的工作学习了一个唯一的文本标记，对应于包含相同对象的几个图像。然而，在许多情况下，只有一张图像可用，例如"戴珍珠耳环的女孩"的画作。使用现有的关于对单个图像进行微调的工作会导致严重的过拟合问题。预训练扩散模型中的信息泄漏使得编辑无法保持与给定图像相同的内容，同时又能根据语言引导创建新的特征。

本文旨在解决单图像编辑的问题。提出了一种基于无分类器引导的新型模型引导，使得在单个图像上训练的模型的知识可以被提炼到预训练扩散模型中，即使只有一个给定的图像，也可以进行内容创作。此外，提出了一种基于补丁的微调方法，可以有效地帮助模型生成任意分辨率的图像。我们提供了广泛的实验来验证我们方法的设计选择，并展示了有前途的编辑能力，包括风格转换、内容添加和对象操作。

Method

Language-Guided Diffusion Models

该部分主要介绍了基于预训练扩散模型的模型引导方法，以及如何使用文本描述来控制模型生成编辑后的图像。

具体来说，给定一张 Source Image 和一个 Text Prompt，SINE 模型首先将 Source Image 输入到预训练扩散模型中，得到一个中间表示。然后，将 Text Prompt 与中间表示进行融合，得到一个新的中间表示。最后，将新的中间表示输入到扩散模型中，生成编辑后的图像。

此外，模型还使用样式向量来控制模型生成的图像风格。具体来说，利用一个预训练的样式提取器，将不同风格的图像映射到样式向量空间中。然后，可以通过文本描述来指定所需的风格，将样式向量与中间表示进行融合，从而控制模型生成的图像风格。

文中没有详细介绍预训练的样式提取器的网络结构，但是目前主流样式提取器结构分为两种，基于 CNN 或 GAN 网络的。