声明
不定期更新自己精度论文,通俗易懂,初级小白也可以理解
涉及范围:深度学习方向,包括 CV、NLP
论文标题:SINE: SINgle Image Editing with Text-to-Image Diffusion Models
论文链接:https://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00d211f0efhttps://www.semanticscholar.org/paper/SINE%3A-SINgle-Image-Editing-with-Text-to-Image-Zhang-Han/a6ad30123bef4b19ee40c3d63cfabf00d211f0ef
论文代码:
发表时间:2022年12月
创新点
1、提出了一种新型的模型引导方法,即基于无分类器引导的模型引导,使得在单个图像上训练的模型的知识可以被提炼到预训练扩散模型中,从而可以进行内容创作,即使只有一个给定的图像。
2、提出了一种基于补丁的微调方法,可以有效地帮助模型生成任意分辨率的图像,从而解决了现有文本引导图像编辑工作中生成大分辨率图像时出现的问题。
Abstract
最近的扩散模型研究展示了在生成图像中进行条件控制的强大能力,例如文本引导图像合成。这种成功激励了许多尝试使用大规模预训练扩散模型解决一个具有挑战性的问题 - 实际图像编辑。
在这个领域进行的工作学习了一个唯一的文本标记,对应于包含相同对象的几个图像。然而,在许多情况下,只有一张图像可用,例如"戴珍珠耳环的女孩"的画作。使用现有的关于对单个图像进行微调的工作会导致严重的过拟合问题。预训练扩散模型中的信息泄漏使得编辑无法保持与给定图像相同的内容,同时又能根据语言引导创建新的特征。
本文旨在解决单图像编辑的问题。提出了一种基于无分类器引导的新型模型引导,使得在单个图像上训练的模型的知识可以被提炼到预训练扩散模型中,即使只有一个给定的图像,也可以进行内容创作。此外,提出了一种基于补丁的微调方法,可以有效地帮助模型生成任意分辨率的图像。我们提供了广泛的实验来验证我们方法的设计选择,并展示了有前途的编辑能力,包括风格转换、内容添加和对象操作。
Method
Language-Guided Diffusion Models
该部分主要介绍了基于预训练扩散模型的模型引导方法,以及如何使用文本描述来控制模型生成编辑后的图像。
具体来说,给定一张 Source Image 和一个 Text Prompt,SINE 模型首先将 Source Image 输入到预训练扩散模型中,得到一个中间表示。然后,将 Text Prompt 与中间表示进行融合,得到一个新的中间表示。最后,将新的中间表示输入到扩散模型中,生成编辑后的图像。
此外,模型还使用样式向量来控制模型生成的图像风格。具体来说,利用一个预训练的样式提取器,将不同风格的图像映射到样式向量空间中。然后,可以通过文本描述来指定所需的风格,将样式向量与中间表示进行融合,从而控制模型生成的图像风格。
文中没有详细介绍预训练的样式提取器的网络结构,但是目前主流样式提取器结构分为两种,基于 CNN 或 GAN 网络的。
Model-Based Classifier-Free Guidance
介绍了 SINE 模型的两种微调方法,
(1)无监督的方式来微调预训练的扩散模型,以提高模型的编辑能力和生成质量。
在这种方法中,SINE 模型使用给定的 Source Image 和 Text Prompt,通过最小化重建误差来微调预训练的扩散模型。
首先,将编辑后的图像输入到扩散模型中,计算它们之间的重建误差;
然后将重建误差作为损失函数进行优化。
通过这种方式,可以提高扩散模型对 Source Image 的重建能力,从而提高模型的编辑效果。
(2)基于对比损失的无监督微调方法
在这种方法中,SINE 模型使用给定的 Source Image 和 Text Prompt,通过最小化对比损失来微调预训练的扩散模型。
首先,将编辑后的图像和 Source Image 输入到扩散模型中,计算它们之间的相似度,然后将相似度作为损失函数进行优化。通过这种方式,可以进一步提高模型的编辑能力和图像生成质量。
最后,使用多尺度训练和随机数据增强来进一步提高微调效果。可以在不同尺度下训练模型,并使用随机裁剪、随机旋转、随机翻转等数据增强技术来扩充训练集,从而提高模型的鲁棒性和泛化能力。
Patch-Based Fine-Tuning
SINE 模型的另一种微调方法,该方法主要是利用局部区域的特征来微调预训练的扩散模型,以提高模型的编辑能力和生成质量。
首先,将编辑后的图像和 Source Image 划分为多个大小相等的 Patch,
然后,将每个 Patch 输入到扩散模型中进行微调。
通过这种方式,可以使模型更加关注局部区域的细节,提高模型的编辑能力和生成质量。
然后还可以使用不同的微调策略来微调不同类型的 Patch。具体来说,可以根据 Patch 的语义信息和视觉特征来设计微调策略。
例如,对于包含目标对象的 Patch,可以使用基于重建误差的微调策略,以提高模型对目标对象的编辑能力;对于包含背景区域的 Patch,可以使用基于对比损失的微调策略,以提高模型生成背景区域的质量。
Experiments
(1)单图像编辑实验
实验目标:验证 SINE 模型在单图像编辑方面的性能
实验结果:SINE 模型能够通过文本描述来实现准确、灵活的单图像编辑。实验结果表明,在多个编辑任务中,SINE 模型的编辑成功率高于对比模型
(2)微调方法比较实验
实验目标:比较不同微调方法对SINE模型性能的影响
实验结果:两种微调方法 (Model-Based Classifier-Free Guidance 和 Patch-Based Fine-Tuning) 都能够显著提高SINE模型的性能,但 Patch-Based Fine-Tuning 方法能够进一步提高模型的生成质量和编辑能力。