AIGC——Layer Diffusion使用潜在透明度的透明图像层扩散

前言

ControlNet的作者Lvmin Zhang大佬在新的一年又发布了新的工作LayerDiffusion，这个工作再次让人眼前一亮，和ControlNet一样，LayerDiffusion也是解决文生图中比较实际的问题，那就是生成透明的4通道RGBA图像，而且效果不输一些商业抠图工具。它通过对大规模预训练的潜在扩散模型进行改进，使其能够生成具有透明性的图像以及多个透明图层。这项技术的出现填补了在生成图像领域中的一项重要空白，因为以往的生成模型往往只能生成不透明的图像，而无法生成带有透明效果的图像，这在实际的视觉内容编辑中是不可忽视的需求。

这项技术的关键在于如何在潜在空间（latent space）中表示和控制透明度信息。通常情况下，潜在空间是一个高维的向量空间，它包含了生成模型学习到的所有图像特征。通过在潜在空间中引入透明度的概念，并且对透明度进行建模和控制，这项技术使得生成模型能够在生成图像时考虑到透明效果，从而生成具有透明性的图像或图层。

这项技术的应用前景非常广泛，特别是在视觉内容编辑软件和工作流程中。通过这项技术，用户可以更加灵活地进行图像合成、编辑和设计，例如在图像叠加、背景替换、特效添加等方面，都能够获得更加自然和逼真的效果。此外，这项技术还有望在虚拟现实、增强现实、电影特效等领域发挥重要作用，为这些领域带来更加丰富和生动的视觉体验。

算法简介

这种"latent transparency（潜在透明度）“方法的一个典型示例是对给定的文本提示生成具有透明度的多个图层。例如，对于文本提示"头发凌乱的女人，在卧室里”，该方法可以生成包含多个图层的图像，其中包括：

女人的前景图层：包括女人的头发和身体等前景元素。
卧室的背景图层：包括卧室的墙壁、家具等背景元素。

在这个示例中，生成的图像不仅反映了文本提示中描述的场景，还将前景和背景进行了分层。具体来说：

女人的前景图层会包括头发凌乱的女人的形象，她可能会站在卧室里的某个位置。
卧室的背景图层则会包括卧室的环境，例如床、衣柜、窗户等元素。

通过将图像分成多个图层，生成模型能够更好地捕捉到文本提示中的细节信息，并且能够更加准确地生成与文本描述相符的图像。此外，通过控制图层的透明度，模型还能够使得前景和背景之间的过渡更加自然，从而生成具有更高逼真度的图像。
在这里插入图片描述
这项研究通过人机交互的方式来训练模型框架并同时收集数据，最终建立了一个规模达到100万张透明图像的数据集，涵盖了多种内容主题和风格。随后，研究将数据集扩展到多图层样本，这使得数据集不仅可以用于训练透明图像生成器，还可以用于其他应用，如背景/前景条件生成、结构引导生成、风格迁移等。

实验结果显示，在绝大多数情况下（达到97%），用户更倾向于使用本文方法生成的透明内容，而不是之前的解决方案，比如先生成图像然后再抠图。当研究者将生成的图像质量与商业网站如Adobe Stock等的搜索结果进行比较时，也取得了不错的成绩。

这项研究的作者是 Lvmin Zhang 和 Maneesh Agrawala，其中 Lvmin Zhang 还是 ContorlNet 的作者。这表明了这项研究得到了来自该领域的专家的认可和支持，也从侧面反映了该研究在图像生成领域的重要性和影响力。

算法原理

本文的目标是为像 Stable Diffusion (SD) 这样的大规模潜在扩散模型添加透明度支持。这些模型通常使用一个潜在编码器（VAE）将 RGB 图像转换为潜在图像，然后再将其输入到扩散模型中。在此过程中，VAE 和扩散模型应共享相同的潜在分布，因为任何重大不匹配都可能显著降低潜在扩散框架的推理、训练或微调性能。

潜在透明度的目标是在调整潜在空间以支持透明度时，尽可能保留原始的潜在分布。为了确定这个看似不明确的目标，可以通过一个直接的测量来进行：可以检查修改后的潜在分布被原始预训练的冻结潜在解码器解码后是否产生了人工痕迹。如果解码修改后的潜在图像创建了严重的人工痕迹，那么潜在分布就是不对齐或损坏的。这一过程可视化结果如下图所示：
在这里插入图片描述
生成多个图层：该研究进一步使用注意力共享和 LoRA 将基础模型扩展为多图层模型，如图 3-(b) 所示。图 3-(a) 为训练可视化结果。

图 4 引入了几种替代架构，以实现更复杂的工作流程。研究者可以向 UNet 添加零初始化通道，并使用 VAE（有或没有潜在透明度）将前景、背景或图层组合编码为条件，并训练模型生成前景或背景（例如，图 4-( b，d）），或直接生成混合图像（例如，图 4-（a，c））。

在这里插入图片描述
数据准备及其训练细节
训练数据集包括基础数据集（图 5-(a)）以及多图层数据集（5-(b)）。

训练设备为 4 × A100 80G NV-link，整个训练时间为一周（为了减少预算，在人工收集下一轮优化数据时暂停训练），实际 GPU 时间约为 350 A100 小时。该方法适合个人规模或实验室规模的研究，因为 350 个 GPU 小时预算通常在 1K 美元内。

测试

图 6 展示了使用单图像基础模型生成的图像定性结果。这些结果展示了该模型可以生成原生透明图像，包括但不限于高质量的玻璃透明度、头发、毛发、发光、火焰、魔法等效果。这些结果进一步证明了该模型具有很好的泛化性能，能够适应不同的场景，并生成出具有各种透明效果的图像。

这些定性结果表明该模型在生成透明图像方面取得了很好的效果，并且能够处理复杂的透明效果，如玻璃、发光物体、火焰等。这些结果的展示不仅证明了该模型的有效性，还为其在实际应用中的使用提供了可靠的基础。
在这里插入图片描述

图 7 展示了使用具有不同主题的提示来生成图片的定性结果。每个示例展示了混合图像以及两个输出图层。这些图层不仅在照明和几何关系方面保持一致，而且还展示了稳定扩散模型的美学品质，例如，背景和前景的颜色选择看起来和谐且美观。

这些定性结果表明，该模型在根据不同主题的提示生成图像时能够保持一致的照明和几何关系，同时展现了良好的美学品质。这种一致性和美观性可以为实际应用中的图像生成提供重要的指导和参考，确保生成的图像在视觉上具有吸引力和连贯性。

在这里插入图片描述
图 8 展示了条件层生成的结果，即以前景为条件的背景生成和以背景为条件的前景生成。从图中可以看出，本文的模型能够生成具有一致几何和照明效果的连贯构图。

在"教堂中悬挂的灯泡"示例中，可以观察到该模型尝试通过一种对称性审美设计来匹配前景，从而生成一个与教堂背景相适应的灯泡图案。这表明了模型在生成图像时考虑了场景中的几何和照明关系，使得生成的图像看起来更加自然和连贯。

而在"坐在长登上或坐在沙发上"示例中，模型能够推断出前景和背景之间的交互，并生成相应的几何。例如，当前景是一个人坐在椅子上时，模型会相应地生成一个适应的背景，如长凳或沙发。这种能力使得模型能够根据给定的条件生成与之匹配的图像，从而实现更加准确和连贯的图像生成。

总的来说，条件层生成的结果展示了该模型在考虑前景和背景之间的关系时的优秀表现，以及在生成连贯构图方面的能力。这些结果为模型在实际应用中的图像生成任务提供了有力的支持和指导。

在这里插入图片描述
在图 9 中，研究者展示了迭代生成的结果。他们可以迭代使用以背景为条件的前景生成模型来实现构图或任意数量的层。对于每个新的层，他们将之前生成的所有层融入到一个 RGB 图像中，并将其作为条件输入到以背景为条件的前景模型中。研究者观察到，该模型能够在背景图像的上下文中解释自然语言，例如在一只猫的面前生成一本书。此外，该模型展现了强大的几何构图能力，例如生成一个人坐在箱子上的组合图像。

这种迭代生成的方法使得模型能够逐步构建出更加复杂和丰富的图像，每一步都考虑了之前生成的所有层，并在新的层上进行进一步的生成。这种方法不仅能够生成具有高度连贯性和自然性的图像，还能够实现对复杂场景和构图的灵活控制。这为图像生成任务提供了一种有效的方法，并展示了该模型在处理多层级图像生成任务时的强大能力。

在这里插入图片描述
在图 10 中，研究者展示了使用 ControlNet 等现有的可控模型来扩展他们的模型，以提供更丰富的功能。通过引入 ControlNet 信号，本文的模型可以保留全局结构，并生成具有一致照明效果的和谐构图。此外，研究者还通过一个"反射球"示例展示了本文的模型可以与前景和背景的内容进行交互，从而生成反射等一致性照明效果。