新一代图像生成E2E FT：深度图微调突破

在这里插入图片描述

文章地址：Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
项目主页：https://gonzalomartingarcia.github.io/diffusion-e2e-ft/
代码地址：https://github.com/VisualComputingInstitute/diffusion-e2e-ft
机构：亚琛工业大学+埃因霍温理工大学（2024 年 9 月 17 日）

文章摘要

最近的研究表明，通过将深度估计作为图像条件图像生成任务，大型扩散模型可以重新用作高精度单目深度估计器。虽然所提出的模型取得了最先进的结果，但由于多步推理而产生的高计算需求限制了它在许多场景中的使用。
在本文中，研究表明，感知到的低效率是由推理管道中的一个缺陷造成的，而这个缺陷迄今为止尚未引起注意。固定模型的性能与之前报告的最佳配置相当，但速度却快了 200 倍以上。为了优化下游任务性能，作者在单步模型的基础上执行端到端微调，并采用特定于任务的损失，并得到一个确定性模型，该模型在常见的零样本基准上优于所有其他基于扩散的深度和正常估计模型。
最后惊讶地发现，这种微调协议也可以直接在稳定扩散上工作，并实现与当前最先进的基于扩散的深度和正常估计模型相当的性能，这使人们对从以前的工作中得出的一些结论产生了质疑。

解决什么问题

本文试图解决的问题是如何高效地微调图像条件扩散模型，以提高单目深度和法线估计的性能和效率。具体来说，文章主要关注以下几个关键问题：

推理效率问题：先前的工作表明，大型扩散模型在进行单目深度估计时，由于需要多步推理过程，计算成本高，导致在许多实际应用场景中使用受限。本文旨在通过修复推理流程中的错误，提高模型的推理效率。
简化微调流程：作者指出，尽管已有的模型（如Marigold）在单目深度估计任务上取得了先进的性能，但这些模型通常需要复杂的训练和微调流程。本文通过端到端的微调方法，探索是否可以简化这一流程，同时保持或提高性能。
提高准确性：通过端到端微调，作者试图优化模型以更好地适应特定的下游任务（如深度和法线估计），从而提高模型的准确性。
挑战现有结论：作者发现，之前的方法由于推理流程中未注意到的错误，导致效率和性能可能被低估。本文通过修正这些错误，挑战并重新评估现有方法的性能，以期提供更准确的性能比较。
探索不同微调策略：文章还探讨了不同的微调策略，包括对现有模型（如Stable Diffusion）的直接微调，以及对特定任务损失函数的优化，以确定哪些策略在提高性能方面最有效。

单目深度估计在许多下游任务中都有应用，如图像和视频编辑、场景重建、新视角合成和机器人导航。以前的工作将大型扩散模型适应于单目深度估计，但这些模型在推理时计算量大，因为需要多次评估大型神经网络。作者认为，通过修正推理流程中的错误，可以显著提高模型的效率，并提出了一种新的端到端微调方法。

本文方法

Marigold + E2E FT：
此方法涉及使用端到端方法对 Marigold 模型进行微调，从而通过单个推理步骤提高深度和正常估计性能。
亮点：单步推理能力+性能优化+零样本基准测试
损失函数：仿射不变损失+角度损失

基础模型：Marigold模型是一种基于扩散的图像生成模型，它被设计用于从单目图像中估计深度。
微调策略：作者通过对Marigold模型进行端到端的微调，优化了模型在特定任务（如深度和法线估计）上的性能。这种微调是在修正了模型的推理流程后进行的，以确保模型能够通过单步推理产生高质量的预测。
任务特定损失：在微调过程中，使用了适合于深度和法线估计任务的特定损失函数，如仿射不变损失和基于角度的损失，以进一步提高模型的准确性。

稳定扩散 + E2E FT：
该方法需要采用端到端方法对稳定扩散模型进行微调，从而在深度和正常估计任务中取得有竞争力的结果，并且效率和准确性有所提高。
亮点：多任务适应性+效率提升+简化的微调策略
损失函数：仿射不变损失+角度损失

基础模型：Stable Diffusion是一种高分辨率图像合成模型，它能够根据文本描述生成图像。
微调策略：尽管Stable Diffusion最初是为图像生成任务设计的，但作者展示了如何通过端到端微调使其适应深度和法线估计任务。这种微调同样在修正了推理流程后进行，使得模型能够直接从单目图像中产生准确的几何估计。
效率和准确性：通过微调，Stable Diffusion模型在深度和法线估计任务上取得了有竞争力的结果，同时在效率和准确性上都有所提高。

结论

文章的最终结论主要集中在以下几个方面：

修复推理流程的关键性：作者指出，之前在扩散模型推理中的一个关键缺陷导致了效率低下和性能不佳。通过修复推理流程，特别是调整DDIM调度器，模型能够在单步推理中产生合理的预测，从而显著提高了推理效率。
端到端微调的有效性：作者展示了通过端到端微调（E2E FT）来优化模型的有效性。这种方法不仅简化了训练流程，还能在深度和法线估计任务中取得优异的性能。微调后的模型在多个标准基准测试中表现出色，超越了许多现有的复杂模型。
简单方法的竞争力：作者发现，即使是直接对Stable Diffusion模型进行简单的端到端微调，也能在深度和法线估计任务中取得有竞争力的结果。这表明，复杂的训练流程并不是唯一的成功路径，简单的方法同样可以有效。
对现有结论的挑战：通过修复推理流程和优化微调策略，作者挑战了之前一些关于扩散模型在几何估计任务中效率低下的结论，提供了新的视角和实证结果。
未来研究的方向：作者认为，扩散模型在几何任务中的潜力尚未完全挖掘，未来的研究可以进一步探索如何利用大规模数据和自训练技术来提高模型的性能。