新一代图像生成E2E FT:深度图微调突破

news2024/9/23 18:34:38

在这里插入图片描述

文章地址:Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
项目主页:https://gonzalomartingarcia.github.io/diffusion-e2e-ft/
代码地址:https://github.com/VisualComputingInstitute/diffusion-e2e-ft
机构:亚琛工业大学+埃因霍温理工大学(2024 年 9 月 17 日)

文章摘要

最近的研究表明,通过将深度估计作为图像条件图像生成任务,大型​​扩散模型可以重新用作高精度单目深度估计器。虽然所提出的模型取得了最先进的结果,但由于多步推理而产生的高计算需求限制了它在许多场景中的使用。
在本文中,研究表明,感知到的低效率是由推理管道中的一个缺陷造成的,而这个缺陷迄今为止尚未引起注意。固定模型的性能与之前报告的最佳配置相当,但速度却快了 200 倍以上。为了优化下游任务性能,作者在单步模型的基础上执行端到端微调,并采用特定于任务的损失,并得到一个确定性模型,该模型在常见的零样本基准上优于所有其他基于扩散的深度和正常估计模型。
最后惊讶地发现,这种微调协议也可以直接在稳定扩散上工作,并实现与当前最先进的基于扩散的深度和正常估计模型相当的性能,这使人们对从以前的工作中得出的一些结论产生了质疑。

解决什么问题

本文试图解决的问题是如何高效地微调图像条件扩散模型,以提高单目深度和法线估计的性能和效率。具体来说,文章主要关注以下几个关键问题:

  1. 推理效率问题:先前的工作表明,大型扩散模型在进行单目深度估计时,由于需要多步推理过程,计算成本高,导致在许多实际应用场景中使用受限。本文旨在通过修复推理流程中的错误,提高模型的推理效率。

  2. 简化微调流程:作者指出,尽管已有的模型(如Marigold)在单目深度估计任务上取得了先进的性能,但这些模型通常需要复杂的训练和微调流程。本文通过端到端的微调方法,探索是否可以简化这一流程,同时保持或提高性能。

  3. 提高准确性:通过端到端微调,作者试图优化模型以更好地适应特定的下游任务(如深度和法线估计),从而提高模型的准确性。

  4. 挑战现有结论:作者发现,之前的方法由于推理流程中未注意到的错误,导致效率和性能可能被低估。本文通过修正这些错误,挑战并重新评估现有方法的性能,以期提供更准确的性能比较。

  5. 探索不同微调策略:文章还探讨了不同的微调策略,包括对现有模型(如Stable Diffusion)的直接微调,以及对特定任务损失函数的优化,以确定哪些策略在提高性能方面最有效。

单目深度估计在许多下游任务中都有应用,如图像和视频编辑、场景重建、新视角合成和机器人导航。以前的工作将大型扩散模型适应于单目深度估计,但这些模型在推理时计算量大,因为需要多次评估大型神经网络。作者认为,通过修正推理流程中的错误,可以显著提高模型的效率,并提出了一种新的端到端微调方法。

相关工作

在论文的“相关工作(Related Work)”部分,作者详细讨论了单目深度估计和法线估计领域的现有研究,以及扩散模型在这些领域的应用:

单目深度估计(Monocular Depth Estimation)

  • 相对深度和度量深度:介绍了相对深度和度量深度的概念,其中相对深度仅提供场景中物体的深度排序,而度量深度则需要考虑相机的焦距,引入了额外的不确定性。
  • 仿射不变深度:作为相对深度和度量深度之间的中间地带,仿射不变深度在不考虑相机焦距的情况下,能够保持物体间距离比率。
  • 零样本学习:讨论了在零样本设置中评估的深度估计方法,这些方法通常使用大型训练数据集来提高泛化能力。
  • 基于学习的方法:从早期的基于传统特征的方法,到后来基于卷积神经网络(CNN)的方法,再到最近的基于视觉变换器(ViT)的方法,如DPT和Omnidata。

单目法线估计(Monocular Normal Estimation)

  • 基于学习的方法:讨论了基于学习的方法,这些方法使用深度学习来预测图像中每个像素的表面法线方向。
  • 数据集和挑战:介绍了用于评估法线估计方法的数据集,如NYUv2和ScanNet,并讨论了在多样化环境中进行准确估计的挑战。

扩散模型在几何估计中的应用(Diffusion Models for Geometry Estimation)

  • 文本到3D的方法:提到了一些将扩散模型用于文本到3D生成的方法,这些方法显式地产生多视图深度和法线图。
  • 场景级深度估计:讨论了使用扩散模型进行场景级深度估计的方法,如VPD和Marigold,这些方法利用了扩散模型在高质量合成数据集上训练的优势。

条件潜在扩散模型(Image-Conditional Latent Diffusion Models)

  • 潜在扩散模型(Latent Diffusion Models):解释了潜在扩散模型的工作原理,包括DDPM和DDIM,以及它们如何通过逆转一个随机过程来学习从简单噪声分布到数据分布的映射。
  • Marigold模型:详细介绍了Marigold模型如何利用潜在扩散模型进行深度估计,包括其训练过程和推理策略。

作者强调,尽管基于扩散的深度和法线估计方法表现出良好的性能,但它们在推理时往往速度较慢,因为需要多次迭代去噪过程。

Marigold 的推理过程(上)和我们提出的简化(下)

本文方法

Marigold + E2E FT:
此方法涉及使用端到端方法对 Marigold 模型进行微调,从而通过单个推理步骤提高深度和正常估计性能。
亮点:单步推理能力+性能优化+零样本基准测试
损失函数:仿射不变损失+角度损失

  • 基础模型:Marigold模型是一种基于扩散的图像生成模型,它被设计用于从单目图像中估计深度。
  • 微调策略:作者通过对Marigold模型进行端到端的微调,优化了模型在特定任务(如深度和法线估计)上的性能。这种微调是在修正了模型的推理流程后进行的,以确保模型能够通过单步推理产生高质量的预测。
  • 任务特定损失:在微调过程中,使用了适合于深度和法线估计任务的特定损失函数,如仿射不变损失和基于角度的损失,以进一步提高模型的准确性。

稳定扩散 + E2E FT:
该方法需要采用端到端方法对稳定扩散模型进行微调,从而在深度和正常估计任务中取得有竞争力的结果,并且效率和准确性有所提高。
亮点:多任务适应性+效率提升+简化的微调策略
损失函数:仿射不变损失+角度损失

  • 基础模型:Stable Diffusion是一种高分辨率图像合成模型,它能够根据文本描述生成图像。
  • 微调策略:尽管Stable Diffusion最初是为图像生成任务设计的,但作者展示了如何通过端到端微调使其适应深度和法线估计任务。这种微调同样在修正了推理流程后进行,使得模型能够直接从单目图像中产生准确的几何估计。
  • 效率和准确性:通过微调,Stable Diffusion模型在深度和法线估计任务上取得了有竞争力的结果,同时在效率和准确性上都有所提高。
    在这里插入图片描述
    在这里插入图片描述

结论

文章的最终结论主要集中在以下几个方面:

  1. 修复推理流程的关键性:作者指出,之前在扩散模型推理中的一个关键缺陷导致了效率低下和性能不佳。通过修复推理流程,特别是调整DDIM调度器,模型能够在单步推理中产生合理的预测,从而显著提高了推理效率。

  2. 端到端微调的有效性:作者展示了通过端到端微调(E2E FT)来优化模型的有效性。这种方法不仅简化了训练流程,还能在深度和法线估计任务中取得优异的性能。微调后的模型在多个标准基准测试中表现出色,超越了许多现有的复杂模型。

  3. 简单方法的竞争力:作者发现,即使是直接对Stable Diffusion模型进行简单的端到端微调,也能在深度和法线估计任务中取得有竞争力的结果。这表明,复杂的训练流程并不是唯一的成功路径,简单的方法同样可以有效。

  4. 对现有结论的挑战:通过修复推理流程和优化微调策略,作者挑战了之前一些关于扩散模型在几何估计任务中效率低下的结论,提供了新的视角和实证结果。

  5. 未来研究的方向:作者认为,扩散模型在几何任务中的潜力尚未完全挖掘,未来的研究可以进一步探索如何利用大规模数据和自训练技术来提高模型的性能。

总的来说,文章强调了修复推理流程和采用端到端微调的重要性,展示了这些改进如何显著提升扩散模型在单目深度和法线估计任务中的效率和准确性,为未来的研究提供了新的思路和方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2158197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【常见框架漏洞】ThinkPHP、struts2、Spring、Shiro

一、ThinkPHP 1.环境配置 靶场:vulhub/thinkphp/5-rcedocker-compose up -d #启动环境 访问靶场:http://ip:8080/index.php2.远程命令执行 执行whoami命令 poc: http://47.121.211.205:8080/index.php?sindex/think\app/invokefunction&functioncall_user_func_array&…

物联网(IoT)中基于深度学习的入侵检测系统的综合综述

这篇论文是一篇全面的综述,标题为“A comprehensive survey on deep learning-based intrusion detection systems in Internet of Things (IoT)”,作者是Qasem Abu Al-Haija和Ayat Droos。论文主要探讨了在物联网(IoT)环境中基于深度学习的入侵检测系统…

Python自动化-操作Excel

在数据处理和报表生成过程中,Excel是一个经常使用的工具。Python中的openpyxl库可以让您通过编程方式读取、写入和操作Excel文件,从而实现自动化的数据处理和报表生成。本文将介绍openpyxl库的基本用法和常见操作,帮助您快速上手使用Python处…

蘑菇成熟待收检测系统源码分享

蘑菇成熟待收检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

TQRFSOC开发板47DR PS端DDR4测试

本例程实现对PS端的DDR4进行测试,包括内存读写测试,读写眼图测试等。 创建vivado项目与vitis平台项目的流程与hello world相同,我就不在此处重复演示,也可以在hello world 项目基础上添加应用程序项目。在vitis中创建平台项目后新…

隐私计算相关知识

WOE( Weight of Evidence)编码 一种在数据分析,尤其是信用评分和欺诈检测等领域中常用的特征编码方法。它的主要目的是将分类变量转换为数值变量,从而使得模型能够更好地理解类别与目标变量之间的关系 IV( Informatio…

二.python基础语法

目录 1.第一个python实例 2.python编码规范 2.1.编写规则 2.2.命名规范 2.3. 空格 2.4. 缩进 2.5. 注释 3.python关键字和标识符 3.1.标识符 3.2.关键字 4.python变量 4.1. 定义变量 4.2. 变量类型是可变的 4.3. 多个变量指向同一个值 5.python基本数据类型 5.…

通过组态王在ARMxy边缘计算网关上实现设备集成

随着工业4.0和智能制造理念的普及,设备集成已成为提高生产效率、优化资源配置的重要手段之一。ARMxy系列中的BL340边缘计算网关,以其强大的处理能力和丰富的接口资源,成为实现设备集成的理想平台。 1. BL340边缘计算网关概述 BL340系列是AR…

rce漏洞进阶-玩法思路-绕过姿态

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文主要是整理rce的一些绕过,以及思路等 用于实战中对着测漏洞用 偏进阶,不涉及基础的漏洞原理等内容 玩法思路 代码执行转化命令执行 遇到代码执行漏洞,我们可以传递syste…

计算机毕业设计选题推荐-基于python+Django的全屋家具定制服务平台

精彩专栏推荐订阅:在下方主页👇🏻👇🏻👇🏻👇🏻 💖🔥作者主页:计算机毕设木哥🔥 💖 文章目录 一、全屋家具定制…

操作系统 | 学习笔记 | | 王道 | 5.3 磁盘和固态硬盘

5.3 磁盘和固态硬盘 5.3.1 磁盘 磁盘结构 磁盘:磁盘的表面由一些磁性物质组成,可以用这些磁性物质来记录二进制数据 磁道:磁盘的盘面被划分成一个个磁道。这样的一个“圈”就是一个磁道 扇区:一个磁道又被划分成一个个扇区&am…

医院信息化运维监控:确保医疗系统的稳定与安全

在当今数字化时代,医院的信息化水平直接关系到医疗服务的效率和质量。随着医疗信息化的不断推进,医院对信息化运维监控的需求也日益增强。特别是IT软硬件资源监控和机房动环监控,它们在保障医院信息系统稳定运行中发挥着至关重要的作用。 首先…

在windows上使用vs code调试Rust程序

视频参考:https://www.youtube.com/watch?vTlfGs7ExC0A 前置条件 需要安装的软件: rustvs codeMinGW 或者其它能在 Windows 平台上运行 gdb、gcc 和 g 的软件。 需要安装的插件: rust-analyzer CodeLLDB 然后,在 vs code 中…

iPhone锁屏密码忘了怎么解锁?轻松解锁攻略来了

在日常生活中,智能手机已成为我们不可或缺的伙伴。其中,iPhone以其出色的性能和优雅的设计,赢得了全球用户的喜爱。然而,即便是最忠实的iPhone用户,也可能会遇到一些棘手的问题,比如忘记了锁屏密码。面对这…

韦唯湾区升明月演绎经典 震撼演绎传递爱与力量

9月22日晚,《“湾区升明月”2024大湾区电影音乐晚会》为全球观众送上了一场融合电影艺术与音乐魅力的艺术狂欢,晚会中不光有对不同代际经典影视金曲、经典歌曲的全新演绎,更是汇集了来自海峡两岸暨港澳地区的电影人、音乐人、奥运健儿代表。中…

【AI画图】stable-diffusion-webui学习之一《安装部署》

简介 Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它是一种潜在扩散模型,它由创业公司Stability AI与多个学术研究者和非营利组织合作开发。目前的SD的源代码和模型都已经开源,在Github上由AUTOMATIC1111维护了一个完整的项目…

git报错:无法读取远程分支 ‘origin‘ does not appear to be a git repository

问题分析 push上传的时候本地分支和远程分支断开连接 所以重新链接即可 排查问题 1. 查看是否有分支,检查分支是否正确 git branch -v 2. 查看连接是否断开,断开无内容展示 查看远程仓库详细信息,可看到仓库地址 git remote -v 解决…

k8s中pod的创建过程和阶段状态

管理k8s集群 kubectl k8s中有两种用户 一种是登录的 一种是/sbin/nologin linux可以用密码登录,也可以用证书登录 k8s只能用证书登录 谁拿到这个证书,谁就可以管理集群 在k8s中,所有节点都被网络组件calico设置了路由和通信 所以pod的ip是可以…

如何在拥挤的应用商店中脱颖而出

在现在移动应用程序已成为我们日常生活中必不可少的一部分,从通信和娱乐到财务和健康管理,为各种问题提供解决方案。然而,Google Play 和 App Store 等应用商店的竞争每年都变得更加激烈。数以百万计的应用程序争夺用户的注意力,仅…

车间里应用到了不同品牌的PLC,这还能进行无线通讯吗?

自第一台PLC在GM公司汽车生产线上首次应用成功以来,PLC凭借其方便性、可靠性以及低廉的价格得到了广泛的应用。在现代化工厂中,除厂级PLC系统外,还存在很多独立的子系统。比如,各个生产车间的PLC系统、或同一生产车间的不同生产流…