Motion Guidance: 扩散模型实现图像精确编辑的创新方法

news2024/11/25 20:30:25

在深度学习领域,扩散模型(diffusion models)因其能够根据文本描述生成高质量图像而备受关注。然而,这些模型在精确编辑图像中对象的布局、位置、姿态和形状方面仍存在挑战。本文提出了一种名为“运动引导”(motion guidance)的零样本技术,允许用户指定密集的复杂运动场,以指示图像中每个像素的移动方向。通过结合现成的光流网络,运动引导通过梯度引导扩散采样过程,实现对图像的精确编辑。

运动引导的概念
给定一个源图像和一个目标运动场,生成一个相对于原始图像具有期望运动的新图像。这些图像展示了零样本技术的应用,通过光流网络实现引导,并适用于真实和合成图像

方法

在扩散模型中引入引导技术是为了在图像生成过程中实现更精确的控制。该技术的原理为通过向去噪估计中添加来自损失函数的梯度信息,来微调生成的样本。分类器引导是这种方法的一个实例,它利用分类器的梯度来指导样本生成,使其更符合特定的分类目标。

为了增强引导信号,研究者们在损失函数中加入了额外的项,这允许在去噪过程中考虑更多的条件信息。损失函数中不同项的权重可以动态调整,以优化生成样本的质量。这种方法的一个关键优势是它的通用性,可以适用于多种类型的扩散模型,从而实现对图像的精细控制。

递归去噪是提高引导效率的策略之一,通过在去噪的每一步重复应用引导,有助于提高样本的质量和引导的稳定性。然而,引导技术也带来了一些挑战,包括优化过程中可能的不稳定性,以及对损失函数设计和权重选择的敏感性。尽管存在这些挑战,引导技术为图像编辑和生成提供了强大的工具,尤其是在需要精确控制图像内容时。

研究者们提出了一种新颖的方法,允许用户通过指定复杂的运动场来精确编辑图像中对象的布局、位置、姿态和形状。这种方法利用了现成的光流网络来引导扩散模型的采样过程,实现了对图像的精细控制。

研究者们设计了一个指导损失函数,该函数基于用户指定的运动场来衡量生成图像与期望运动的一致性。通过最小化这个损失函数,可以引导图像编辑过程,使得生成的图像在视觉上与源图像相似,同时满足特定的运动要求。损失函数包括两部分:一部分是流损失,用于确保图像中的像素按照指定的运动场移动;另一部分是颜色损失,用于保持图像编辑过程中的颜色一致性。

为了实现运动引导,研究者们采用了一个可微分的光流估计器来计算源图像和生成图像之间的运动。在每个扩散采样步骤中,他们估计了生成图像与源图像之间的运动,并测量了实际运动与用户指定运动场之间的偏差。然后,通过在损失函数中加入这些偏差的梯度,实现了对生成过程的引导。

研究者们还引入了一个掩码来处理遮挡问题,确保在对象移动并遮挡背景像素时,颜色损失不会对这些区域产生负面影响。通过这种方式,运动引导技术能够在保持源图像视觉质量的同时,实现对图像中对象的精确操控。

在单一源图像上进行的各种运动编辑,包括缩放和拉伸等多种变形

在实现运动引导方面,研究者们采取了一系列技术手段来确保高质量和高效率的图像编辑过程。这些技术手段主要包括以下几个方面:

处理遮挡问题:在对象移动时可能会遮挡背景像素,这些像素在生成图像中没有直接对应的点。为了解决这个问题,研究者们引入了遮罩技术,通过分析目标流来确定哪些区域会被遮挡,并在这些区域中忽略颜色损失,以避免不自然的图像效果。

编辑掩码的构建:为了精确控制图像编辑的范围,研究者们开发了一种自动构建编辑掩码的方法。这个掩码标识了需要根据运动场进行编辑的像素区域,允许模型在这些区域内应用运动引导,而在其他区域则保留源图像的内容。

噪声图像的处理:由于光流网络通常只在干净图像上训练,研究者们采用了一种技术来适应噪声图像。通过计算对干净图像的一步近似的引导函数的梯度,使得即使在噪声存在的情况下也能有效地进行引导。

递归去噪:为了提高优化的稳定性和图像质量,研究者们采用了递归去噪技术。这种方法通过重复去噪步骤多次,使得模型能够更细致地调整图像,从而提高最终结果的质量和一致性。

引导梯度裁剪:为了防止在优化过程中出现不稳定现象,研究者们实施了梯度裁剪策略。通过限制梯度的大小,可以减少引导过程中可能发生的剧烈变化,从而提高生成过程的稳定性。

运动引导的实现:研究者们将运动引导函数集成到了扩散模型的去噪步骤中。在每个去噪步骤中,模型不仅考虑如何去除噪声,还要考虑如何根据用户指定的运动场调整像素,以实现运动引导。

用户界面的开发:为了提高运动引导技术的可用性,研究者们开发了一个图形用户界面,允许用户通过直观的操作来指定运动场。这个界面支持平移、旋转、缩放和复杂变形等操作,极大地简化了运动场的创建过程。

通过这些技术手段的结合,研究者们成功实现了一种灵活且强大的图像编辑方法,它不仅能够处理复杂的运动编辑任务,还能够保持图像的高质量和自然性。

结果

研究者选用了RAFT作为光流模型,该模型能够精确估计两幅图像之间的像素运动。为了构建目标流场,他们采用了基础流的组合,并利用分割模型生成掩码,确保流场仅作用于图像的特定区域。在超参数的选择上,研究者确定了颜色损失和流损失的权重,并应用了全局权重和梯度裁剪阈值来优化引导过程。

实验设置中,研究者采用了Stable Diffusion v1.4模型,并在单个NVIDIA A40 GPU上进行操作,生成512×512分辨率的图像。他们还开发了一个图形用户界面,使用户能够通过直观的点击和拖动来创建复杂的流场。在去噪过程中,研究者采用了递归去噪技术,并发现在去噪的最后阶段关闭引导可以提高图像质量。

为了适应Stable Diffusion模型的潜在空间,研究者对编辑掩码进行了下采样处理。他们还制定了一个指导计划,在去噪的前期阶段应用引导,而在后期阶段则关闭引导,以便模型能够集中于生成高质量的细节。

为了理解各个组件对最终结果的贡献,研究者进行了消融实验,移除了关键组件并展示了它们对结果的影响。例如,他们展示了在没有递归去噪、颜色损失或流损失时的编辑结果,以及没有遮挡掩码时的影响。

通过定性分析,展示了引导函数的关键组件移除后的影响

研究者将他们的运动引导技术与其他几种基线方法进行了比较,包括InstructPix2Pix、SDEdit和RePaint等。通过直观的示例,展示了不同方法在处理相同任务时的效果差异,并强调了运动引导技术相对于这些方法的优势。

不同基线方法与作者方法的定性比较
与DragGAN方法的比较

研究者使用了两个指标来评估方法的性能:流损失(Flow Loss)和CLIP相似度(CLIP Similarity)。他们在两个不同的数据集上进行了评估,结果显示运动引导技术在满足目标流和保持源图像忠实度之间提供了一个有吸引力的权衡。

不同方法在流损失和CLIP相似性指标上的性能

研究者探讨了在难以手动指定流时,如何将视频中提取的运动应用到图像上。通过几个示例,展示了即使提取的流与目标图像不完全重叠,也能实现所需的运动。这表明了运动引导技术在运动转移方面的潜力。

从视频中提取运动并将其应用于完全不同的图像的能力

尽管运动引导技术在多个方面表现出色,但它仍然面临着采样速度慢、优化过程中的不稳定性以及对特定目标流的局限性等问题。未来的研究需要在提高算法效率、增强模型鲁棒性以及拓展技术适用性方面进行更深入的探索。

论文链接:https://arxiv.org/abs/2401.18085

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1897982.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图书馆数据仓库

目录 1.数据仓库的数据来源为业务数据库(mysql) 初始化脚本 init_book_result.sql 2.通过sqoop将mysql中的业务数据导入到大数据平台(hive) 导入mysql数据到hive中 3.通过hive进行数据计算和数据分析 形成数据报表 4.再通过sq…

如何取消闪迪Micro SD卡的写保护?这个技巧很有效!

由于受写保护影响,无法格式化闪迪Micro SD卡?别担心!通过本文你可以学习如何解除闪迪Micro SD卡的写保护。 我的闪迪SD卡有写保护怎么办? “我打算格式化我的闪迪SD卡。但当我进行格式化时,提示我磁盘被写保护。我想用…

Linux配置固定ip地址

虚拟机的Linux操作系统,其IP地址是通过DHCP服务获取的 DHCP:动态获取IP地址,即每次重启设备后都会获取一次,可能导致IP地址频繁变更。 一般系统默认的ip地址设置都是自动获取,故每次系统重启后ip地址都可能会不一样&a…

数字化产科管理平台全套源码,java产科电子病历系统源码

数字化产科管理平台全套成品源码,产科电子病历系统源码,多家大型妇幼专科医院应用案例。源码完全授权交付。 数字化产科管理平台(智慧产科系统)是为医院产科量身定制的信息管理系统。它管理了孕妇从怀孕开始到生产结束42天以内的一…

欢乐钓鱼大师攻略:西沙群岛攻略,内置自动辅助云手机!

《欢乐钓鱼大师》是一款以钓鱼为主题的休闲游戏,玩家可以在虚拟的钓鱼世界中体验真实的钓鱼乐趣,并通过捕捉各种珍稀鱼类来提升自己的钓鱼技能和成就。在这篇攻略中,我们将重点介绍如何在西沙群岛区域有效地捕捉各种典藏鱼类,并提…

数据结构之顺序表专题

在学习数据结构之前我们要先了解什么是数据结构? 1.数据结构相关概念 1.什么是数据结构? 数据结构是由“数据”和“结构”两词组合而来。 什么是数据?常见的数值1、2、3、4.、教务系统里保存的用户信息(姓名、性别、年龄、学历等等)、网页里肉眼可以…

Qt项目:基于Qt实现的网络聊天室---注册模块

文章目录 基本页面设计创建登录界面创建注册界面优化样式完善注册类界面 客户端逻辑完善客户端增加post逻辑客户端配置管理 邮箱注册服务认证服务读取配置邮箱验证服务联调设置验证码过期封装redis操作类封装redis连接池注册功能Server端接受注册请求封装mysql连接池封装DAO操作…

传统视觉Transformer的替代者:交叉注意力Transformer(CAT)

传统视觉Transformer的替代者:交叉注意力Transformer(CAT) 在深度学习的世界里,Transformer架构以其在自然语言处理(NLP)领域的卓越表现而闻名。然而,当它进入计算机视觉(CV)领域时,却面临着计算成本高昂和推理速度慢的双重挑战。现在,一项革命性的创新——交叉注意…

【Linux】—VMware安装Centos7步骤

文章目录 前言一、虚拟机准备二、CentOS7操作系统安装 前言 本文介绍VMware安装Centos7步骤。 软件准备 软件:VMware Workstation Pro,直接官网安装。镜像:CentOS7,镜像官网下载链接:https://vault.centos.org/&#x…

[SAP ABAP] 子例程

子例程 示例1 主程序(Z437_TEST_2024) INCLUDE文件(Z437_TEST_2024_F01) 输出结果如下所示 示例2 主程序(Z437_TEST_2024) INCLUDE文件(Z437_TEST_2024_F01) 输出结果如下所示 补充扩展练习 主程序(Z437_TEST_2024) INCLUDE文件(Z437_TEST_2024_F01) 输出结果如下所示 提示…

使用Rough.js库在画布上绘制一只毛毛虫

本文由ScriptEcho平台提供技术支持 项目地址:传送门 代码应用场景介绍 本代码使用Rough.js库在画布上绘制一只毛毛虫。 代码基本功能介绍 初始化画布: 使用Rough.js库创建画布,并设置画布尺寸。 绘制毛毛虫身体: 使用椭圆形和…

【C++】 解决 C++ 语言报错:未定义行为(Undefined Behavior)

文章目录 引言 未定义行为(Undefined Behavior, UB)是 C 编程中非常危险且难以调试的错误之一。未定义行为发生时,程序可能表现出不可预测的行为,导致程序崩溃、安全漏洞甚至硬件损坏。本文将深入探讨未定义行为的成因、检测方法…

上千套源码分享免费(师哥师姐毕设分享)

项目管理平台详解 项目管理平台是专为项目管理者设计的系统软件,旨在在有限的资源约束下,通过系统的观点、方法和理论,对项目涉及的全部工作进行有效管理。这种平台不仅有助于项目从投资决策到结束的全程计划、组织、指挥、协调、控制和评价…

html纯原生网页引入vue3版本的quill editor

效果图 版本 vueup/vue-quill v1.2.0vue3.3.8Element Plus v2.4.2 引入流程 找一个vue3的项目, 然后安装插件vue版本的quill: vue-quill npm install vueup/vue-quill --save官方地址:https://vueup.github.io/vue-quill/ 安装完成之后,把vue-quil插件下…

[单master节点k8s部署]18.监控系统构建(三)Grafana安装

Grafana是一个跨平台的开源的度量分析和可视化工具。支持多种数据源,比如OpenTSDB,Prometheus,ElasticResearch,Cloudwatch等。 Grafana安装 通过yaml配置grafana的pod和service,grafana工作在kube-system的命名空间…

小学英语语法

目录 a和an的用法名词的单复数be动词和人称代词(主格)指示代词形容词物主代词名词所有格双重所有格方位介词some,any和no的用法How many和How much的用法情态动词can的用法祈使句人称代词(宾格)常见实义动词的用法一般…

也说字母U:房子到底是什么?

​ 不记得是第几期了,湖南卫视有档很火的音乐节目叫《歌手》,那一期是最终是韩磊夺得了冠军,他有一杀手锏,叫《向天再借五百年》,他要不夺冠,好像大家也对不起对这首歌的印象,因为他是多少人的记…

【网址】Andorid Studio历史版本下载

Andorid Studio官网是最新版本的下载,历史版本的下载地址 :https://developer.android.google.cn/studio/archive 1.如果是空白页面的话,切换语言【中文切换成English】 2.滑倒最后点击同意 3.历史版本浏览 4.下载安装包 遇到问题1&#xf…

【HICE】基于用户认证的虚拟服务搭建

1.创建特定的内容 --账号与密码(需要认证访问)【里面】 2.编辑配置1.conf的内容,更新httpd 3.编辑hehe网页(外部公开) cd /www/ echo hehe > hehe/index.html 4.更改本地hosts和window下的解析 5.浏览器下验证内…

Linux搭建hive手册

一、将hive安装包上传到NameNode节点并解压 1、删除安装MySQL时的.rpm文件 cd /opt/install_packages/ rm -rf *.rpm 2、将安装包拖进/install_packages目录 3、解压安装包 tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/softs/ 4、修改包名 cd /opt/softs mv apache-…