【深度学习】AI修图——DragGAN原理解析

news2025/2/8 2:52:07

1、前言

上一篇,我们讲述了StyleGAN2。这一篇,我们就来讲一个把StyleGAN2作为基底架构的DragGAN。DragGAN的作用主要是对图片进行编辑,说厉害点,可能和AI修图差不多。这篇论文比较新,发表自2023年

原论文:Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

参考代码:https://github.com/skimai/DragGAN

视频:AI修图——DragGAN原理解析-哔哩哔哩

演示(随意选择红点,让红点对应位置的像素移动到蓝点):

demo

2、DragGAN运行原理:

前置知识:StyleGAN(请确保你已经知道这个模型)

DragGAN模型的原理,是构建在StyleGAN的基础上。以下,为StyleGAN的模型图

在这里插入图片描述

首先,你要有一个训练好的StyleGAN,然后通过该模型,获得一个风格信息w latent Code。接着,用这个风格信息合成图像,如上图的演示,得到狮子的图像。

接着,我们在狮子图像上,选择数量对等的红色点(初始点)和蓝色点(目标点),每一个红色点周围的像素点慢慢移动到对应蓝色点的位置,从而达到修图的效果

在这里插入图片描述

3、实现方法

DragGAN使用的是StyleGAN2,所里里面的风格信息记作w+ latent Code

StyleGAN2的w+ latent Code代表的是风格信息。对图像位置进行移动等等,其实就是风格信息的修改,因此,DragGAN其实就是通过优化w来实现图像的变化。并且,作者通过实验,发现这种空间属性的变化,主要由前6层的w+ latent Code控制,所以作者只优化前6层的w+。

除此之外,作者通过衡量合成网络特征图之间的差异来判断是否初始点达到了目标点。(为了方便,以下所有的w都表示w+)

来看具体流程

①对生成的图像狮子,其有对应风格信息 w latent Code。在图像上选择红色点(初始点,记为p)跟蓝色点(目标点,记为t)。

②找到256x256分辨率的输出特征图(feature map),然后通过双线性插值的方法,将分辨率采样成1024x1024(假设狮子的像素是1024)。如下图的Feature,记为F

在这里插入图片描述

③把在狮子的红色点p和蓝色点t,也同样标记在Feature中,记为 F ( p ) F(p) F(p) F ( t ) F(t) F(t),计算 p p p指向 t t t的方向向量 d = t − p ∣ ∣ t − p ∣ ∣ 2 d=\frac{t-p}{||t-p||_2} d=∣∣tp2tp(分母是对向量归一化).

④在F§这个位置点,画一个半径为 r 1 r_1 r1的红色小圆,取特征图F里面位置在圆内的所有像素点(红色区域),记其中某一个像素点为 q i q_i qi,并把这个像素点根据方向向量移动,即 F ( q i + d ) F(q_i+d) F(qi+d)

⑤最小化 ∣ ∣ F ( q i ) . d e t a c h ( ) − F ( q i + d ) ∣ ∣ 1 ||F(q_i).detach()-F(q_i+d)||_1 ∣∣F(qi).detach()F(qi+d)1。detach代表 F ( q i ) F(q_i) F(qi)不反向传播,这会激励 q i + d q_i+d qi+d这个位置的值尽量等于 F ( q i ) F(q_i) F(qi),而 F ( q i ) F(q_i) F(qi)代表的刚好是狮子对应位置的特征,所以更新之后会产生移动

⑥对于红色圆区域内的所有点,我们希望它都朝着d的方向移动,所以有最小化
∑ q i ∈ Ω 1 ( p , r 1 ) ∣ ∣ F ( q i ) . d e t a c h ( ) − F ( q i + d ) ∣ ∣ 1 \sum\limits_{q_i\in \Omega_1(p,r_1)}||F(q_i).detach()-F(q_i+d)||_1 qiΩ1(p,r1)∣∣F(qi).detach()F(qi+d)1
​ 其中 Ω \Omega Ω表示的是红色圆, q i q_i qi表示属于圆内的像素点。

⑦在实际中,可能不止有一个红色点和蓝色点,可能存在n个,所以
∑ j = 1 n ∑ q i ∈ Ω 1 ( p j , r 1 ) ∣ ∣ F ( q i ) . d e t a c h ( ) − F ( q i + d j ) ∣ ∣ 1 \sum\limits_{j=1}^n\sum\limits_{q_i\in \Omega_1(p_j,r_1)}||F(q_i).detach()-F(q_i+d_j)||_1 j=1nqiΩ1(pj,r1)∣∣F(qi).detach()F(qi+dj)1
⑧DragGAN还允许用户选择图像哪些区域不变,哪些区域改变,则设定区域不变性
∑ j = 1 n ∑ q i ∈ Ω 1 ( p j , r 1 ) ∣ ∣ F ( q i ) . d e t a c h ( ) − F ( q i + d j ) ∣ ∣ 1 + λ ∣ ∣ ( F − F 0 ) ∗ ( 1 − M ) ∣ ∣ 1 \sum\limits_{j=1}^n\sum\limits_{q_i\in \Omega_1(p_j,r_1)}||F(q_i).detach()-F(q_i+d_j)||_1 +\lambda||(F-F_0)*(1-M)||_1 j=1nqiΩ1(pj,r1)∣∣F(qi).detach()F(qi+dj)1+λ∣∣(FF0)(1M)1
​ 其中M是一张与特征图F一样大的矩阵,取值0或1,0代表图像的这个区域不改变,1代表可改变。

⑨对上面的损失函数进行优化更新w风格信息,得到新的 w ′ w' w,新的特征图 F ′ F' F。由于梯度下降和方向向量d的正则化的原因,并不能使初始点p一步到位走到目标点t,所以需要从新的特征图 F ′ F' F找到初始点p已经走到哪里了,我们记初始点为在原始特征图上为 f i = F 0 ( p i ) f_i=F_0(p_i) fi=F0(pi)

⑩取新的特征图 F ′ F' F,在初始点p这个位置画一个变长为 r 2 r_2 r2红色正方形(图中第二个特征图),把正方形内的像素点与 F 0 ( p i ) F_0(p_i) F0(pi)作最近邻搜索,长得最像的那个就是皮卡丘,将其作为新的初始点,即
p i : = arg ⁡ min ⁡ q i ∈ Ω 2 ( p i , r 2 ) ∣ ∣ F ′ ( q i ) − f i ∣ ∣ 1 p_i:=\mathop{\arg\min}\limits_{q_i\in\Omega_2(p_i,r_2)}{||F'(q_i)-f_i||_1} pi:=qiΩ2(pi,r2)argmin∣∣F(qi)fi1
: = := :=表示将右边的所得最小对应变量值赋给等式左边

迭代更新,最终使得初始点到达点t点,结束

看不明白?那就看视频吧,文字所能传达的信息有限。我尽力了,私密马赛

4、结束

以上就是DragGAN这篇论文的全部内容了,如有问题,还望指出,阿里嘎多!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1598198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

拼多多容器文件修改自动上传

拼多多开放平台php环境是官方的linux容器,不能自己搭建ftp上传文件,每每有文件更新都挺麻烦。 有些功能测试不想每次都打包全部代码上去重新发布一次程序生成新的容器,那样太过麻烦和效率低。 一开始搞了一个php的文件管理工具上去&#xf…

高效解决Visual Studio Code中文乱码问题

文章目录 问题解决步骤 问题 Visual Studio Code新建一个文件编码方式总是默认GBK,如果我不修改成默认UTF-8,那么每次运行,如果有中文需要输出就会乱码! 解决步骤 之后我会持续更新,如果喜欢我的文章,请记…

Apache DolphinScheduler 社区 3 月月报

各位热爱 DolphinScheduler 的小伙伴们,DolphinScheduler 社区月报开始更新啦!这里将记录 DolphinScheduler 社区每月的重要更新。 社区为 DolphinScheduler 3.2.x 版本做了诸多功能改进和 bug 修复 DolphinScheduler 月度 Merge Stars 感谢以下小伙伴 …

腾讯云轻量应用服务器端口怎么打开?

腾讯云轻量应用服务器端口怎么打开?在轻量应用服务器控制台的防火墙中开启端口,本文腾讯云百科txybk.com以80端口为例,来详细说下轻量应用服务器端口打开教程,另外可以在腾讯云百科 txy.wiki 查看当前轻量服务器最新的优惠券和配置…

LSTM 循环神经网络原理深度解读与网络结构精细剖析

长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊的循环神经网络(Recurrent Neural Network, RNN),设计用于解决长期依赖问题,特别是在处理时间序列数据时。 循环神经网络(RNN&#xf…

jenkins(docker)安装及应用

jenkins Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson(Hudson是商用的),主要用于持续、自动的构建/测试软件项目、监控外部任务的运行(这个比较抽象,暂且写上,不做解…

【InternLM】LMDeploy部署实践

1. LMDeploy基本介绍 LMDeploy提供一站式的大模型压缩、部署和服务,其主要特点包括: 高效的推理速度。通过引入持久批处理(即连续批处理)、阻塞 KV 缓存、动态拆分与融合、张量并行、高性能 CUDA 内核等关键特性,提供了比 vLLM 高1.8倍的请…

从零开始写一个RTSP服务器(三)RTP传输H.264

目录 一、RTP封装1.1 RTP数据结构1.2 源码 二、H.264的RTP打包2.1 H.264格式2.2 H.264的RTP打包方式2.3 H.264 RTP包的时间戳计算2.4 源码 三、H.264 RTP打包的sdp描述四、测试 本篇文章目标,使用vlc打开sdp文件后,可以观看到视频数据 一、RTP封装 1.1 …

实战:完美解决md图床问题-nginx图床-2024.4.16(测试成功)

目录 文章目录 目录1、前言图床简介搭建方式需求背景解决方案 2、配置过程1.部署nginx服务2.配置picgo3.配置rsync服务(可选) 3、测试验证关于我最后最后 1、前言 图床简介 对于写博客的朋友们来讲,图床这个东西一定不会陌生,而且在一定程度上也给大家…

MySQL8.0.20 下载与安装

一、下载 MySQL服务器下载安装: 官网社区版地址: https://downloads.mysql.com/archives/installer/ 二、安装 安装注意事项---成功秘诀 安装密码不要设置复杂了,千万要记住密码,比如root和mysql就很好;不要随意卸…

4.Spring AOP

4.1 Spring AOP的基本概念 4.1.1 AOP的概念 在业务处理代码中,通常都有日志记录、性能统计、安全控制、事务处理、异常处理等操作。尽管使用OOP可以通过封装或继承的方式达到代码的重用,但仍然存在同样的代码分散到各个方法中。因此,采用OO…

文件上传App,H5,小程序多端兼容

插件地址&#xff1a;https://ext.dcloud.net.cn/plugin?id5459 下载lsj-upload插件 代码如下 结构 <lsj-upload :option"option" :size"size" :formats"formats" :debug"debug":instantly"instantly" change"…

网络编程(现在不重要)

目录 网络编程三要素与InetAddress类的使用 软件架构 面临的主要问题 网络编程三要素&#xff08;对应三个问题&#xff09; InetAddress的使用 TCP与UDP协议剖析与TCP编程案例&#xff08;了解&#xff09; TCP协议 UDP协议 例子 UDP、URL网络编程 URL&#xff1a;&…

Android多线程:Handler runOnUiThread 异步消息处理机制

目录 一&#xff0c;Android中的多线程问题 1.模拟耗时工作 2.Android开启子线程 二&#xff0c;在子线程中更新UI 1.异步消息处理机制 Handler 2.使用runOnUiThread更新UI 一&#xff0c;Android中的多线程问题 Android用户界面是与用户交互的接口&#xff0c;对于用户的…

偏微分方程算法之混合边界差分

目录 一、研究对象 二、差分格式 2.1 向前欧拉格式 1. 中心差商 1.1.1 理论推导 1.1.2 算例实现 2. x0处向前差商&#xff0c;x1处向后差商 1.2.1 理论推导 1.2.2 算例实现 2.2 Crank-Nicolson格式 2.2.1 理论推导 2.2.2 算例实现 一、研究对象 这里我们以混合边界…

科技云报道:AI大模型疯长,存储扛住了吗?

科技云报道原创。 AI大模型正在倒逼数字基础设施产业加速升级。 过去一年半&#xff0c;AI大模型标志性的应用相继出现&#xff0c;从ChatGPT到Sora一次次刷新人们的认知。震撼的背后&#xff0c;是大模型参数指数级的增长。 这种数据暴涨的压力&#xff0c;快速传导到了大模…

Efficient Multimodal learning from data-centric perspective

[MLLM-小模型推荐-2024.3.18] Bunny 以数据的眼光看问题 - 知乎近期几天会梳理下多模态小模型相关的论文&#xff0c;做个汇总。为了能够每天更新点啥&#xff0c;先穿插一些小模型算法。等到全部算法都梳理完成后&#xff0c;再发布一篇最终汇总版本的。 3.15 号 BAAI 发布了 …

关于机器学习/深度学习的一些事-答知乎问(五)

嵌入学习方法在解决小样本学习问题时面临的挑战是什么&#xff1f; &#xff08;1&#xff09;过度依赖于辅助数据&#xff0c;预训练的模式违背了小样本学习的本质定义。几乎所有的嵌入学习方法都需要通过大量辅助样本来预训练特征嵌入函数&#xff0c;但在实际应用场景中&am…

葡萄书--图理论基础

图的定义 G{V,E} 节点和边的信息可以是类别型的&#xff0c;类别型数据的取值只能是哪一类别。一般称类别型的信息为标签。 节点和边的信息可以是数值型的&#xff0c;数值型数据的取值范围为实数。一般称数值型的信息为属性。 在图的计算任务中&#xff0c;我们认为&#x…

不消除存储瓶颈,AIGC就是梦幻泡影

大数据产业创新服务媒体 ——聚焦数据 改变商业 在大模型和AIGC的新纪元&#xff0c;我们正见证一个前所未有的技术革命。从更自然的人机对话&#xff0c;到图片、视频生成&#xff0c;AIGC技术正在彻底改变我们创造、学习和交流的方式。 然而&#xff0c;这一切进步的背后&am…