【深度学习】写实转漫画——CycleGAN原理解析

news2024/12/26 10:37:41

1、前言

上一篇,我们讲解了按照指定文本标签生成对应图像的CGAN。本篇文章,我们讲CycleGAN。这个模型可以对图像风格进行转化,并且训练还是在非配对的训练集上面进行的,实用性挺大

原论文:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (arxiv.org)

参考代码:A clean and readable Pytorch implementation of CycleGAN (github.com)

视频:【写实转漫画——CycleGAN原理解析-哔哩哔哩】

案例演示(现实转漫画):

在这里插入图片描述

PS:图像来自此项目:Style transfer for between real photos and anime images using CycleGAN (github.com)

2、CycleGAN训练原理

前置知识:GAN

以我们拍摄的照片转为漫画风格为例,在训练的时候,我们应当要有一批写实图像,记为X,还有另外一批漫画图像,记为Y

同GAN一样,CycleGAN也有生成网络跟判别网络;只不过,在CycleGAN中,生成网络有两个,判别网络也有两个。

首先,生成网络记为G,F

在这里插入图片描述

对于写实图像X,把它作为输入送给生成网络G,生成对应的漫画图像,由于是通过X伪造的,我们记为 Y ^ \hat Y Y^;对于训练的漫画图像Y,我们将它作为输入送给生成网络F,生成对应的写实图像,由于是通过Y伪造的,我们记为 X ^ \hat X X^

2.1、对抗损失

判别网络

记为 D x , D y D_x,D_y Dx,Dy,与GAN一样,我们希望判别网络能够正确区分出真实图像和伪造的图像;于是便有(对这个不熟的请看GAN)

D x D_x Dx
max ⁡ D x E x ∼ P d a t a ( X ) [ log ⁡ D x ( x ) ] + E y ∼ P d a t a ( Y ) [ log ⁡ ( 1 − D x ( F ( y ) ) ] (1) \max\limits_{D_x}\mathbb{E}_{x\sim P_{data}(X)}\left[\log D_x(x)\right]+\mathbb{E}_{y\sim P_{data}(Y)}\left[\log (1-D_x(F(y))\right]\tag{1} DxmaxExPdata(X)[logDx(x)]+EyPdata(Y)[log(1Dx(F(y))](1)
D y D_y Dy
max ⁡ D y E y ∼ P d a t a ( Y ) [ log ⁡ D y ( y ) ] + E x ∼ P d a t a ( X ) [ log ⁡ ( 1 − D y ( G ( x ) ) ] (2) \max\limits_{D_y}\mathbb{E}_{y\sim P_{data}(Y)}\left[\log D_y(y)\right]+\mathbb{E}_{x\sim P_{data}(X)}\left[\log (1-D_y(G(x))\right]\tag{2} DymaxEyPdata(Y)[logDy(y)]+ExPdata(X)[log(1Dy(G(x))](2)
生成网络

同GAN一样,生成网络希望生成的图像能够欺骗判别网络

对G
min ⁡ G E x ∼ P d a t a ( X ) [ log ⁡ ( 1 − D y ( G ( x ) ) ] (3) \min\limits_{G}\mathbb{E}_{x\sim P_{data}(X)}\left[\log (1-D_y(G(x))\right]\tag{3} GminExPdata(X)[log(1Dy(G(x))](3)
对F
min ⁡ F E y ∼ P d a t a ( Y ) [ log ⁡ ( 1 − D x ( F ( y ) ) ] (4) \min\limits_{F}\mathbb{E}_{y\sim P_{data}(Y)}\left[\log (1-D_x(F(y))\right]\tag{4} FminEyPdata(Y)[log(1Dx(F(y))](4)
整合(2)、(3)得
L G A N ( G , D y , X , Y ) = min ⁡ G max ⁡ D y E y ∼ P d a t a ( Y ) [ log ⁡ D y ( y ) ] + E x ∼ P d a t a ( X ) [ log ⁡ ( 1 − D y ( G ( x ) ) ] (5) \mathcal{L}_{GAN}(G,D_y,X,Y)=\min\limits_{G}\max\limits_{D_y}\mathbb{E}_{y\sim P_{data}(Y)}\left[\log D_y(y)\right]+\mathbb{E}_{x\sim P_{data}(X)}\left[\log (1-D_y(G(x))\right]\tag{5} LGAN(G,Dy,X,Y)=GminDymaxEyPdata(Y)[logDy(y)]+ExPdata(X)[log(1Dy(G(x))](5)
整合(1)、(4)得
L G A N ( F , D x , Y , X ) = min ⁡ F max ⁡ D x E x ∼ P d a t a ( X ) [ log ⁡ D x ( x ) ] + E y ∼ P d a t a ( Y ) [ log ⁡ ( 1 − D x ( F ( y ) ) ] (6) \mathcal{L}_{GAN}(F,D_x,Y,X)=\min\limits_{F}\max\limits_{D_x}\mathbb{E}_{x\sim P_{data}(X)}\left[\log D_x(x)\right]+\mathbb{E}_{y\sim P_{data}(Y)}\left[\log (1-D_x(F(y))\right]\tag{6} LGAN(F,Dx,Y,X)=FminDxmaxExPdata(X)[logDx(x)]+EyPdata(Y)[log(1Dx(F(y))](6)

2.2、循环一致性损失(Cycle Consistency Loss)

有了以上的损失函数,当生成网络(如 Y ^ = G ( X ) \hat Y=G(X) Y^=G(X))生成图像,上面的函数只能够保证真实的Y和 Y ^ \hat Y Y^的概率分布是一样的,但是却无法保证两张图像除了风格以外,其他东西不变。于是,作者加入循环一致性损失

在这里插入图片描述

也就是,当我们把X通过生成网络G生成 Y ^ \hat Y Y^,我们希望可以将 Y ^ \hat Y Y^输入给生成网络,从而得到 X ^ \hat X X^,让 X X X X ^ \hat X X^的差别最小。所以损失函数设定如下
L C y c l e ( G , F ) = E x ∼ P d a t a ( X ) [ ∣ ∣ F ( G ( x ) ) − x ∣ ∣ 1 ] + E y ∼ P d a t a ( Y ) [ ∣ ∣ G ( F ( y ) ) − y ∣ ∣ 1 ] (7) \mathcal{L}_{Cycle}(G,F)=\mathbb{E}_{x\sim P_{data}(X)}\left[||F(G(x))-x||_1\right]+\mathbb{E}_{y\sim P_{data}(Y)}\left[||G(F(y))-y||_1\right]\tag{7} LCycle(G,F)=ExPdata(X)[∣∣F(G(x))x1]+EyPdata(Y)[∣∣G(F(y))y1](7)
综合(5)、(6)、(7)可得最终损失函数
L ( G , F , D x , D y ) = L G A N ( G , D y , X , Y ) + L G A N ( F , D x , Y , X ) + λ L C y c l e ( G , F ) (8) \mathcal{L}(G,F,D_x,D_y)=\mathcal{L}_{GAN}(G,D_y,X,Y)+\mathcal{L}_{GAN}(F,D_x,Y,X)+\lambda\mathcal{L}_{Cycle}(G,F)\tag{8} L(G,F,Dx,Dy)=LGAN(G,Dy,X,Y)+LGAN(F,Dx,Y,X)+λLCycle(G,F)(8)
其中 λ \lambda λ是一个超参数,用于调节重要度的

2.3、鉴别损失

这个损失并非是必要的,作者在论文中提到,当模型做绘画转图像的任务时,加入这个鉴别损失,能够有效提高转化质量,其公式为
L i d e n t i t y ( G , F ) = E y ∼ P d a t a ( Y ) [ ∣ ∣ G ( y ) − y ∣ ∣ 1 ] + E x ∼ P d a t a ( X ) [ ∣ ∣ F ( x ) − x ∣ ∣ 1 ] (9) \mathcal{L}_{\mathbb{identity}}(G,F)=\mathbb{E}_{y\sim P_{data}(Y)}\left[||G(y)-y||_1\right]+\mathbb{E}_{x \sim P_{data}(X)}\left[||F(x)-x||_1\right]\tag{9} Lidentity(G,F)=EyPdata(Y)[∣∣G(y)y1]+ExPdata(X)[∣∣F(x)x1](9)
论文提到——“没有 L i d e n t i t y L_{\mathbb{identity}} Lidentity ,生成器G和F可以在不需要的时候自由地改变输入图像的色彩,比如画像的白天转化为图片后,会变成黄昏”。如图

在这里插入图片描述

​ 这个损失函数的理解我暂时没想明白,等以后想通了再回来补,如果您知道,还望指出!给您跪了!

3、结束

好了,以上便是这篇论文的主要内容了,如有问题,还望指出,阿里嘎多!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1611667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Matlab|含sop的配电网重构(含风光|可多时段拓展)

目录 1 主要内容 2 部分程序 3 下载链接 1 主要内容 之前分享了很多配电网重构的程序,每个程序针对场景限定性比较大,程序初学者修改起来难度较大,本次分享一个基础程序,针对含sop的配电网重构模型,含风电和光伏&am…

FPGA - 基于自定义AXI FULL总线的PS和PL交互

前言 在FPGA - ZYNQ 基于Axi_Lite的PS和PL交互中,介绍了基于基于AXi_Lite的PL和PS交互,接下来构建基于基于Axi_Lite的PS和PL交互。 AXI_GP、AXI_HP和AXI_ACP接口 首先看一下ZYNQ SoC的系统框图,如下图所示。在图中,箭头方向代表…

【LeetCode】100、相同的树

100、相同的树 文章目录 一、DFS1.1 DFS 二、多语言解法 一、DFS 因为判断【相同的树】,是一个公用的子问题,所以可以递归判断节点的左、右孩子。 1.1 DFS func isSameTree(p *TreeNode, q *TreeNode) bool {if p nil && q nil {return tru…

2024蓝桥杯嵌入式模板代码详解

文章目录 一、STM32CubeMx配置二、LED模板代码三、LCD模板代码 一、STM32CubeMx配置 打开STM32CubeMx,选择【File】->【New Project】,进入芯片选择界面,搜索到蓝桥杯官方的芯片型号,并点击收藏,下次直接点击收藏就…

【C++提高】常用容器

常用容器 引言:迭代器的使用一、vector容器1. vector基本概念2. vector的迭代器3. vector构造函数4. vector赋值操作5. vector容量和大小6. vector插入和删除7. vector数据存取8. vector互换容器9. vector预留空间 二、deque容器1. deque容器的基本概念2. deque容器…

leetcode:438. 找到字符串中所有字母异位词

给定两个字符串 s 和 p,找到 s 中所有 p 的 异位词 的子串,返回这些子串的起始索引。不考虑答案输出的顺序。 异位词 指由相同字母重排列形成的字符串(包括相同的字符串)。 示例 1: 输入: s "cbaebabacd", p "…

强固型工业电脑在仓储智能化行业、RFID+叉车电脑、扫码枪+叉车电脑应用

仓储智能化行业应用 科技的使命,是为了智能物流行业的客户,提供最佳的工业电脑解决方案。为了提高在仓库或者物流配送中心工作的效率,我们对仓储的不同应用需要,设计了一系列工业电脑来满足客户的需求。其中包括专业的叉车车载电…

NetSuite Connector实践分享

A.I 成为我们在企业信息化应用领域的研究重点。A,即是人工智能;I,即是集成技术。 在早前的一期我们谈了人工智能在模糊信息处理方面的应用。 NetSuite 文心一言(Ernie)的AI应用-CSDN博客 今朝,我们谈一下…

【JavaScript编程实操14】DOM实操_回到顶部

前言 本次主要是针对Javascript阶段的DOM实操方面的练习,本次主要实现当页面内容过多时,可以点击按钮,快速回到页面顶部的效果。这次的实现逻辑比较简单,主要是应用函数实现页面的回到顶部功能,this.scrollTo(0, 0)可以…

vue element ui 打开弹窗出现黑框问题

文章目录 问题描述解决方案 问题描述 大家好!今天是2024年4月20日 | 农历三月十二,周六的我又做在公司里面写起了代码 今天在做项目的时候遇到一个奇怪的问题,如下图所示: 因为这个页面我做了两个弹框,先弹出来第一个弹…

【归并】Leetcode 排序数组

题目讲解 912. 排序数组 算法讲解 使用归并算法排序数组,我们先在数组中寻找一个mid点,然后把数组分成了两部分,我们先排左部分,排左边部分的时候有需要将当前的子数组分成两部分,继续循环,直到当前子数组…

Spec-Gaussian:3D高斯溅射的各向异性视图相关外观

Spec-Gaussian: Anisotropic View-Dependent Appearance for 3D Gaussian Splatting Spec-Gaussian:3D高斯溅射的各向异性视图相关外观 Ziyi Yang1,3  Xinyu Gao1  Yangtian Sun2  Yihua Huang2  Xiaoyang Lyu2 杨子怡 1,3 高新宇 1 太阳扬天 2 黄宜华 2 吕晓阳…

驱动开发-windows驱动设计目标

驱动程序和应用程序不一样的,由于其直接运行于windows r0级,故对于开发有更多和更严格的标准,一般会有以下一些常见的设计目标: 安全性、可移植性、可配置性、 可被中断、多处理器安全、可重用 IRP、 支持异步 I/O这些是基本目标。 1. 安全…

C++语言·类和对象(下)

1. 初始化列表 我们回忆上节写的MyQueue类,其中有两个栈类和一个int类型,栈类因为其特殊性,要开空间,所以我们必须手搓Stack类的构造函数。但是正常来说MyQueue自动生成的构造函数会调用自定义类型的默认构造函数,也就…

C语言 | Leetcode C语言题解之第41题缺失的第一个正数

题目&#xff1a; 题解&#xff1a; int firstMissingPositive(int* nums, int numsSize) {for (int i 0; i < numsSize; i) {while (nums[i] > 0 && nums[i] < numsSize &&nums[nums[i] - 1] ! nums[i]) {int t nums[nums[i] - 1];nums[nums[i] -…

SQLite运行时可加载扩展(三十五)

返回&#xff1a;SQLite—系列文章目录 上一篇:SQLite轻量级会话扩展&#xff08;三十四&#xff09; 下一篇&#xff1a;SQLite—系列文章目录 1. 概述 SQLite 能够在运行时加载扩展&#xff08;包括新的应用程序定义的 SQL 函数、整理序列、虚拟表和 VFS&#xff09…

NineData正式将SQL开发正式升级为数据库DevOps

NineData SQL 开发早期主要提供 SQL 窗口&#xff08;IDE&#xff09;功能&#xff0c;产品经过将近两年时间的打磨&#xff0c;新增了大量的企业级功能&#xff0c;时至今日已经服务了上万开发者&#xff0c;覆盖了数据库设计、开发、测试、变更等生命周期的功能。 为了让企业…

C++相关概念和易错语法(7)(初始化列表、隐式类型转换、友元)

1.初始化列表 初始化列表是集成在构造函数里面的&#xff0c;对象在创建的时候一定会调用构造函数&#xff08;就算不显式定义&#xff0c;也会自动生成并调用&#xff09;。初始化列表就是这些对象的成员变量在创建的时候初始化的地方。 下面是使用的例子&#xff0c;可以先…

接口测试相关

接口测试&#xff0c;接口 接口是数据交互的入口和出口 接口是一套规范和标准 统一设计标准 前后端相对独立 扩展型灵活 接口文档。 接口测试 接口测试环境&#xff0c;运行程序&#xff0c;自己搭建环境 接口测试插件 谷歌postman 火狐 restclient java测试工具为j…