【深度学习】写实转漫画—

【深度学习】写实转漫画——CycleGAN原理解析

news2026/2/14 13:01:26

1、前言

上一篇，我们讲解了按照指定文本标签生成对应图像的CGAN。本篇文章，我们讲CycleGAN。这个模型可以对图像风格进行转化，并且训练还是在非配对的训练集上面进行的，实用性挺大

原论文：Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (arxiv.org)

参考代码：A clean and readable Pytorch implementation of CycleGAN (github.com)

视频：【写实转漫画——CycleGAN原理解析-哔哩哔哩】

案例演示（现实转漫画）：

在这里插入图片描述

PS：图像来自此项目：Style transfer for between real photos and anime images using CycleGAN (github.com)

2、CycleGAN训练原理

前置知识：GAN

以我们拍摄的照片转为漫画风格为例，在训练的时候，我们应当要有一批写实图像，记为X，还有另外一批漫画图像，记为Y

同GAN一样，CycleGAN也有生成网络跟判别网络；只不过，在CycleGAN中，生成网络有两个，判别网络也有两个。

首先，生成网络记为G，F

在这里插入图片描述

对于写实图像X，把它作为输入送给生成网络G，生成对应的漫画图像，由于是通过X伪造的，我们记为 $\hat Y$ ；对于训练的漫画图像Y，我们将它作为输入送给生成网络F，生成对应的写实图像，由于是通过Y伪造的，我们记为 $\hat X$

2.1、对抗损失

判别网络

记为 $D_x,D_y$ ，与GAN一样，我们希望判别网络能够正确区分出真实图像和伪造的图像；于是便有（对这个不熟的请看GAN）

对 $D_x$
$\max\limits_{D_x}\mathbb{E}_{x\sim P_{data}(X)}\left[\log D_x(x)\right]+\mathbb{E}_{y\sim P_{data}(Y)}\left[\log (1-D_x(F(y))\right]\tag{1}$
对 $D_y$
$\max\limits_{D_y}\mathbb{E}_{y\sim P_{data}(Y)}\left[\log D_y(y)\right]+\mathbb{E}_{x\sim P_{data}(X)}\left[\log (1-D_y(G(x))\right]\tag{2}$
生成网络

同GAN一样，生成网络希望生成的图像能够欺骗判别网络

对G
$\min\limits_{G}\mathbb{E}_{x\sim P_{data}(X)}\left[\log (1-D_y(G(x))\right]\tag{3}$
对F
$\min\limits_{F}\mathbb{E}_{y\sim P_{data}(Y)}\left[\log (1-D_x(F(y))\right]\tag{4}$
整合（2）、（3）得
$\mathcal{L}_{GAN}(G,D_y,X,Y)=\min\limits_{G}\max\limits_{D_y}\mathbb{E}_{y\sim P_{data}(Y)}\left[\log D_y(y)\right]+\mathbb{E}_{x\sim P_{data}(X)}\left[\log (1-D_y(G(x))\right]\tag{5}$
整合（1）、（4）得
$\mathcal{L}_{GAN}(F,D_x,Y,X)=\min\limits_{F}\max\limits_{D_x}\mathbb{E}_{x\sim P_{data}(X)}\left[\log D_x(x)\right]+\mathbb{E}_{y\sim P_{data}(Y)}\left[\log (1-D_x(F(y))\right]\tag{6}$

2.2、循环一致性损失（Cycle Consistency Loss）

有了以上的损失函数，当生成网络（如 $\hat Y=G(X)$ ）生成图像，上面的函数只能够保证真实的Y和 $\hat Y$ 的概率分布是一样的，但是却无法保证两张图像除了风格以外，其他东西不变。于是，作者加入循环一致性损失

在这里插入图片描述

也就是，当我们把X通过生成网络G生成 $\hat Y$ ，我们希望可以将 $\hat Y$ 输入给生成网络，从而得到 $\hat X$ ，让 $X$ 跟 $\hat X$ 的差别最小。所以损失函数设定如下
$\mathcal{L}_{Cycle}(G,F)=\mathbb{E}_{x\sim P_{data}(X)}\left[||F(G(x))-x||_1\right]+\mathbb{E}_{y\sim P_{data}(Y)}\left[||G(F(y))-y||_1\right]\tag{7}$
综合（5）、（6）、（7）可得最终损失函数
$\mathcal{L}(G,F,D_x,D_y)=\mathcal{L}_{GAN}(G,D_y,X,Y)+\mathcal{L}_{GAN}(F,D_x,Y,X)+\lambda\mathcal{L}_{Cycle}(G,F)\tag{8}$
其中 $\lambda$ 是一个超参数，用于调节重要度的

2.3、鉴别损失

这个损失并非是必要的，作者在论文中提到，当模型做绘画转图像的任务时，加入这个鉴别损失，能够有效提高转化质量，其公式为
$\mathcal{L}_{\mathbb{identity}}(G,F)=\mathbb{E}_{y\sim P_{data}(Y)}\left[||G(y)-y||_1\right]+\mathbb{E}_{x \sim P_{data}(X)}\left[||F(x)-x||_1\right]\tag{9}$
论文提到——“没有 $L_{\mathbb{identity}}$ ，生成器G和F可以在不需要的时候自由地改变输入图像的色彩，比如画像的白天转化为图片后，会变成黄昏”。如图