图像生成GAN和风格迁移

news2026/2/12 14:55:28

文章目录

摘要
abstract
1.生成对抗网络 GAN
- 1.1 算法步骤
2.风格迁移
- 2.1 损失函数
- 2.2 论文阅读
- - 2.2.1 简介
  - 2.2.2 方法
  - 2.2.3 实验
  - 2.2.4 结论
3.总结

摘要

本周学习了生成对抗网络（GAN）与风格迁移技术在图像生成中的应用。首先介绍了GAN模型中生成器与判别器通过对抗训练，使随机噪声逐步转换为逼真图像，展示了其在动漫人物生成中的潜力。其次阐述了风格迁移方法，通过预训练卷积网络提取图像内容和风格特征，并构建内容、风格及总变差损失，实现艺术风格转换。

abstract

This week we learned the application of generative adversarial network (GAN) and style transfer techniques in image generation. Firstly, the generator and discriminator in GAN model are trained to convert random noise into realistic image step by step, which shows its potential in the generation of cartoon characters. Secondly, the style transfer method is described, which extracts the image content and style features by pre-training convolutional network, constructs the content, style and total variation loss, and realizes the artistic style transformation.

1.生成对抗网络 GAN

在这里插入图片描述
上述的图简而言之就是，一个简单的分布经过Generator 后变成一个复杂的分布（给定一个低维的向量，对应生成一个动漫人物）

Discriminator的作用是将一张图片输出一个Scalar，其数值越大表示这张图片越像真实的二次元人物的额图像。
Generator 和Discriminator都是神经网络，其架构可以自己设计。

思考：为什么需要Discriminator？
联想演化理论
在这里插入图片描述
上述枯叶蝶为更好的生存不断地进化(相当于generator)，而天敌波波鸟为了捕获食物也需要进化（相当于discriminator）

generator生成一张图，discriminator通过对比真实图片来判断生成的图片是否真实，generator为“欺骗”discriminator不断地调整参数使得更加其生成地图片接近真实图片类型，上述过程也就是两者对抗过程。
在这里插入图片描述

1.1 算法步骤

在这里插入图片描述
第一步：先固定generator，训练discriminator ，其学习sample中人物特征，对于初始随机化参数地generator进行判别其是否符合真实地漫画人物形象。

将第一步训练好的discriminator和generator看成一个大网络，输入一个向量，输出一个分数，discirminator里面的参数是固定的，不断调整generator的参数使其输出的scaler值越大越好。

在这里插入图片描述
重复上述1，2两个步骤，直到generator产生的图片和真实图片很接近停止迭代。
对于discirminator的目标函数为： $G^*=arg\min_GDiv(P_G,P_{data})$

上述training的目标函数和js divergence 是有关系的，具体的推导过程参考GAN
经过文章中所提及的推导过程最后的公式可以变换成如下：
$G^*=arg\min_GDiv(P_G,P_{data})$ 、 $D^*=arg\max_DV(D,G)$
其中max objective value 和div是相关的，公式改写成如下：
$G^*=arg\min_G(max_DV(D,G))$

下面是一个简单的GAN生成一张图片的代码示例：

# 定义生成器模型
class Generator(nn.Module):
    def __init__(self, latent_dim=100, img_shape=(1, 28, 28)):
        super(Generator, self).__init__()
        self.img_shape = img_shape
        self.model = nn.Sequential(
            nn.Linear(latent_dim, 128),
            nn.ReLU(inplace=True),
            nn.Linear(128, 256),
            nn.BatchNorm1d(256, momentum=0.8),
            nn.ReLU(inplace=True),
            nn.Linear(256, 512),
            nn.BatchNorm1d(512, momentum=0.8),
            nn.ReLU(inplace=True),
            nn.Linear(512, int(torch.prod(torch.tensor(img_shape)))),
            nn.Tanh()  # 输出范围在 [-1, 1]
        )

    def forward(self, z):
        img = self.model(z)
        img = img.view(img.size(0), *self.img_shape)
        return img

# 利用生成器生成一张图片
latent_dim = 100
generator = Generator(latent_dim=latent_dim)
generator.eval()  # 设置为评估模式

# 随机生成一个噪声向量
z = torch.randn(1, latent_dim)
# 利用生成器生成图片
gen_img = generator(z).detach().numpy().squeeze()

# 由于 Tanh 激活函数输出在 [-1, 1]，需将其转换到 [0, 1] 以便显示
gen_img = (gen_img + 1) / 2.0

# 显示生成的图片
plt.imshow(gen_img, cmap='gray')
plt.title("Generated Image")
plt.axis("off")
plt.show()

2.风格迁移

风格迁移时一种计算机视觉技术，其核心思想将一幅图片的内容（物体的结构、布局、形状等信息）与另一幅图像的风格（如颜色、纹理、笔触等艺术特征）分离，并将两者重新组合，生成一幅既保留内容图像主体又具有风格图像艺术效果的新图像。
在这里插入图片描述

2.1 损失函数

import torch

# 内容一阶方差
def content_loss(Y_hat,Y):
    return torch.square(Y_hat-Y.detach()).mean()
# 二阶协方差
def gram(X):
    num_channels,n = X.shape[1],X.numel() // X.shape[1]
    X = X.reshape(num_channels,n)
    return torch.matmul(X,X.T) / (num_channels * n)

# 风格一阶方差
def style_loss(Y_hat,gram_Y):
    return torch.square((gram(Y_hat)-gram_Y.detach())).mean()

## 图像上下左右减少噪声的损失函数 总变差损失函数
def tv_loss(Y_hat):
    diff_v = torch.abs(Y_hat[:, :, 1:, :] - Y_hat[:, :, :-1, :]) #计算竖直方向上的差分
    diff_h = torch.abs(Y_hat[:, :, :, 1:] - Y_hat[:, :, :, :-1]) #计算水平方向的差分
    loss = (diff_v.sum()+diff_h.sum())/(Y_hat.size(0) * Y_hat.size(1))  # 假设按批次和通道求平均
    return loss

# 风格迁移的损失函数  内容损失+风格损失
content_weight,style_weight,tv_weight = 1,1e3,10
def computer_loss(X,content_Y_hat,styles_Y_hat,contents_Y,styles_Y_gram):
    contents_l = [content_loss(Y_hat,Y) * content_weight
                  for Y_hat,Y in zip(content_Y_hat,contents_Y)]
    styles_l = [style_loss(Y_hat,Y)*style_weight
                for Y_hat,Y in zip(styles_Y_hat,styles_Y_gram)]
    tv_l = tv_loss(X) * tv_weight
    return contents_l,styles_l,tv_l

2.2 论文阅读

2.2.1 简介

本周阅读论文《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》文章地址原始的风格迁移的速度非常慢，在GPU上，生成一张图片需要10分钟，并且这个时间会随着图片尺度的增大而迅速增大。这其中的原因在于把生成图片的过程当中一个训练的过程。正是基于上面的原因，提出一种方法：不把图片当做一个训练过程，而当成一个执行的过程。

2.2.2 方法

本周所阅读的这篇文章把快速风格迁移网络结构包含两个部分。一个是生成网络（Transform Network）,一个是损失网络（Loss network）。生成网络接收一个图片当作输入，然后输出也是一种图片（风格迁移后的结果）。如下图，左侧是生成网络，右侧是损失网络：
在这里插入图片描述
训练阶段： 首先选定一张风格图片。训练的目标是让生成网络可以有效生成图片。目标是由损失网络定义。
执行阶段： 给定一张图片，将其输入生成网络，输出这张图片风格迁移后的结果。
上述过程模型在执行阶段可以完成风格图片的生成。因此生成一张图片的速度非常快，在GPU上一般小于1秒。