深度卷积对抗神经网络 基础 第七部分 StyleGAN

news2025/1/12 18:09:16

深度卷积对抗神经网络 基础 第七部分 StyleGAN

深度卷积神经网络模型已经应用在非常多的领域,但是其总包含了很多潜在的问题,比如说训练速度过慢,生成器与判别器的进化程度不平衡等等。那么,随着各种方法和算法的普及和进化,其解决的方法也越来越多,那么styleGAN就是其中的一个非常有趣的模型,

2018 年 12 月,Nvidia 研究人员分发了一份预印本以及介绍 StyleGAN 的配套软件,这是一种用于生成无限数量(通常令人信服)的假人脸肖像的 GAN 。StyleGAN 能够在 Nvidia 的商用 GPU 处理器上运行。

发展现状

  • 稳定性 Stability 方面:longer training and better images
    • 通过Batch standard deviation 来加强diversity。
    • 通过加强1-Lipschitz continuity来加强收敛稳定性。
    • 通过将不同生成器生成的结果进行加权平均,移动平均的方式来进行。
  • 容量 Capacity 方面: larger models and higher resolution images
    • 更高的分辨率
    • 更加细节的图片
  • 多样性 Diversity: increasing variety in generated images

StyleGAN

Style在这里指的是特性化,包括早期的特征比如说脸型等等,以及后期的特征比如说头发的精细度等等。

传统的生成器一般如下所示,主要是输入一个噪声向量,模型通过这个输入来生成一些图片。

image-20230131193814915

但是相反地,对于Style-Based 的生成器,其将噪声信号输入后,需要先进入一个特征匹配神经网络,然后输出一个中间噪声向量,其指定了所有的特征,并且尽量地去除特征之间的耦合并输入到生成器中。

image-20230131194007127

渐进增长 Progressive Growing

通过卷积和反卷积的方式去增加和减少像素数量,通过这样的方式去定义多个生成器和鉴别器,这样渐进型的训练方式可以加强信息的稳定性。

image-20230131194153656

噪声匹配网络 Noise Mapping Network

噪声匹配网络会将初始网络的复杂纠缠特征转换输出为可靠的,可解耦的,存在对应关系的噪声向量。我其实暂时也不太理解为什么或者如何可以进行解耦的操作,但是通过一些全连接层FC便可以实现。

image-20230131200005747

自适应实例规范化 Adaptive Instance Normalization (AdaIN)

Adaptive Instance Normalization是一种将内容特征的均值和方差与样式特征的均值和方差对齐的归一化方法。

Instance Normalization normalizes the input to a single style specified by the affine parameters. Adaptive Instance Normaliation is an extension. In AdaIN, we receive a content input x and a style input y, and we simply align the channel-wise mean and variance of x to match those of y. Unlike Batch Normalization, Instance Normalization or Conditional Instance Normalization, AdaIN has no learnable affine parameters. Instead, it adaptively computes the affine parameters from the style input:

image-20230131231737254

其主要通过归一化方法来进行,其将噪声信息转化为特征信息并输入到模型中,并且其和batch normalization也不同,其主要对每一个实例进行正交归一化。个人理解中,其主要就是进行了输入图像数据和特征数据的对其工作。

image-20230131232625265

而越早的生成器决定一些比较大的特征,比如说脸型,头型。而越晚的生成器则主要生成一些细节的特征,比如说头发的疏密,毛孔的大小之类的。

特征混合 & 随机噪声 Style Mixing & Stochastic Noise

Style Mixing 指的是将多个随机噪声混合地输入到每个生成器中,然后通过渐进地放入不同噪声的方式去得到特征的混合,但是又不会太过突兀,而是保留了多方的特征,并生成相对可观的结果。

而当upsample的时候,加入随机噪声会增加生成图片的微小细节变化。

最后的模型结构

最后的模型结构如下图所示,具体的结构和训练步骤如下所示:

  1. 生成一个高维度随机噪声z,并准备好训练的图片集
  2. 噪声通过多个全连接层来进行特征的提取和识别,并输出解除纠缠特性的噪声w
  3. 将两个或者多个噪声输入到多层的生成器中去逐渐生成最后的高分辨率图片
  4. 通过卷积操作将生成好的图片逐渐地与训练的图片集进行比较,并给出每一层的反馈。
  5. 通过多次优化迭代,寻找到最好的神经网络卷积层参数,使得分数最高,或者损失最低。
image-20230131234515695

参考文献 Reference

1. StyleGAN and Advancements

adain: adaptive instance normalization

batch norm

instance norm

2. (Optional) Components of StyleGAN2

Open Lab

3. Instructions

Please note that this is an optional notebook that is meant to introduce more advanced concepts, if you’re up for a challenge. So, don’t worry if you don’t completely follow every step! We provide external resources for extra base knowledge required to grasp some components of the advanced material.

In this notebook, you’re going to learn about StyleGAN2, from the paper Analyzing and Improving the Image Quality of StyleGAN (Karras et al., 2019), and how it builds on StyleGAN. This is the V2 of StyleGAN, so be prepared for even more extraordinary outputs.

4. (Optional) The StyleGAN Paper

Amazed by StyleGAN’s capabilities? Take a look at the original paper! Note that it may take a few extra moments to load because of the high-resolution images.

A Style-Based Generator Architecture for Generative Adversarial Networks (Karras, Laine, and Aila, 2019): https://arxiv.org/abs/1812.04948

5. (Optional) StyleGAN Walkthrough and Beyond

Want another explanation of StyleGAN? This article provides a great walkthrough of StyleGAN and even discusses StyleGAN’s successor: StyleGAN2!

GAN — StyleGAN & StyleGAN2 (Hui, 2020): https://medium.com/@jonathan_hui/gan-stylegan-stylegan2-479bdf256299

6. Works Cited

All of the resources cited in Course 2 Week 3, in one place. You are encouraged to explore these papers/sites if they interest you! They are listed in the order they appear in the lessons.

From the videos:

  • Generative Adversarial Networks (Goodfellow et al., 2014): https://arxiv.org/abs/1406.2661
  • Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (Radford, Metz, and Chintala, 2016): https://arxiv.org/abs/1511.06434
  • Coupled Generative Adversarial Networks (Liu and Tuzel, 2016): https://arxiv.org/abs/1606.07536
  • Progressive Growing of GANs for Improved Quality, Stability, and Variation (Karras, Aila, Laine, and Lehtinen, 2018): https://arxiv.org/abs/1710.10196
  • A Style-Based Generator Architecture for Generative Adversarial Networks (Karras, Laine, and Aila, 2019): https://arxiv.org/abs/1812.04948
  • The Unusual Effectiveness of Averaging in GAN Training (Yazici et al., 2019): https://arxiv.org/abs/1806.04498v2
  • Progressive Growing of GANs for Improved Quality, Stability, and Variation (Karras, Aila, Laine, and Lehtinen, 2018): https://arxiv.org/abs/1710.10196
  • StyleGAN - Official TensorFlow Implementation (Karras et al., 2019): https://github.com/NVlabs/stylegan
  • StyleGAN Faces Training (Branwen, 2019): https://www.gwern.net/images/gan/2019-03-16-stylegan-facestraining.mp4
  • Facebook AI Proposes Group Normalization Alternative to Batch Normalization (Peng, 2018): https://medium.com/syncedreview/facebook-ai-proposes-group-normalization-alternative-to-batch-normalization-fb0699bffae7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/191845.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

就业秘籍!这些软件测试的面试话术你要知道

近些年,各行各业找工作都不太容易,虽然身处技术岗位的软件测试因企业需求大,要比之其他行业容易,但,稍有不慎,也会让求职者与自己心仪的offer失之交臂,因此,大家在准备前面前&#x…

关键点匹配——商汤LoFTR源码详解

源码地址见文末 1.项目与参数配置解读 首先,进入目录,使用pip install -r requirements.txt配置环境。 首先,对于demo的运行,首先需要准备好需要用于关键点匹配的数据,提供的代码中置于了image文件夹下,然后是训练的权重,代码中下载了室内场景和室外场景的训练权重。 …

抓包展示vlan报文(8021Q)

VLAN数据帧格式要使交换机能够分辨不同VLAN的报文,需要在报文中添加标识VLAN信息的字段。IEEE 802.1Q协议规定,在以太网数据帧的目的MAC地址和源MAC地址字段之后、协议类型字段之前加入4个字节的VLAN标签(又称VLAN Tag,简称Tag&am…

什么护眼台灯比较专业?2023央视推荐的护眼灯

台灯作为最常见的照明工具,也是因为有许多孩子都有近视的现象,从儿童青少年的近视人数可以看出,我国的近视人数是全国第一的,所以选择一款好的护眼台灯是很关键的,有哪些专业的护眼台灯呢?挑选台灯最主要是…

vue 使用 wangeditor 富文本编辑器

wangeditor 是一个轻量级 web 富文本编辑器,配置方便,使用简单。 1)安装 wangeditor 终端安装 wangeditor 库: yarn add wangeditor/editor # 或者 npm install wangeditor/editor --save2)页面绑定 创建一个 xxx.…

unity 关于UV坐标算点 和 PerlinNoise(柏林噪声)

生成相关效果代码如下: public int w 100;public int h 100;public Texture2D texture;public Image image;public Color tu Color.yellow;public Color cao Color.green;// Start is called before the first frame updatevoid Start(){texture new Texture2D…

剑指 Offer II 007. 数组中和为 0 的三个数

题目链接 剑指 Offer II 007. 数组中和为 0 的三个数 mid 题目描述 给你一个整数数组 nums,判断是否存在三元组 [nums[i], nums[j], nums[k]]满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0。 请你返回所有和为 0 且不重复的三…

软件测试岗位会消失么

只要互联网还在发展,软件测试岗位就一直被需要! 软件测试已经不再只是点点点了,如果只停留在点点点,那么有可能会消失,但是现在测试已经向自动化测试方向发展了 人生如逆水行舟,不进则退。于其浪费时间的…

Golang GC垃圾回收机制理解记录

一、概念对不再使用的是内存资源进行自动回收的功能就叫垃圾回收(GC: Garbage Collection)二、为什么要有垃圾回收?编程语言需要对内存手动释放,操作繁琐,处理不好会出现内存泄漏,垃圾回收出现使的开发者能…

入门力扣自学笔记234 C++ (题目编号:2325)

2325. 解密消息 题目: 给你字符串 key 和 message ,分别表示一个加密密钥和一段加密消息。解密 message 的步骤如下: 使用 key 中 26 个英文小写字母第一次出现的顺序作为替换表中的字母 顺序 。 将替换表与普通英文字母表对齐&#xff0c…

ESP32设备驱动-PCF8591数据采集驱动

PCF8591数据采集驱动 1、PCF8591介绍 PCF8591 是一款单片集成、独立电源、低功耗、8 位 CMOS 数据采集设备。 PCF8591 具有四个模拟输入、一个模拟输出和一个串行 I2C 总线接口。 PCF8591 的三个地址引脚 A0、A1 和 A2 可用于硬件地址编程 8 PCF8591 器件允许访问相同的 I2C…

dig命令命令常见用法

dig命令命令常见用法域名结构dig命令命令常见用法安装dig查看本机使用的dns地址使用dot或doh查询域名解析查询A记录查询dns所有记录值any从ip地址反查询域名dig -x检查txt记录是否生效查看DNS是否开启AXFR协议全量区传输功能dig诊断DNS污染只显示域名的解析ip递归解析dig trace…

全球13台 DNS 根服务器,居然没有一台属于中国!

域名系统是最重要的互联网服务之一,没有它,我们将无法访问在线内容,甚至无法发送电子邮件。每当我们尝试连接到其他网站或在线服务时,根 DNS 服务器都会帮助我们的计算机找到并到达我们想要的地址。 DNS 根服务器是所有 DNS 的组…

MySQL-JDBC反序列化分析

0x01 前言 听师傅们说这条链子用的比较广泛,所以最近学一学,本来是想配合着 tabby 或是 codeql 一起看的,但是 tabby 的环境搭建一直有问题,耽误了很久时间,所以就直接看了 0x02 JDBC 的基础 本来不太想写这点基础的…

LaTeX使用enumitem包切换enumerate标签样式

一、直接使用enumerate 源码: \documentclass{article} \begin{document} \section{LaTeX Style Sample} There is nothing to show, thank you for reading. \begin{enumerate}\item Apple is a kind of fruit.\item Cat is a kind of animal.\item Butterfly is …

git commit之后,回退撤销commit

在commit之后,发现有不需要提交的文件被提交上去了,好在还没有push到远端,需要撤回重新提交。如果是用的是Sourcetree的话,打开Sourcetree操作如下:找到提交之前的版本的记录右键这条提交记录,点击 将xxx重置到这次提交…

Ventoy安装deepin系统(windows和deepin双系统)

目录电脑安装虚拟机安装双系统安装(windows和deepin)美化deepin系统引导页其他链接电脑安装 我们先制作好Ventoy启动盘,然后插入电脑使用U盘启动 deepin系统镜像下载地址 windows系统镜像下载地址 windows激活软件 ,密码:ev5k windows镜像下载…

Maven实战-1.maven命令

前言 持续更新中… Maven命令 1.mvn help:system 打印出java所有的系统属性和环境变量。 2.mvn clean compile clean告诉Maven清理输出目录target/,compile告诉Maven编译项目的主代码(src/main/java目录下)。 不要问为什么只是编译了项…

Hive的Rank排名(rank函数,dense_rank函数,row_numer函数)

一、区别:三者通常都会配合窗口函数over(),并结合partition by order by xxx来分组排序,即形式使用:function_name over(partition by xxx order by xxx)。首先三者都是产生一个自增序列,不同的是row_number() 排序的字…

2023年SAT、ACT、AP、Alevel、IB考试时间表

2023年已经来临!以下是2023年SAT、ACT、AP、A-Level、IB考试时间安排,早规划早备考,建议大家收藏!2023 SAT从2023年开始,美国以外的所有SAT考试都将转为机考,美国SAT考试将在2024年全面转为机考。2023年一共…