(深度学习快速入门)第五章第二节:GAN变体

news2025/1/10 17:19:10

文章目录

  • 一:CycleGAN
    • (1)概述
    • (2)双判别器
    • (3)损失函数
  • 二:StyleGAN
    • (1)解耦表征学习
    • (2)概述
  • 三:DCGAN

一:CycleGAN

(1)概述

CycleGAN:它是一种实现图像风格转换功能的GAN网络。其实早在CycleGAN出现之前,就存在着Pix2Pix这样的模型进行图像风格转换,但是它的局限性很大,因为要求所输入的图片必须是成对的(paired),但在现实中这种图像很难收集。而CycleGAN不要求图像成对(unpaired),所以非常实用

例如下图输入 X X X的图片,可以是任意的,甚至是自己画的,然后 Y Y Y的图片是梵高风格的画像,CycleGAN训练之后就会把任何输入的图像转化为梵高风格的画像

在这里插入图片描述

其实不止是图像风格化,CycleGAN还可以运用在语音处理方面,例如声音的变声,可以把任意声音声音和郭德纲声音去训练,这样你说出的话就会被转换成郭德纲声音

(2)双判别器

CycleGAN的核心在于其双判别器结构,如下图

  • G G G:从X到Y的生成器
  • F F F:从Y到X的生成器
  • D X D_{X} DX:鉴别是否为 X X X的鉴别器
  • D Y D_{Y} DY:鉴别是否为 Y Y Y的鉴别器

训练时包含两个过程

  • x x x经过 G G G生成 Y ︿ \mathop{Y}\limits^{︿} Y︿,然后将 Y ︿ \mathop{Y}\limits^{︿} Y︿送入 D Y D_{Y} DY进行鉴别,再把 Y ︿ \mathop{Y}\limits^{︿} Y︿送入F中生成 x ︿ \mathop{x}\limits^{︿} x︿
  • y y y经过 F F F生成 X ︿ \mathop{X}\limits^{︿} X︿,然后将 X ︿ \mathop{X}\limits^{︿} X︿送入 D X D_{X} DX进行鉴别,再把 X ︿ \mathop{X}\limits^{︿} X︿送入G中生成 y ︿ \mathop{y}\limits^{︿} y︿

在这里插入图片描述

(3)损失函数

损失函数:由对抗损失和Cycle Consistency损失构成

在这里插入图片描述

X X X生成 Y Y Y和由 Y Y Y生成 X X X这两部分损失函数和最初的GAN是一样的

在这里插入图片描述

单独对抗损失不能保证可以映射单个输入,举个例子: G G G F F F可能合伙偷懒骗人,给 G G G一个图, G G G偷偷把小狗变成梵高自画像, F F F再把梵高自画像变成输入。引入Cycle Consistency可以制止这种行为,他用梵高其他画作测试FG,用另外真实图片测试GF,看看是否可以变回原来的样子,这样做就保证了GF在整个X、Y分布区间的普适性

在这里插入图片描述

二:StyleGAN

(1)解耦表征学习

人工神经网络其本质就是在进行表征学习,但是他是一种黑盒算法,不具备可解释性,往往是通过大量数据训练出的结果,所以其泛化能力不是很高。这是因为,人工神经网络所学习到的特征是纠缠在一起的,或者说是耦合的,例如下图是一只狸花猫,人工神经网络可以轻易学习到这种猫的特征,但是如果换一种猫,甚至说只是换一个颜色,那可能效果就不尽如人意了,可以看到其颜色、形状、姿势等特征是耦合在一起的

在这里插入图片描述

而人类对于物体的学习天然就是解耦的,面对颜色各异的杯子,我们在学习到杯子的基本特征后,不会因为只是颜色不同就无法识别出来

在这里插入图片描述

后面会说到的styleGAN所做的就是解耦表征学习,这也是近几年十分火热的话题。下图是styleGAN通过控制发色、眼睛、皮肤等单因素或特征生成人脸图像

在这里插入图片描述

解耦表征学习非常重要,因为一旦它可以做到

  • 使神经网络的输出可解释,神经网络不再是一个黑盒算法。其为什么能和为什么不能都可以得到解答
  • 使GAN输出可控
  • 进行少样本、零样本学习:其目的是在于模拟人类的认知,人类可以从极少的样本甚至是没有样本中进行学习

(2)概述

  • StyleGAN 架构解读(重读StyleGAN)精【1】

三:DCGAN

DCGAN:全名叫做Deep Convolutional Genrative Adversarial Networks,将GAN与CNN结合在一起,这篇文章于2016年发表,在这之前CNN主要应用在监督学习中,而这篇文章将CNN应用在了无监督学习中,效果也是很好

最原始的GAN所使用的生成器和判别器模型只是简单的全连接层的堆叠,而DCGAN将这些全连接层更换为了卷积结构。DCGAN主要特点

在这里插入图片描述

生成器模型

生成器模型从效果上看与传统的卷积结构是相反的,因为在CNN中特征图的尺寸是越来越小的,是一个下采样的过程,但是这个结构的特征图却变得越来越大,反而是上采样。你可以将其理解为反卷积,虽然这个叫法是错误的,但比较直观,准确来讲应该叫做转置卷积

在这里插入图片描述

判别器模型
判别器没有什么好说的,就是传统的卷积结构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337684.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4.5.8 Set接口与HashSet

文章目录1.概述2.Set集合的特点3.常用方法4.HashSet4.1 概述4.2 练习: Set相关测试一4.3 练习: Set相关测试二1.概述 Set是一个不包含重复数据的CollectionSet集合中的数据是无序的(因为Set集合没有下标)Set集合中的元素不可以重复 – 常用来给数据去重 2.Set集合的特点 数据…

排序算法学习

文章目录前言一、直接插入排序算法二、折半插入排序算法三、2路插入排序算法四、快速排序算法学习前言 算法是道路生涯的一个巨大阻碍。今日前来解决这其中之一:有关的排序算法,进行实现以及性能分析。 一、直接插入排序算法 插入排序算法实现主要思想…

Kubernetes_从Linux的cgroup配置到Kubernetes中的cgroup配置

系列文章目录 文章目录系列文章目录前言一、Linux层面的cgroup二、Kubernetes层面的cgroup driver2.1 kubelet和docker的Cgroup Driver不同导致kubelet开启失败2.1.1 命令2.1.2 演示总结前言 一、Linux层面的cgroup cgroup是控制组,用来控制进程对资源的分配&…

Cesium-数字仿真-你总要了解

Cesium(专注于时空数据的实时可视化) cesium是一款三维地球开源框架(可以多平台、跨平台使用)cesium隶属于美国AGI公司(Analytical Graphics Incorporation),美国通用公司宇航部的工程师创始开源 周边产…

微信小程序的优化方案之主包与分包的研究

什么是分包? 某些情况下,开发者需要将小程序划分成不同的子包,在构建时打包成不同的分包,用户在使用时按需进行加载。 在构建小程序分包项目时,构建会输出一个或多个分包。每个使用分包小程序必定含有一个主包。所谓的…

错误代码0xc0000001要怎么解决?如何修复错误

出现错误代码0xc0000001这个要怎么解决?其实这个的蓝屏问题还是非常的简单的,有多种方法可以实现 解决方法一 1、首先使用电脑系统自带的修复功能,首先长按开机键强制电脑关机。 注:如果有重要的资料请先提前备份好,…

【C++】C++11 ~ 包装器解析

🌈欢迎来到C专栏~~包装器解析 (꒪ꇴ꒪(꒪ꇴ꒪ )🐣,我是Scort目前状态:大三非科班啃C中🌍博客主页:张小姐的猫~江湖背景快上车🚘,握好方向盘跟我有一起打天下嘞!送给自己的一句鸡汤&a…

Java 内存结构解密

程序计数器 物理上被称为寄存器,存取速度很快。 作用 记住下一条jvm指令的执行地址。 特点 线程私有,和线程一块出生。 不存在内存溢出。 虚拟机栈 每个线程运行时所需要的内存,称为虚拟机栈。 每个栈由多个栈帧组成,…

C/C++ 中的宏 (macros) 与宏展开的可视化显示

C/C 中的宏 (macros) 与宏展开的可视化显示1. Replacing text macros (替换文本宏) https://en.cppreference.com/w/cpp/preprocessor/replace https://www.codecademy.com/resources/docs/cpp/macros A macro is a label defined in the source code that is replaced by it…

dll修复工具哪个比较好?修复工具介绍

DLL(动态链接库)是Windows操作系统中非常重要的一部分,它们存储了各种软件应用程序所需的公共代码和数据。然而,随着时间的推移,电脑上的DLL文件可能会因为各种原因而损坏或丢失,导致系统出现错误。因此&am…

PyTorch自定义损失函数实现

在机器学习中,损失函数是衡量预测输出与实际输出之间差异的关键组成部分。 它在模型训练中起着至关重要的作用,因为它通过指示模型应该改进的方向来指导优化过程。 损失函数的选择取决于具体的任务和数据类型。 在本文中,我们将以用于手写数字…

VHDL语言基础-时序逻辑电路-概述

目录 时序逻辑电路-概述: 时序逻辑电路: 时序逻辑电路——有记忆功能: 时序电路的分类: 按照触发器的动作特点: 按照输出信号的特点: 同步时序逻辑电路: 异步时序逻辑电路: 时序逻辑电路-概述: 数字电路按其完成逻辑功能的不同特点,划分为组合逻辑电路和时序…

福利篇1——嵌入式软件行业与公司汇总

前言 汇总嵌入式软件行业与公司,供参考。 文章目录 前言一、嵌入式软件行业和公司汇总1、芯片行业代表性公司2、人工智能代表性公司1)智能驾驶方向代表性公司2)机器人方向代表性公司3、消费电子领域代表性公司4、传统电子电器领域代表性公司5、国企和军工领域代表性公司6、网…

嵌入式系统那些事——aarch64 backtrace嵌入式汇编实现

0 背景 在aarch64嵌入式应用开发中,经常会遇到段错误(segmentation fault),但是通常情况下系统报错后直接退出,没有异常调用打印信息,定位出错原因十分困难。经确认,该问题是由于没有设置捕获段错误,并调用…

推荐3dMax三维设计十大插件

3dMax是一款功能非常强大的三维设计软件,但无论它的功能多么强大,也不可能包含所有三维方面的功能,这时候,第三方插件可以很好的弥补和增强3dMax的基本功能,下面就给大家介绍十款非常不错的3dMax插件。 森林包&#xf…

Unsupervised Question Answering 简单综述

Unsupervised Question Answering by Cloze Translation, ACL 2019 随机从文本中抽取noun phrases或者named entity作为答案将答案部分mask掉,生成cloze question利用无监督翻译,将cloze question转化为natural question 缺点: 直接利用原句…

Android 进阶——Framework核心 之Binder Native成员类详解(二)

文章大纲引言一、Native 家族核心成员关系图二、Native 家族核心成员源码概述1、IInterface1.1、DECLARE_META_INTERFACE 宏1.2、IMPLEMENT_META_INTERFACE(INTERFACE, NAME) 宏1.3、sp< IInterface > BnInterface< INTERFACE >::queryLocalInterface(const String…

微前端qiankun架构 (基于vue2实现)使用教程

工具使用版本 node --> 16vue/cli --> 5 创建文件 创建文件夹qiankun-test。 使用vue脚手架创建主应用main和子应用dev 主应用 安装 qiankun: yarn add qiankun 或者 npm i qiankun -S 使用qiankun&#xff1a; 在 utils 内创建 微应用文件夹 microApp,在该文件夹…

_Linux (线程池)

文章目录线程池概述&#xff1a;线程池示例&#xff1a;代码细节代码结果展示线程池概述&#xff1a; 一种线程使用模式。 线程过多会带来调度开销&#xff0c;进而影响缓存局部性和整体性能。而线程池维护着多个线程&#xff0c;等待着监督管理者分配可并发执行的任务。这避…

Linux下文档类型转PDF的总结

我的环境 centos8 先说思路:先把字体上传到服务器,然后更新字体库 ,代码里面配置字体地址。 如果导出的还是乱码,要么没字体,要么检查代码里面的路径。 目录 1.上传windows字体到linux 2.建立索引信息,更新字体缓存