【论文阅读】StyleganV1 算法理解

news2025/1/24 9:47:30

文章目录

  • 为什么提出?
  • 具体是怎么做的?
    • 1.解耦的思想(对应文章第四章4.Disentanglement studies)
      • 1.1 感知路径长度(对应4.1Perceptual path length)
      • 1.2 线性可分离性(对应4.2Linear separability)
    • 2.具体网络的实现(对应2.Style-based generator)
    • 3.基于样式生成器的属性(对应3.Properties of the style-based generator)
      • 3.1 样式混合(Style mixing)
      • 3.2 随机变化(Stochastic variation)
      • 3.3从随机性中分离出全局效应(Separation of global effects from stochasticity)
  • 总结

听过Stylegan的人都觉得他很强!目前stylegan已经发展到第三代v3了,但是为了搞清思想,我还是从v1开始了解,以下是我个人的一些理解。

为什么提出?

传统GAN采用端对端的输入输出,可以尽可能使用训练集数据的信息,但是会出现两个问题。

  1. 仅保持一种输入,纵使网络有再强的能力,也可能会出现生成信号的周期性,
  2. 输入和输出特征严重耦合,头发,胡茬,雀斑,皮肤毛孔等都是随机生成,没有办法控制,因为隐藏变量隐藏的很深
  3. 端对端会让网络更加难学,因为真实的仿射变换是很复杂的,而且维度很高,找到这种变换关系更难,同时也会耗费网络容量。

相较于传统方式,其实本篇论文是提供一个全新的思路,就是想将输入潜在空间和训练数据解耦。

什么意思呢?就是引入中间变量,让输入更加量化的控制输出,同时也便于控制整体生成情况。

具体是怎么做的?

1.解耦的思想(对应文章第四章4.Disentanglement studies)

在这里插入图片描述
如图所示,传统的GAN寻求的是(a)到(b)的学习,输入简单单一的输入样本,让网络学习到复杂的映射变换,这其实很要求网络的能力,且每个变量都是难以捉摸的,不能使用线性插值来变换生成特征。
而( c)是经过中间潜在空间的映射,可以看到让z学习到中间潜在空间w,再让w映射到特征feature,基本上就是比较线性的关系,这个时候对于一些特征,是解耦的,可编辑的状态。

1.1 感知路径长度(对应4.1Perceptual path length)

为了达到上图解耦的目的,在训练过程中需要对潜在空间向量做一定的约束(Loss),例如对潜在空间向量的插值我们需要让它产生一定的线性变化而不是非线性变化。线性变化对应上图中的图c,是一个解耦状态。所以需要测量在潜在空间中执行插值时图像经历的剧烈变化,让它尽可能平滑的过度。

文中采用的是基于感知的两两图像距离(perceptually-based pairwise image distance),基于VGG16,其中权重是拟合的,因此度量符合人类感知相似性判断。将潜在空间插值路径细分为线性段,则总感知长度就是每段上的总和。

1.2 线性可分离性(对应4.2Linear separability)

如果一个潜在空间被充分地解开,应该有可能找到一致地对应于个别变异因素的方向向量。文中提出了另一个度量,通过测量潜在空间点如何通过线性超平面划分为两个不同的集合来量化这种效应,以便每个集合对应于图像的特定二进制属性。

简而言之就是额外训练一个分类器,区分对立属性,例如男性和女性,然后输入图片有z ~ P(z)的图像,并使用辅助分类网络对它们进行分类。对于每个属性,拟合一个线性支持向量机来预测基于潜在空间点的标签。对比两者条件熵H(Y |X),就知道需要多少额外的信息来确定样本的真实类别。

2.具体网络的实现(对应2.Style-based generator)

在这里插入图片描述
该算法受到风格转移文献的启发,重新设计生成器架构,以一种新的方式来控制图像合成过程。

生成器从一个习得的常量输入开始,根据潜码在每个卷积层调整图像的“风格”,从而直接控制不同尺度下图像特征的强度。结合直接注入到网络中的噪声,可以分离生成图像的高级属性(例如,姿势,身份)
1.Mapping network 负责将潜在代码(latent code) z 生成 中间变量 w 。由w来控制生成图像的style。
2.Synthesis network 负责生成图像,引入噪声是为了生成随机细节。

首先设置每个通道数的维度是512,映射f是使用8层MLP实现的,学习后的仿射变换将w转为样式y = (ys, yb),在合成网络g的每个卷积层之后控制自适应实例归一化(AdaIN)[27,17,21,16]。AdaIN操作定义为
在这里插入图片描述
每个特征图xi分别归一化,然后使用样式y的相应标量分量进行缩放和偏置。因此y的维数是该层上特征映射数量的两倍。

最后,通过引入显式噪声输入,提供了直接生成随机细节的方法为合成网络的每一层提供一个专用的噪声图像。使用学习到的特征缩放因子将噪声图像广播到所有特征映射中,然后添加到相应卷积的输出中。

3.基于样式生成器的属性(对应3.Properties of the style-based generator)

映射网络(mapping network)和仿射变换(affine transformations)看作是一种从学习分布中为每种风格绘制样本的方法,

综合网络(synthesis network)则是一种基于风格集合生成新图像的方法。

每种样式的效果在网络中都是局部化的,也就是说,修改样式的特定子集可以预期只影响图像的某些方面。为什么是这样子的?

可以从归一化AdaIN 理解起来,将每个通道归一化为零均值和单位方差,然后才根据风格应用尺度和偏差。因此,W只是修改了通道的相对重要性,他们不依赖于原始的信息。

3.1 样式混合(Style mixing)

在文中提到这个其实就是混合正则化(mixing regularization),在训练期间使用两个随机的潜在代码生成图像,具体来说就是:通过映射网络运行两个潜码z1, z2,并由对应的w1, w2控制样式,使w1在交叉点前应用,w2在交叉点后应用。如图所示。作者还发现不同尺寸混合会产生不一样的效果,在4-8的尺度上混合,修改的是姿态,头发风格,脸部形状,在16-32尺度上混合,修改的是更小尺度的脸部特征,头发风格眼睛等,在64-1024尺度上混合修改的是颜色和微小特征。
在这里插入图片描述

3.2 随机变化(Stochastic variation)

人体肖像中有许多方面可以被认为是随机的,比如头发、胡茬、雀斑或皮肤毛孔的确切位置。这些都可以随机化而不影响我们对图像的感知,只要它们遵循正确的分布。

传统的生成器是如何实现随机变化的?网络的唯一输入是通过输入层,网络需要发明一种方法从早期的激活中来生成空间变化的伪随机数.这会消耗网络容量,并且隐藏生成信号的周期性是困难的——而且并不总是成功的,正如生成图像中常见的重复模式所证明的那样。文中架构通过在每次卷积后添加逐像素噪声,避免了这些问题。

图4显示了使用不同噪声实现的生成器生成的相同底层图像的随机实现。我们可以看到,噪声只影响随机方面,使整体组成和高级方面,如身份完好无损。
在这里插入图片描述

3.3从随机性中分离出全局效应(Separation of global effects from stochasticity)

虽然风格的变化具有全局影响(改变姿势,身份等),但噪声只影响无关紧要的随机变化(不同梳的头发,胡须等)。这一观察结果与风格迁移文献一致。

在基于样式的生成器中,样式会影响整个图像,因为完整的特征映射被缩放并带有相同的值。因此,全局效果,如姿势,照明,或背景风格可以控制连贯。同时,噪声被独立地添加到每个像素,因此非常适合于控制随机变化。如果网络试图使用噪声来控制姿势,这将导致空间不一致的决定,然后将被鉴别器惩罚。因此,在没有明确指导的情况下,网络学会了适当地全局和局部通道。这部分相当于是证明为啥噪声仅控制局部随机变化的原因

总结

styleGANV1其实主要点就是建立Z-W-Feature的生成器模型,让网络可以充分释放生成器的能力,并解耦的控制特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/718083.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Chrome DevTools、Vue DevTools、vs和DevTools调试

目录 Elements DOM节点(增删改)调试 Styles DOM结构 增删属性 模拟元素的伪状态,方便调试 Computed Layout Event Listeners Network Application 资源列表(可改)本地存储Cookie、WebStorage(loca…

人工智能学习07--pytorch22--目标检测:YOLO V3 SPP

视频链接: https://www.bilibili.com/video/BV1t54y1C7ra/?vd_sourceb425cf6a88c74ab02b3939ca66be1c0d yolov3 spp spp:空间金字塔池化 trick:实现的小技巧,方法。( up:Bag of Freebies里有很多trick&…

【C++学习笔记】C++中的异常概念异常的使用注意事项异常的优缺点

异常 1 C语言传统的处理异常的方式2 C异常的概念3 异常的使用以及注意事项3.1 异常的简单使用3.2 使用异常的注意事项3.3 异常的重新抛出3.4 异常规范3.5 异常安全 4 C标准库的异常体系5 异常的优缺点6 总结 1 C语言传统的处理异常的方式 C语言传统的错误处理机制:…

https安全传输原理:

内容来自思学堂: 信息裸奔——>对称加密——>非对称加密——>非对称和对称加密——>权威第三方机构CA数字签名

C++图形开发(5):逐渐变大(小)的小球

文章目录 1.逐渐变大的小球2.逐渐变小的小球 今天所讲的逐渐变大(小)的小球实际上就是基于上次的缓慢下落的小球的基础上的(下落的小球详见:C图形开发(4):下落的小球) 1.逐渐变大的…

蓝桥杯专题-试题版含答案-【数数小木块】【精挑细选】【国王的魔镜】【字符串逆序输出】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 👉关于作者 专注于Android/Unity和各种游…

每日浅读SLAM论文——简析Cartographer

文章目录 二维激光SLAM简单框架前端scan matchingSubmaps构建 后端分支定界优化csm(CorrelativeScanMatch) 代码实现框架 Cartographer(论文名:Real-Time Loop Closure in 2D LIDAR SLAM)是目前二维激光SLAM中应用最广…

postman不能进行并发测试

1.按照网上文档的配置 2.在登录接口里睡眠5s,如果是并发的话,所有的请求都会一起睡眠5s 3.测试结果:请求是每隔5s串行执行的

Linux定时任务-定时执行Shell脚本

主要是使用Linux的crontab工具来实现的,有两个方法,一个放在contab 列表里面,另一个是放在contab文件里面(其实原理是一致的)。 crontab 列表 cd /tmp # 创建一个shell脚本 vim hello.sh #!/bin/bash echo "hel…

钳形表校准装置单匝法校准钳形电流表

交流大电流源输出标准电流信号到直径为1 m的单匝半圆铜环,电流输出铜环分为大小铜环,适配于校准不同钳口大小的钳形电流表。 方案优势:完全符合《JJF 1075-2015 钳形电流表校准规范》中主要推荐的单匝法校准钳形电流表的要求,操控…

全景感知—让视图上云更便捷,存储更安全

6月15日,由腾讯云主办的“数实共进产业行浙江站”在杭州圆满开展,活动中腾讯云存储高级产品经理张泽南进行了“全景感知,让视图上云更便捷,存储更安全”主题演讲,与行业伙伴深度交流新一代视图计算解决方案&#xff0c…

Redis中的介绍和安装教程(配置文件)

1.Redis简单的介绍 redis是一种键值对的NoSql数据库,这里有两个关键字: 键值对 Nosql 其中键值型,是指Redis中存储的数据都是以key.value对的形式多种多样,可以实字符串、数值、甚至json,可以参考HashMap 然后NoSq…

TiDB(5):TiDB-读取历史数据

接下来介绍 TiDB 如何读取历史版本数据,包括具体的操作流程以及历史数据的保存策略。 1 功能说明 TiDB 实现了通过标准 SQL 接口读取历史数据功能,无需特殊的 client 或者 driver。当数据被更新、删除后,依然可以通过 SQL 接口将更新/删除前…

MySQL容器无法输入或显示中文异常解决

如果使用docker创建了MySQL容器,但是进入容器后发现无法输入中文,也就是在插入数据的时候中文直接显示为空,数据表里的中文也显示为空,解决方法是: 1,临时方法 该方法只在每一次进入容器的命令上添加参数&a…

Web服务器群集:使用Haproxy搭建Web集群

目录 一、理论 1.Haproxy集群 2.常见的web集群调度器 3.三种web集群调度器的区别 4.下载安装 二、部署Haproxy集群 1.部署 2.重新定义Haproxy集群的日志 三、实验 1.部署Haproxy集群 四、问题 1.nginx编译安装与yum安装的网页配置路径 五、总结 一、理论 1.Hapro…

【2022吴恩达机器学习课程视频翻译笔记】3.1线性回归模型-part-1

3.1线性回归模型-part-1 In this video, we’ll look at what the overall process of supervised learning is like. Specifically, you see the first model of this course, Linear Regression Model. That just means fitting a straight line to your data. It’s probab…

Github-提交PR指南

1. Fork你将要提交PR的repo 2. 将你fork下来的repo克隆到你的本地 git clone your_repo.git Cloning into ultralytics... remote: Enumerating objects: 8834, done. remote: Counting objects: 100% (177/177), done. remote: Compressing objects: 100% (112/112), done. …

交易所行情基础相关知识

目录 一、行情基本概念 二、简单交易模型 三、行情系统结构 四、各种行情协议 1.FIX 2.STEP 3.FAST 4.Binary 一、行情基本概念 行情是描述市场繁荣状态的数据,比较笼统,例如买卖交易量。准确一些的描述是,揭示交易所标的交易与买卖…

http升级https图文,免费证书ssl下载安装

1.先登录阿里云(搜索ssl证书) 2.点击免费SSL证书概述 3.搜索安装PFX格式证书(搜索ssl证书) 4.下载SSL证书 5. 在tomcat服务器安装证书 6. 验证SSL证书是否安装成功 7.阿里云连接 ***注意 **** 1.先登录阿里云官网 2.再访问该网址…

Python Websocket 控制大屏显示

场景描述: 在做大屏展示时,有这样一个需求:在不刷新页面的情况下,动态改变大屏展示内容,如:执行某个函数,把相关数据醒目展示,轮换数据显示顺序等等。比如有领导参观时,马…