StyleGAN系列

news2024/11/27 14:47:56

1. Progressive Growing of GANs for Improved Quality, Stability, and Variation (PGGAN)

作者:
Tero Karras
Timo Aila
Samuli Laine
Jaakko Lehtinen
在这里插入图片描述

基于一个理论,高分辨率的图像相对于较小分辨率的图像,是更难train的,因为分辨率越高包含的信息越大,生成器很难生成,所以极容易被判别器判定为假。

本文提出从低分辨率的图像开始训练,逐渐从4x4训练到1024x1024,使得训练更快,更稳定。

在这里插入图片描述
每一个块中的工作

在这里插入图片描述图中(b)相比©多了一个分支,将16x16的结果直接传到了下面(类似于残差结构)以防止原来生成好的16x16的图像被32x32中的卷积破坏,从而训练失败。

图中(b)的α会随着训练的进行改变,一开始α为0,后逐渐增大。即变为了©。

2. A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019)

作者:
Tero Karras
Samuli Laine
Timo Aila
都是NVIDIA的
在这里插入图片描述
4x4----8x8 粗粒度
16x16----32x32 中粒度
64x64----1024x1024细粒度
在这里插入图片描述
图中的输入Z都是从随机高维的高斯分布中取的。
Mapping network将z从高斯分布空间映射到了w空间,并通过一个仿射变换作为style输入到生成器中。
生成器中的Noise通过B块送入网络,其中的Noise在每个通道上加的大小不同,是逐像素的,这就导致有的像素大,有的像素小。
其中AdaIN的公式为:
在这里插入图片描述
什么是style:就是上面公式中的y_s(缩放)和y_b(偏置),所以y就是两倍feature_map数量的大小。
在这里插入图片描述
判断特征解耦的好不好,可以通过计算其采样点之间的路径长度,例如:如下图所示,如果解耦较好,则两个采样点之间的距离可以通过直线连接,
Perceptual path length
在这里插入图片描述
在这里插入图片描述
球面线性插值,其中z1, z2分别是两个latent code 做插值也就是风格,然后求距离,做积分,求出其之间距离.

Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020)

在这里插入图片描述
解决了水滴状的问题,舍弃了渐变网络结构,改为固定的网络训练。

假设输入的是一个正态分布,这里的操作是将加法放到了卷积之后,乘法放到卷积中。下图展示了这一过程:
首先将AdaIN分成了normalization(正则化)和modulation(模式化),在(b)图中在每一个feature map上计算mean和std,并且在每个加偏置后添加了激活函数(leaky ReLU) 。
然后 移除了一开始的一些冗余的操作继续将Adding bias 挪到了block外边,并且将每个feature map进行了除以std的操作
最后就用下面的两个公式,改造成了最后的样子。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
w和w’是原始的和模块化的权重,i是指第i个feature_map,j输出maps,k是空间卷积的角标。
Si为style中的缩放参数
对每个输出的feature_map,如果还要保证正态分布,则需要公式1中对所有的指标加起来算标准差,代表上面图(d)中的Mod和Demod代表公式2和公式1。

路径长度正则化
无论 w或图像空间方向如何,这些渐变应具有接近等长度,即小位移产生相同大小的变化。表示从潜在空间到图像空间的映射是良好的。
路径长度正则化不但提高了图片的生成质量,而且使得生成器更平滑,生成的图片反转回latent code更容易了。

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery(ICCV 2021)

作者:
在这里插入图片描述
三个方法将CLIP和stylegan结合起来:

  1. 一个优化方案:利用基于CLIP的损失来响应用户提供的文本提示来修改输入潜在矢量。
  2. 一个潜在映射器:它针对给定的输入图像推断出文本引导的潜在操作步骤。
  3. 一个方法:在StyleGAN样式空间将文本映射到与输入无关的方向的方法。

在这里插入图片描述
方法一:
给一个latent code命名为w,再给一个text prompt t,构造以下的公式:
在这里插入图片描述
计算使用w生成的图像和文本t之间的D_CLIP,以此来修改latent code
方法二:
Latent Mapper
对于一个特定的prompt训练一个网络,主要是训练得到一个w,并且将输入的w分为了三种粒度,

loss为
在这里插入图片描述
在这里插入图片描述
方法三:
Global Directions
首先使用CLIP的text encoder去包含一个向量Δt在CLIP的嵌入空间
然后映射这个向量到一个可操作的方向Δs在S空间中
prompt engineering:对一个图像用很多的方法来进行描述最后去平均值,用target prompt 和 original prompt做差就得到了Δt.
在这里插入图片描述
对每个通道进行扰动,每个扰动都是该通道标准差的大小。
在这里插入图片描述
通过将扰动后的产生的图像和目标做内积,如果值较大,则说明该通道对目标影响较大。

之后的学习目标

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/92101.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

List<T>, IQueryable, IEnumerable 关系和区别

最近在修项目的历史代码,发现搞混了很多拓展方法,写一篇博客澄清一下。 概念需要:iqueryable不应该和ienumerable比而应该和ilist比,ienumerable是这两者的父接口。 问题:IQueryable, IEnumerable的? &…

Linux vi/vim

vi/vim 的使用 基本上 vi/vim 共分为三种模式,分别是命令模式(Command mode),输入模式(Insert mode)和底线命令模式(Last line mode)。 这三种模式的作用分别是: 命令模…

数据分析可视化-FineReport 图表排序接口

1. 概述 1.1 应用场景 图表数据展示的顺序是由图表绑定的数据顺序决定的,一般建议在 SQL 中排好序再用图表实现。 但总有些场景不支持提前在 SQL 中排好序,或需要图表实现动态排序,此时可参考本文方法使用排序接口实现。 1.2 功能简介 Fi…

文本转语音免费 微软Azure官网

使用跨 140 种语言和变体的 400 种神经网络语音吸引全球受众。使用极具表现力和类似人类的声音,使文本阅读器和已启用语音的助理等方案栩栩如生。神经网络文本转语音支持多种朗读风格,包括新闻广播、客户服务、呼喊、耳语以及高兴、悲伤等情感。 地址 文…

数据结构---二叉堆

二叉堆二叉堆自我调整插入节点(上浮)删除节点(下沉)构建二叉堆(所有非叶子节点依次“下沉”)二叉堆本质上是一种完全二叉树,它分为两个类型。最大堆最小堆 最大堆的任何一个父节点的值,都大于或等于它左、右孩子\节点的值 最小堆…

【实测】windows安装部署go实录(超详细)

之前我的课程中,关于go语言的安装是主要展示了mac的,windows的就一笔带过了。 结果被我说着了(可能在第一步直接被劝退),好多用windows的小伙伴部署go语言环境各种问题各种坑,网上教程看了个一知半解。没办…

网络工程毕业设计 SSM药品管理系统(源码+论文)

文章目录1 项目简介2 实现效果2.1 界面展示3 设计方案3.1 概述3.2 系统流程3.2.1 添加信息流程3.2.2 操作流程3.2.3删除信息流程3.3 系统结构设计4 项目获取1 项目简介 Hi,各位同学好呀,这里是M学姐! 今天向大家分享一个今年(2022)最新完成…

域0day-(CVE-2022-33679)容易利用吗

前言 最近twitter上关于CVE应该CVE-2022-33679比较火了,但是资料也是比较少,下面来唠唠吧。 kerberos认证原理 先了解几个概念 认证服务(Authentication server):简称AS,认证客户端身份提供认证服务。 域控服务器(Domain Control&#x…

ubuntu 安装 MySql 【亲测有效】

目录 一:ubuntu安装mysql 二:mysql 中文乱码 解决 三:Mysql数据库 远程连接授权 四:卸载Mysql并重新安装 五:Mysql 远程连接测试 一:ubuntu安装mysql 首先来到opt(安装)目录下,开启终端&am…

压缩包密码如何解除?

压缩包设置了加密,需要输入压缩包密码才能够顺利解压文件出来。但是有些时候,一些文件只需要一段时间内要加密,之后文件不需要加密了,每次解压文件的时候还是需要输入压缩包密码才行,就很麻烦,那么RAR压缩包…

分布式状态机共识协议 Copilot

目录 前言 定义 slowdown 为什么现有的共识协议无法容忍 slowdown Copilot 如何处理 slowdown 设计 模型 排序 Client 同时发送指令至 pilot 与 copilot Pilot 提议指令与其初始依赖 节点回复 FastAccept Pilot 尝试通过 fast path 来 commit 该指令 Pilot 在 Acc…

C++11标准模板(STL)- 算法(std::min)

定义于头文件 <algorithm> 算法库提供大量用途的函数&#xff08;例如查找、排序、计数、操作&#xff09;&#xff0c;它们在元素范围上操作。注意范围定义为 [first, last) &#xff0c;其中 last 指代要查询或修改的最后元素的后一个元素。 返回各给定值中的较小者 …

基于Java实现(PC)职员工作量管理系统【100010042】

工作量统计系统 一、概述 ​ 在本次专业课实践中我选取到的题目为员工工作量统计系统。该系统分为三个模块&#xff0c;一是实现员工的登录&#xff0c;二是进入到员工的个人界面&#xff0c;并显示&#xff0c;输出员工的个人信息&#xff0c;同时还可以进行输入。第三个模块…

div对角线来回浮动显示

animation-timing-function linear 动画从头到尾的速度是相同的。 ease 默认。动画以低速开始&#xff0c;然后加快&#xff0c;在结束前变慢 ease-in 动画以低速开始 ease-out 动画以低速结束 ease-in-out 动画以低速开始和结束 steps(int,start|end) 指定了时间函数中的间隔…

公司对外投资和担保

一、公司对外投资和担保规范 公司对外投资和外他人提供担保&#xff0c;需承担相应的责任 公司可以对外投资和提供担保 二、公司提供担保的方式 保证 抵押 质押 三、公司提供担保的规定 公司对外承担的规定 公司向其他企业投资或者为他人提供担保&#xff0c;依照公司章程的规…

seata-server-1.4.2的环境搭建

修改seata-server-1.4.2/conf目录下的file.conf和registry.conf file.conf 将store下mode修改为db&#xff0c;找到db模块修改 driverClassName、url、user、password mysql 5.使用 driverClassName "com.mysql.jdbc.Driver" mysql 8 使用 driverClassName "…

Docker入门之docker-compose

一&#xff0c;Docker-compose简介 1&#xff0c;Docker-compose简介 Docker-Compose项目是Docker官方的开源项目&#xff0c;负责实现对Docker容器集群的快速编排。 Docker-Compose将所管理的容器分为三层&#xff0c;分别是工程&#xff08;project&#xff09;&#xff0c…

【MATLAB教程案例62】使用matlab实现基于PointNet++网络的点云数据分类仿真分析

欢迎订阅《FPGA学习入门100例教程》、《MATLAB学习入门100例教程》 目录 1.软件版本 2.PointNet++网络理论概述

通过java代码实现ES中的常用搜索

目录 测试环境准备 在指定索引下搜索全部&#xff08;可以指定字段&#xff09; 通过ids进行搜索 对搜索结果进行分页 match分词搜索 不分词模糊搜索&#xff1a;wildcardQuery与matchPhraseQuery term 搜索&#xff08;精确匹配&#xff09; multi_match搜索 bool搜索…

23年如何准备考PMP?这4点建议你得看

23年的PMP考试还有3个多月&#xff0c;现在开始备考&#xff0c;再合适不过&#xff0c;我这里提出四点备考建议&#xff0c;希望能帮到备考的大家&#xff1a; 【《PMBOK指南》】 PMP的教材仍是第六版&#xff0c;如果有第七版就看第七版&#xff0c;纸质或者电子版都可以&am…