StyleGAN 使用指南:生成更逼真的图片

news2024/11/24 12:10:53

StyleGAN 使用指南:生成更逼真的图片

    • 提出背景:特征纠缠
    • StyleGAN-v1 网络结构
      • 映射网络 Mapping network f
      • 生成网络 Synthesis network g
      • 训练技巧
        • 样式混合 mixing regularization
        • 截断 Truncation Trick
      • 评估指标
        • 路径长度 Perceptual path length
        • 解耦:让映射空间实现线性可分性
    • StyleGAN-v2
    • StyleGAN-v3
    • StyleGAN-XL
    • StyleGAN-T
    • 项目代码

 


提出背景:特征纠缠

传统的生成网络中,有一个问题存在,就是特征纠缠。

比如你想要给人脸模型增加一头卷发,但当你调整与发型相关的参数时,你可能会发现模型生成的人脸同时也改变了肤色、眼睛间距或者表情。这是因为卷发的特征与其他特征在潜在空间中是纠缠的。

StyleGAN-v1 网络结构

在这里插入图片描述
分为俩部分:映射网络 Mapping network f、生成网络 Synthesis network g

映射网络 Mapping network f

  • 映射网络 Mapping network f:把 原始数据 z 转成 向量w,解决特征纠缠。

    如上图,输入z(512维),经过 8 个全连接层,得到w(512维)。

    原始数据(z向量)就像是一个复杂的信号,它包含了所有可能的图像生成因素混合在一起,这些因素包括形状、纹理、颜色和其他视觉细节。

    这个向量空间通常高度纠缠,使得直接操作单个因素变得困难,因为改变一个维度可能会影响到多个属性。

    映射网络的任务就是像解码器一样工作,它将这个复杂的、高度纠缠的信号转换成一个新的、更加有序的中间潜在空间,即风格空间,其中的每个维度尽可能地表示独立的图像特征。

    在风格空间中,向量被重新编排和优化,以便单个维度更有可能对应于图像中的单一生成因素。这允许模型生成器在生成图像时对特定的视觉属性进行精细的控制和调整,而不是一次性调整所有特征。

    如上图,向量 w 经过仿射变换 A,得到风格向量 S(style)

生成网络 Synthesis network g

  • 生成网络 Synthesis network g : 用于生成图像

    把风格向量S输入AdaIN层。

    在此前的风格迁移方法中,每个网络只能对应一个特定的风格,而且速度较慢。但是基于AdaIN,我们可以通过“自我调节”生成器的方式快速实现任意图像风格的转换。

    特征图的均值和方差包含了图像的风格信息。在AdaIN层中,通过将特征图减去自身的均值再除以方差,实现去除原有风格的效果。然后乘以新风格的方差再加上均值,实现风格转换的目的。

    A d a I N ( x i , y ) = σ ( y ) ∗ ( x i − μ ( x i ) σ ( x i ) + μ ( y ) AdaIN(x_{i}, y) = σ(y) * \frac{(x_{i} - μ(x_{i})}{ σ(x_{i}) } + μ(y) AdaIN(xi,y)=σ(y)σ(xi)(xiμ(xi)+μ(y),y 是风格, x i x_{i} xi 是第 i 层

    仿射变换过程: 1 ∗ 512 1*512 1512维向量W -> 学习仿射变换A -> 风格向量Style 2 ∗ n 2*n 2n维向量, y s , i ,   y b , i y_{s,i},~y_{b,i} ys,i, yb,i

    A d a I N ( x i , y ) = y s , i ∗ ( x i − μ ( x i ) σ ( x i ) + y b , i AdaIN(x_{i}, y) = y_{s,i} * \frac{(x_{i} - μ(x_{i})}{ σ(x_{i}) } + y_{b,i} AdaIN(xi,y)=ys,iσ(xi)(xiμ(xi)+yb,i

    因为AdaIN层是归一化操作(缩放 + 偏移),通道是独立的(每个通道的特征图,其归一化系数是独立计算的,不受其他通道的影响),所以每个AdaIN层都需要俩个系数,分别对应缩放、偏移。

    在AdaIN模块之前向每个通道添加一个缩放过的噪声(Noise),增加生成图像的多样性, B 表示可学习的权重系数
    在这里插入图片描述

    9 级分辨率:生成器从较低分辨率开始,通过一系列的上采样和卷积操作逐渐增加图像的分辨率。每次上采样操作将图像的分辨率乘以2。例如,从4x4到8x8,再到16x16,依此类推。

在这里插入图片描述
9级分辨率表示经过9次上采样后,影响的特征从宏观到微观。

如人脸:

  • 4 2 − 8 2 4^{2} - 8^{2} 4282 是宏观特征(人脸姿态、形状、发型特征)
  • 1 6 2 − 3 2 2 16^{2}-32^{2} 162322 是精细特征(眼睛睁闭)
  • 6 4 2 − 102 4 2 64^{2}-1024^{2} 64210242 是微观特征(眼睛、头发、皮肤的纹理、颜色特征)

修改不同分辨率的风格向量,就能修改到人脸的属性的特征。

训练技巧

样式混合 mixing regularization

样式混合:随机交换量 w 向量的部分内容,进行拼接,防止相邻特征耦合。

比如小明的脸型,配小红的头发、小明的宏观特征,配小宏的精细特征。

如果一个人的眼睛位于人脸的上部,那么鼻子很可能位于眼睛的下方。这种相关性是由于人脸的结构和几何关系所决定的。

当我们使用特征向量来表示人脸时,这种相关性可能会导致特征之间的耦合。

例如,如果我们使用一个特征向量来表示眼睛的形状和位置,另一个特征向量来表示鼻子的形状和位置,那么这两个特征向量中的部分内容可能会相互影响。

在这种情况下,如果我们想要对眼睛和鼻子进行独立的分析和处理,相邻特征之间的耦合可能会干扰我们的结果。

拼接的特征向量的每个位置的特征来自于不同的人的人脸。这样的混合可以确保在新的特征向量中,每个位置的特征来自于不同的人的人脸,从而避免了相邻特征之间的耦合。

截断 Truncation Trick

截断 Truncation Trick:解决低密度区域的生成质量问题。

低密度区域是,某些属性总体分布比例低,如长发及腰的男性。

  • 找到数据的平均点
  • 计算其他所有点,到平均点的距离
  • 对每个距离按照统一标准进行压缩

这样就能将数据点都聚拢了,但是又不会改变点与点之间的距离关系。

举个例子,有10个男性和10个女性的数据点。

只有1个男性是长发及腰的。

我们计算每个数据点到平均点的距离,并选择一个阈值为2。

根据距离,我们发现长发及腰的男性距离平均点的距离较远,超过了阈值。

们将低密度区域中的数据点(即只有1个长发及腰的男性)聚拢在一起,并移动到与平均点距离最近的位置,同时保持其他数据点之间的距离关系不变。

评估指标

路径长度 Perceptual path length

潜在向量Latent:生成器是否选择的路线,如果是最近,那就是好的潜在向量。

如下图紫线上随机采样一个点,还是狗子的图片,就是选择了最近的路线;而绿线采样是床,就绕远了。

怎么评估这个路径长度呢?

在训练过程中,我们可以选择相邻的时间节点,并计算它们生成的图像之间的路径长度,最后得这些距离的平均值。

较小的路径长度表示生成图像之间更加相似,而较大的路径长度则表示它们之间存在较大的差异。

  • t :某一时间点
  • d :空间距离
  • skerp :采样方法
  • E :平均值
解耦:让映射空间实现线性可分性

假设我们有一个人脸生成模型,可以根据输入的随机向量生成逼真的人脸图像。使用传统的生成模型,如果我们想要生成特定属性的人脸,比如男性或女性,通常需要在随机向量的某些维度上进行微调。但是这种方式不够直观,而且可能需要花费大量时间来搜索合适的向量。

而解耦的思想则可以改善这个问题。通过解耦,我们可以将生成模型的随机向量分为多个独立的部分,每个部分对应于一个特定的属性,比如年龄、性别、发色等。这样,我们可以直接在这些特定属性的部分进行调整,而不会影响其他属性。例如,如果我们想要生成一个年轻女性的人脸,我们只需要在性别和年龄属性的部分进行调整,而不需要关心其他属性。这使得我们能够更直观地控制生成的人脸属性,同时减少了搜索的时间和计算量。

总而言之,解耦的思想通过将生成模型的随机向量分为多个独立的部分,让我们能够更直观地控制生成的属性,提高了生成模型的可操作性和效率。

StyleGAN-v2

StyleGAN-v3

StyleGAN-XL

StyleGAN-T

项目代码

StyleGAN:https://github.com/NVlabs/stylegan

StyleGAN2:https://github.com/NVlabs/stylegan2

StyleGAN3:https://github.com/NVlabs/stylegan3

Stylegan-xl:https://github.com/autonomousvision/stylegan-xl

Stylegan-t:https://github.com/autonomousvision/stylegan-t

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1258684.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2019年3月14日 Go生态洞察:Go开发者网络新动态

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

洗眼镜的机器有哪些?眼镜超声波清洗机哪家强?眼镜清洗机推荐

由于自己经常佩戴眼镜,所以个人对清洗眼镜的要求害死挺高的,一周最少是需要清洗一次的,不然会感觉眼镜上会有非常多的细菌藏匿在污垢中,往往这些细菌没有清洁到位就会导致脸上长痘长螨虫的问题,所以看到这里的朋友们一…

灵茶 - 2023 - 11 - 27

B. Minimum Ternary String 链接 : Problem - 1009B - Codeforces 思路 : 10 , 12 可以互相交换,就代表着1可以出现在任何地方,要追求字典序最小,那么应该将所有的1放在哪里呢 ? 应该放在第一个2前面,要注意的是 : 没有2的…

C++基础 -3- 匿名空间,命名空间跨文件使用

匿名空间仅限本文件使用 创建匿名空间格式(图片代码段呈现) namespace {int a100; }命名空间的跨文件使用 namespace rlxy {int a100; }namespace rlxy {extern int a; }

深度学习之循环神经网络

视频链接:6 循环神经网络_哔哩哔哩_bilibili 给神经网络增加记忆能力 对全连接层而言,输入输出的维数固定,因此无法处理序列信息 对卷积层而言,因为卷积核的参数是共享的,所以卷积操作与序列的长度无关。但是因为卷积…

可以媲美MidJourney,但是开源和免费的超强AI绘画-fooocus

现在的AI技术很火,这一新兴领域的发展给艺术创作带来了全新的可能性,AI绘画的应用也十分的广泛。我自己见到的就有运用在模特穿衣服身上的,化妆品广告图生成的等等,比如MidJourney 和stable diffusion 等 AI绘画程序已经很成熟了&…

011 OpenCV warpAffine

目录 一、环境 二、warpAffine原理 三、完整代码 一、环境 本文使用环境为: Windows10Python 3.9.17opencv-python 4.8.0.74 二、warpAffine原理 warpAffine是OpenCV库中的一个函数,它用于执行二维仿射变换。这个函数接受一个输入图像和变换矩阵&…

【Linux 静态IP配置】

静态IP配置 1.NAT模式设置2.设置静态ip3.重启网络4.查看ip 1.NAT模式设置 首先设置虚拟机中NAT模式的选项,打开VMware,点击“编辑”下的“虚拟网络编辑器”,设置NAT参数 注意: VMware Network Adapter VMnet8保证是启用状态 …

针对近期大面积出现的小程序新用户登录不正常处理办法

原因是微信小程序需要更新协议规则 操作方法如下: 提交之后等待通过

麒麟信安联合牵头 | 国家关键领域信创行业产教融合共同体成立大会暨欧拉人才发展论坛盛大召开

11月24日,国家关键领域信创行业产教融合共同体成立大会暨欧拉人才发展论坛在长沙职业技术学院盛大召开。大会由湖南省教育厅、湖南省工业和信息化厅、长沙市人民政府指导,麒麟信安、长沙理工大学、长沙职业技术学院三家牵头单位主办,湖南欧拉…

01-Java集合之单向队列,如Collection接口,List接口,Set接口,Queue接口及其实现类的底层结构和特点

单列集合 特点 单列集合分为三大类 List类型的集合: 有序可重复 , 这种类型的集合的元素都有下标Set类型的集合: 无序不可重复 , 这种类型的集合的元素都没有下标Queue类型的集合: 先进先出(FIFO) , 只能一端进并且在另一端出的队列 Collection中能存放的元素: 没有使用泛型…

国家万亿资金助力城市生命线城市内涝积水监测系统

自2023年年初以来,我国多个地区遭遇了洪涝、干旱、台风、风雹等灾害的侵袭,部分地区灾情严重,经济损失较大。为应对灾后恢复重建工作的艰巨任务,本次国债将主要投向灾后恢复重建以及提升防灾减灾救灾能力。其中,将全面…

统信UOS安装Virtualbox虚拟机和Windows10系统

在UOS统信系统中部署Windows环境我可以通过安装虚拟机来实现,这也可以解决软件不适配带来的一些问题,当然对硬件配置也有一定的要求,不建议性能过低的设备使用。 接下来请按照以下步骤进行安装Virtualbox及Win10虚拟系统的设置。 1、安装Vi…

docker容器的生命周期管理常用命令

容器的生命周期管理命令 docker create :创建一个新的容器但不启动它 docker create nginx docker run :创建一个新的容器并运行一个命令 常用选项: 常用选项1. --add-host:容器中hosts文件添加 host:ip 映射记录 2. -a, --attach&#…

【论文阅读】ActiveNeRF:通过不确定性估计候选新视图

【论文阅读】ActiveNeRF: Learning where to See with Uncertainty Estimation Abstract1 Introduction3 Background4 NeRF with Uncertainty Estimation5 ActiveNeRF5.1 Prior and Posterior Distribution5.2 Acquisition Function5.3 Optimization and Inference 6 Experimen…

Redis面试题:Redis是单线程的,但是为什么还那么快?I/O多路复用模型

目录 面试官:Redis是单线程的,但是为什么还那么快? 面试官:能解释一下I/O多路复用模型? 面试官:Redis是单线程的,但是为什么还那么快? 候选人: 嗯,这个有几…

Robot Framework自动化测试(四)--- 分层思想

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

【广州华锐互动】节约用水VR互动教育:身临其境体验水资源的珍贵!

随着技术的不断发展,虚拟现实(VR)技术在许多领域得到了广泛应用。在节水宣传教育方面,VR技术也展现出了其独特的优势。与传统宣传教育方式相比,节约用水VR互动教育具有更加沉浸式、互动性和实践性的特点,能…

Java计算二叉树从根节点到叶子结点的最大路径和

要求从根节点到叶子结点的最大路径和,可以通过递归遍历二叉树来实现。对于二叉树中的每个节点,我们都可以考虑包含该节点的最大路径和。在递归的过程中,我们需要不断更新全局最大路径和。 具体的思路如下: 递归函数设计&#xff1…

【Python】python包相对导入问题及解决方案

报错信息 ImportError: attempted relative import with no known parent package 问题描述 在package目录下有a1.py文件和subpackage1目录。在subpackage1目录下有b1.py文件。现在b1.py文件中有这样一行代码:from …a1 import A1。在subpackage1目录下运行pytho…