论文学习 StarGANv2 ——StarGAN v2: Diverse Image Synthesis for Multiple Domains

news2024/9/22 13:34:18

多领域不同图像合成

We have made dataset available at https://github.com/clovaai/stargan-v2.

摘要:

一个好的图像到图像转换模型应该学习不同视觉域之间的映射,同时满足以下属性:

1)生成图像的多样性

2)在多个域上的可扩展性。

现有的方法解决了这两个问题,具有有限的多样性 或者对于所有域有多个模型。

我们提出了StarGAN v2,这是一个解决这两个问题的单个框架,并且在基线上显示出显着改善的结果。在CelebAHQ和一个新的动物面部数据集(AFHQ)上的实验验证了我们在视觉质量、多样性和可扩展性方面的优势。为了更好地评估图像到图像的翻译模型,我们发布了AFHQ,具有较大域间和域内差异的高质量动物面孔。代码、预训练模型和数据集可在clovaai/stargan-v2上获得。

1. Introduction

图像到图像的转换旨在学习不同视觉域之间的映射[20]。在这里,域意味着一组图像,这些图像可以被分组为一个视觉上独特的类别,每个图像都有一个独特的外观,我们称之为风格。例如,我们可以根据一个人的性别设置图像域,在这种情况下,风格包括化妆、胡须和发型(图1的上半部分)。理想的图像到图像翻译方法应该能够综合考虑每个域中不同风格的图像。然而,设计和学习这样的模型变得复杂,因为数据集中可能有任意大量的风格和域。

  为了解决风格多样性问题,人们开展了大量图像到图像翻译的研究[1,16,34,28,38,54]。这些方法向生成器注入一个低维的潜在代码,该代码可以从标准高斯分布中随机采样。它们的域特定解码器在生成图像时将潜在代码解释为各种风格的配方(domain-specific decoders)。然而,由于这些方法只考虑了两个域之间的映射,因此它们不能扩展到越来越多的域。例如,如果有K个域,这些方法需要训练K(K-1)个生成器来处理每个域和每个域之间的转换,这限制了它们的实际使用。为了解决可扩展性问题,一些研究提出了一个统一的框架[2,7,17,30]。StarGAN[7]是最早的模型之一,它使用单个生成器学习所有可用域之间的映射。该生成器将域标签作为附加输入,并学习将图像转换为相应的域。然而,StarGAN仍然学习每个域的确定性映射,这并没有捕捉到数据分布的多模态性质。这种限制来自于这样一个事实,即每个域都由预先确定的标签表示。请注意,生成器接收一个固定的标签(例如一个热向量)作为输入,因此它不可避免地在给定源图像的每个域产生相同的输出,为了两全其美,我们提出了StarGAN v2,这是一种可扩展的方法,可以在多个领域生成不同的图像。特别是,我们从StarGAN开始,用我们提出的可以表示特定领域的各种风格的特定领域样式代码domain specific style code替换其领域标签domain label

  为此,我们介绍了映射网络和样式编码器两个模块(a mapping network and a style encoder)。映射网络学习将随机高斯噪声转换为样式编码,而编码器学习从给定的参考图像中提取样式编码。考虑到多个领域,两个模块都有多个输出分支,每个分支都为特定领域提供样式代码。最后,利用这些样式代码,我们的生成器学会了在多个域中成功地合成不同的图像(图1)。

       我们首先研究了 StarGAN v2 的各个组件的影响,并表明我们的模型确实受益于使用样式代码(第 3.1 节)。我们凭经验证明,与领先的方法相比,我们提出的方法可以扩展到多个领域,并在视觉质量和多样性方面提供了明显更好的结果(第 3.2 节)。最后但并非最不重要的一点是,我们提出了一个新的动物人脸数据集(AFHQ),具有高质量和广泛变化(附录 A),以更好地评估图像到图像转换模型在大的域间和域内差异上的性能。我们公开发布此数据集供研究界公开  

2. StarGAN v2

在本节中,我们将描述我们提出的框架及其训练目标函数。

2.1. Proposed framework

设X和Y分别为图像和可能域的集合。给定一个图像 x ∈ X 和一个任意域 y ∈ Y,我们的目标是训练一个生成器 G,它可以生成对应于图像 x 的每个域 y 的不同图像。我们在每个域的学习风格空间中生成特定领域的风格向量domain-specific style vectors,并训练 G 以反映风格向量。图 2 说明了我们框架的概述,它由下面描述的四个模块组成。

生成器(图 2a)。我们的生成器 G 将输入图像 x 转换为输出图像 G(x, s),反映特定领域的样式代码 s,由映射网络 F 或样式编码器 E 提供。我们使用自适应实例归一化 (AdaIN) [15, 22] 将 s 注入 G。我们观察到 s 旨在表示特定领域 y 的风格,这消除了为 G 提供 y 的必要性,并允许 G 合成所有域的图像。

映射网络(图 2b)。给定一个潜在代码 z 和一个域 y,我们的映射网络 F 生成一个样式代码 = Fy (z),其中 Fy (·) 表示对应于域 y 的 F 的输出。F 由具有多个输出分支的 MLP 组成,为所有可用域提供样式代码。F 可以通过随机采样潜在向量 z ∈ Z 和域 y ∈ Y 来产生不同的样式代码。我们的多任务架构允许 F 有效且有效地学习所有域的样式表示。

样式编码器(图 2c)。给定一个图像 x 及其对应的域 y,我们的编码器 E 提取 x 的样式代码 = Ey (x)。这里,Ey (·) 表示对应于域 y 的 E 的输出。与 F 类似,我们的风格编码器受益于多任务学习设置。E 可以使用不同的参考图像产生不同的样式代码。这允许 G 合成反映参考图像 x 样式的输出图像。

判别器(图 2d)。我们的鉴别器 D 是一个多任务鉴别器 [30, 35],它由多个输出分支组成。每个分支 Dy 学习二元分类,确定图像 x 是其域 y 的真实图像还是 G 生成的假图像 G(x, s)。

2.2. Training objectives

给定一个图像 x ∈ X 及其原始域 y ∈ Y,我们使用以下目标训练我们的框架。

Adversarial objective.对抗性目标。在训练期间,我们随机抽取潜在代码 z ∈ Z 和目标域 ̃y ∈ Y,生成目标风格编码s = F ̃y (z). 生成器 G 将图像 x 和 ̃s 作为输入,并通过对抗性损失学习生成输出图像 G(x, ̃s) 

其中 Dy (·) 表示对应于域 y 的 D 的输出。映射网络F学习提供目标y中可能出现的样式代码s,G学习利用s并生成与域y真实图像无法区分的图像G(x,s)

Style reconstruction.风格重建。为了强制生成器G在生成图像G(x,s)时利用样式代s,我们采用了样式重建损失

这个目标类似于以前的方法 [16, 54],它使用多个编码器来学习从图像到其潜在代码的映射。显着差异是我们训练一个编码器 E 来鼓励多个领域的不同输出。在测试时,我们学习的编码器 E使 G 转换输入图像,反映图像图像的风格。

Style diversification.为了进一步使生成器G产生不同的图像,我们用多样性敏感损失[34,48]显式地正则化G

其中目标样式代码 ̃s1 和 ̃s2 由 F 产生,条件是两个随机潜在代码 z1 和 z2  ̃si = F ̃y (zi) 对于 i ∈ {1, 2})。最大化正则化项迫使 G 探索图像空间并发现有意义的样式特征来生成不同的图像。请注意,在原始形式中,分母中‖z1−z2‖1的微小差异显著增加了损失,这使得训练由于梯度较大而不稳定。因此,我们删除了分母部分,并设计了一个新的方程来稳定训练,但具有相同的直觉。

Preserving source characteristics.保留源特性。为了保证生成的图像G(x,̃s)正确地保留了其输入图像x的域不变特征(例如姿势),我们采用了循环一致性损失[7,24,53]

 其中 ^s = Ey (x) 是输入图像 x 的估计样式代码,y 是 x 的原始域。通过鼓励生成器 G 使用估计的样式代码 ^s 重建输入图像 x,G 学会在忠实地改变其样式的同时保留 x 的原始特征。

完整的目标。我们的完整目标函数可以总结如下:

其中 λsty 、 λds 和 λcyc 是每个词的超参数。我们还以与上述目标相同的方式进一步训练我们的模型,在生成样式代码时使用参考图像而不是潜在向量。我们在附录 B 中提供了训练细节。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1915938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式应用开发之代码整洁之道

前言:本系列教程旨在如何将自己的代码写的整洁,同时也希望小伙伴们懂如何把代码写脏,以备不时之需,同时本系列参考 正点原子 , C代码整洁之道,编写可读的代码艺术。 #好的代码的特点 好的代码应该都有着几…

微软代码签名证书的申请流程包含哪几个关键步骤?

在软件开发环境中,确保软件的安全性和可信度至关重要。沃通CA提供的代码签名证书作为一种重要的安全措施,可以帮助开发者验证其软件的来源和完整性,有效地避免用户因安全顾虑而避免安装或使用软件。本文将详细介绍如何申请沃通CA代码签名证书…

《算法笔记》总结No.6——贪心

一.简单贪心 贪心法是求解一类最优化问题的方法,它总是考虑在当前状态下局部最优(或较优)之后,来使全局的结果达到最优(或较优)的策略。显然,如果采取较优而非最优的策略(最优策略可能不存在或是不易想到),得到的全局结果也无法是…

springboot驾校管理系统-计算机毕业设计源码49777

驾校管理系统 摘 要 驾校管理系统是一个基于Spring Boot框架开发的系统,旨在帮助驾校提高管理效率和服务水平。该系统主要实现了用户管理、年月类型管理、区域信息管理、驾校信息管理、车辆信息管理、报名信息管理、缴费信息管理、财务信息管理、教练分配管理、更换…

雨量监测站的重要性有哪些

在全球气候变化和极端天气事件频发的背景下,雨量监测站成为了我们理解降水模式、预测天气变化以及制定应对措施的重要工具。 雨量监测站是一种专门用于测量和记录降水量的设施。它们通过配备高精度的雨量传感器,能够实时监测降雨情况,并提供关…

政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MuseV (踩完了所有的坑):基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成

目录 下载项目 创建虚拟环境 启动虚拟环境&执行项目依赖 基于DOCKER的尝试 A. 安装引擎 B. 下载桌面安装包 C. 安装桌面包 用Docker运行MuseV 1. 拉取镜像 ​编辑 2. 运行Docker镜像 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收…

HDFS 块重构和RedundancyMonitor详解

文章目录 1. 前言2 故障块的重构(Reconstruct)2.1 故障块的状态定义和各个状态的统计信息2.2 故障文件块的查找收集2.5.2.1 misReplica的检测2.5.2.2 延迟队列(postponedMisreplicatedBlocks)的构造和实现postponedMisreplicatedBlocks中Block的添加postponedMisreplicatedBloc…

在Visutal Studio 2022中完成D3D12初始化

在Visutal Studio 2022中完成DirectX设备初始化 1 DirectX121.1 DirectX 简介1.2 DirectX SDK安装2 D3D12初始化2.1 创建Windwos桌面项目2.2 修改符合模式2.3 下载d3dx12.h文件2.4 创建一个异常类D3DException,定义抛出异常实例的宏ThrowIfFailed3 D3D12的初始化步骤3.1 初始化…

智慧园区管理系统建设方案(Word完整原件)

1. 项目概述 1.1. 项目名称 1.2. 项目承担单位及负责人 1.3. 项目实施机构及项目负责人 1.4. 建设目标、内容 1.5.1建设目标 1.5.2建设内容 1.5. 建设方式 2.项目建设的必要性 2.1. 建设背景 2.2. 现状分析 2.3. 项目建设的必要性和意义 2.3.1.项目建设的必要性 2…

突发,众多网站流量被盗刷!事情没那么简单。。

这两天发生了一件震惊 IT 圈的大事,很多程序员博主的网站竟然 同时 被恶意攻击,盗刷了大把流量费,我这个老倒霉蛋自然也中招了,作为受害人,专门做了本次分享,希望其他有网站的朋友们也都小心点。 那为什么…

准大一新生开学千万要带证件照用途大揭秘

1、提前关注好都有哪些考场,以及这些考场大致在网页的哪个位置。比如我选对外经贸大学,我就直接找到第二个点进去。 2、电脑上同时开了谷歌浏览器和IE浏览器,以及手机也登陆了。亲测下来,同一时间刷新,谷歌浏览器能显示…

勇攀新高峰|暴雨信息召开2024年中述职工作会议

7月8日至9日,暴雨信息召开2024年中述职工作会议,总结回顾了上半年的成绩和不足,本次会议采用线上线下的方式举行,公司各部门管理人员、前台市场营销人员参加述职,公司领导班子出席会议。 本次述职采取了现场汇报点评的…

搜维尔科技:【研究】Scalefit是一款可在工作场所自动处理3D姿势分析结果的软件

Scalefit是一款可在工作场所自动处理 3D 姿势分析结果的软件。这甚至可以在衡量员工的同时发生。然后,Scalefit 根据国际标准对姿势、压缩力和关节力矩进行分析和可视化。 3D姿势分析 如今,Xsens 技术可让您快速测量工作场所员工的态度。一套带有 17 个…

反向散射技术(backscatter communication)

智能反射表面辅助的反向散射通信系统研究综述(知网) 1 反向散射通信技术优势和应用场景 反向散射通信技术通过被动射频技术发送信号,不需要一定配有主动射频单元,被认为是构建绿色节能、低成本、可灵活部署的未来物联网规模化应用关键技术之一,是实现“…

Milvus核心组件(1)- Architecture

目录 cluster 模式 数据请求处理流程 总流程 逻辑channel 到物理channel 数据维护流程 cluster 模式 上一篇其实已经说过 standalone 模式,其实集群模式大同小异,只是在不同机子间使用Kafka或者其他消息中间件保证数据及逻辑的一致性。 Log Broker…

VUE超详细入门

目录 1.什么是 Vue.js 2.Vue.js 优点 Vue中的第一个hello world Vue指令 v-model v-bind v-on v-if v-show v-for Vue 实例生命周期 从传统架构转向单文件架构(通过组件拼接) 安装element-ui使用 1.什么是 Vue.js Vue (读音 /vju ː /,类似于 view) 是…

基本的路由策略配置

目录 原理概述 实验目的 实验内容 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建OSPF和RIP网络 3、使用Route-Policy对引入到OSPF 进程的路由进行过滤和修改 主要命令 原理概述 路由策略Route-Policy 的应用非常广泛。例如,它可以规定路由器在发布路由时只…

Databricks 收购 Tabular 的意义:数据开放框架的胜利

Databricks 宣布收购 Tabular,这是一个由 Apache Iceberg 的原始创建者开发的数据平台,在数据分析行业引发了涟漪。此次收购凸显了开放框架在数据领域日益增长的重要性,预示着数据管理、分析和 AI/ML 计划领域的创新、协作和可访问性的新时代…

RedisTemplate 中序列化方式辨析

在Spring Data Redis中,RedisTemplate 是操作Redis的核心类,它提供了丰富的API来与Redis进行交互。由于Redis是一个键值存储系统,它存储的是字节序列,因此在使用RedisTemplate时,需要指定键(Key&#xff09…

伺服【禾川X6】

驱动器: A:脉冲 B:EtherCAT // SV-X6 FB 040 AA 一套360 N:CANopen R:PROFINET 电机: SV-X6 MA 040A-B2 KA 框号: 40 8mm 50…