pix2pixHD

news2024/10/7 16:15:10

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
pix2pixHD提出了一个模型用于从label map中生成真实的photo。
在这里插入图片描述
pix2pixHD都是使用的CGAN的思想,不同的是本文可以产生更加高清的图像,pix2pix生成的是256x256,pix2pixHD可以产生2048x1024大小的图片。这个新的方法包括:一个创新的对抗损伤,多尺度生成器和辨别器。同时结合物体的实例分割,可以对图片的物体进行增删改等,同时给定一个相同的输入,可以产生不同的输出。

本文讨论一种新的方法用于从语义标签中生成高分辨率图片,这种方法应用十分广泛,例如用合成的数据用于训练视觉识别算法,使用语义分割方法可以将图片转换为标签,编辑标签里面的物体,可以将标签再转换为图片。使用pix2pix可以进行图像到图像之间的翻译,但是pix2pix被认为在训练时候不够稳定,并且不能产生高分辨率图片。

这里我们解决两个问题,(1)通过GAN生成高分辨率图片,(2)高分辨率图片缺少细节和真实的纹理。首先通过对抗训练获得我们的结果,然后我们展示添加感知损失可以在一些情况下提升结果。为了支持交互式的语义控制,我们首先使用instance-level的分割信息,他可以将相同的类别的不同物体分离开。接着提出一个方法用于给定形同的标签产生不同的结果。

相关工作:
(1)GAN,之前已经介绍过了。
(2)Image to image translation,对抗学习是广为使用的方法,相比于L1损失更容易产生模糊的边界,对抗损失是一个比较普遍的选择。因为辨别器可以学习一个可训练的损失函数,可以自动用于产生的图片和真实的图片之间。
(3)深度视觉控制,作者专注于物体级别的语义编辑,允许用户可以和整个场景进行交互,并且控制图片中的单独物体。

实例层次的合成:
首先回顾一下pix2pix,接着展示如何让图片更加真实,然后使用额外的实例层次的物体语义分割进一步提升图片的质量,最后引入实例层次的特征编码去更好处理图片合成的多模态特征。
(1)pix2pix baseline
回忆一下,pix2pix没有使用噪声,生成器使用的UNet,在decoder前三层使用的Dropout来增加随即性,且在验证时候不能使用model.eval,否则会关闭dropout和bn。辨别器采用的patchGAN,就是一个全卷积网络。
在这里插入图片描述
(2)提高图片真实性和分辨率
使用一个coarse to fine的生成器和多尺度辨别器以及一个坚固的对抗损失函数。
首先看生成器:看到coarse to fine首先就想到了cascade psp网络。生成器由两个子网络G1,G2组成,我们将G1叫做全局生成网络。G2叫做局部增强网络。G1输入为512x1024,G2输出的图片为1024x2048.
对于G1输入是512x1024,输出是512x1024。G2的输入是1024x2048,G2F和G1B的特征图逐像素相加输入到G2R。
在这里插入图片描述在这里插入图片描述
在训练时候,首先训练全局生成器,再训练局部增强器,最后共同finetune两个网络。我们使用这种生成器可以有效的聚合全局和局部信息,这样多分辨率的pipline两个分辨率就够了。
多尺度辨别器:为了分辨高分辨率图片,辨别器需要有一个更大的感受野,为了减少参数且预防过拟合,这里使用了多尺度辨别器,三个具有相同结构的辨别器作用于三个不同的尺寸,具体表现在下采样真实的和合成的高分辨率2倍和4倍,这样就有三个尺寸的真实图片和三个尺寸的合成图片。作用于最粗糙尺度的辨别器具有最大的感受野,他对图片有一个全局视角可以引导生成器生成全局的连续图片。作用于最精细尺度的辨别器鼓励生成器产生更精细的细节。
新的目标函数变为一个多任务问题:
在这里插入图片描述
(3)提高对抗损失
在辨别器上增加了一个特征匹配损失,具体体现在提取辨别器的多层特征,并且学习去匹配这些中间层的特征。
在这里插入图片描述
最终的目标函数:
在这里插入图片描述
使用示例图:
仅仅使用语义分割图无法辨别那些相同种类的物体,一个实例语义图对每一个单独的物体都有一个特别的ID,如何结合示例图,方法一可以直接输入到网络中,或者将它编码成独热编码,但是因为每个类别都包含有许多的物体。作者认为实例图提供最有用的信息是物体的边界。如何两个相同类别的物体是紧挨着的话,语义图是无法将他们分辨开的。实例图就可以。
在这里插入图片描述
因此提取边界信息,如果它和周围的四个临近ID不相同,那么它就为1,否则为0.(之前写过)。经过边界提取后再和经过one-hot编码的语义标签图concat1在一起。两个图都是由0,1组成的二值图,Ciityscape有19类,编码后19个通道,加实例边缘图一共20个通道。
学习实例层的特征编码:
一个理想的图像合成算法可以产生多种多样,且真实的图片,作者提出添加一个额外的低维特征通道作为生成器的输入。通过控制这些特征,我们可以灵活控制图像和合成进程。为了产生低位特征,我们训练一个encoder网络E去寻找与真实GT对应的低维特征向量。为了保证实例特征都是连续的,我们在encoder输出添加一个逐实例平均池化层去计算实例的平均特征。
平均特征然后广播到实例的所有像素。
在这里插入图片描述
我们首先共同训练生成器,辨别器和encoder,接着将所有训练的实例输入到训练好的encoder中,然后对每一个语义种类使用K-means聚类,每一个聚类将特征编码为一个特别的风格。在推理阶段,随机挑选一个聚类来编码特征。这些特征和标签图拼接在一起用作生成器的输入。对每一个实例,我们呈现k种模式可供选择。
结果:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/543374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

js内存泄露

文章目录 定义引起内存泄漏的操作:Chrome 控制台查看内存情况无痕模式PerformanceMemotry1. 先用 Allocation instrumentation on timeline 确认问题2. 再用 Head snapshot 定位代码 闭包函数使用不当 js内存泄露如何检测?场景有哪些?如何定位…

2023年财务管理案例研究与应用(圆桌)论坛在京举办

2023年5月13日,由中国企业财务管理协会、机械工业信息研究院与用友网络科技股份有限公司共同策划的 2023 财务管理案例研究与应用 (圆桌) 论坛在用友产业园成功举办。 国务院国资委财务监管与运行评价局局长李冰,中国企业财务管理协会副会长(…

macOS 安装NVM

一、卸载已经安装的node 我用命令brew uninstall node16 发现报错 后面我用where node 发现当时安装node并没有用brew工具安装 于是运用删除文件的方式卸载node sudo rm -rf /usr/local/{bin/{node,npm},lib/node_modules/npm,lib/node,share/man/*/node.*}二、brew 安装nu…

MySQL—日志

文章目录 一、错误日志二、二进制日志2.1 介绍2.2 格式2.3 查看2.4 删除 三、查询日志四、慢查询日志 一、错误日志 错误日志是 MySQL 中最重要的日志之一,它记录了当 mysqld 启动和停止时,以及服务器在运行过程中发生任何严重错误时的相关信息。当数据…

铿锵玫瑰 别样绽放

-----衢州首支飞盘女队成立 5月15日在一个火热既温馨的下午,在衢州市衢江区社会组织服务中心“馨满益足”女工服务站里。首批优秀女性代表集聚一堂举行了衢州铿锵玫瑰飞盘女队沙龙。至此衢州首支飞盘女队正式落地,这支队伍将在今后参加各类女子飞盘比赛…

DevEco Studio 3.1 Release | 动态共享包开发,编译更快,包更小

原文:DevEco Studio 3.1 Release | 动态共享包开发,编译更快,包更小,点击链接查看更多技术内容。 动态共享包(HSP)开发是DevEco Studio 3.1 Release版本带来的新特性,基于新的编译方式&#xff…

gpt接口新增配额控制

工作内容,不对外开放 场景: 用户使用gpt时会消耗token,我们要求能够在某个地方配置gpt限额,gpt限额有全局限额也有个人配置的限额, 先配置一个默认的全局的限额(所有用户gpt3.5每个月不能超过1000,每天不能超过500,每个小时不能超过100), 用户可以配置用户的限额(该…

RoyalScope-总线工作状况和信号质量“体检”

海量存储、洞悉细微 无间断连续采样、波形和报文记录 内置100MHz示波器,采样率高达100MS/s,精确查看、分析和统计信号波形细节。 无间断连续采样总线上信号,全部无遗漏的解析成报文(包括数据帧、遥控帧、过载帧、错误帧、帧间隔和错误报文)和…

matlab绘制任意位置方位的圆锥

1.前记: 使用surf函数实现指定顶点,圆锥半径,高度的圆锥。 2.代码 为了实现任意位置和方位,使用机器人系统工具箱函数getTransform计算机器人末端正运动的齐次矩阵结果并将其位置和方位赋予要画的圆锥体上。 运行函数&#xff1…

springboot+java博物馆文物管理系统

用户前台进入系统可以进行首页、文物信息、论坛交流、文物资讯、留言反馈、我的、跳转到后台等springboot是基于spring的快速开发框架, 相比于原生的spring而言, 它通过大量的java config来避免了大量的xml文件, 只需要简单的生成器便能生成一个可以运行的javaweb项目, 是目前最…

bug:nodepad++安装hex Editor插件闪退

bug:nodepad安装hex Editor插件闪退 解决办法: 查看是否是自己的hex Editor版本下载错了(x86对应x86、x64对应x64)如果nodepad版本是v7.6.4,则需要安装0.9.9的hex Editor 0.9.9 winx64版本:https://github.…

一年换 3 份工作,在家躺平半年了!

见字如面,我是军哥! 还记得,我之前写的这篇《三年换 3 份工作,再也找不到工作了!》文章?上周有一位读者在这篇文章下留言,说自己去年一年换了 3 份工作,目前在家躺了半年了&#xff…

ML | 4.朴素贝叶斯

基于概率论的分类方法:朴素贝叶斯 文章目录 基于概率论的分类方法:朴素贝叶斯概述条件概率贝叶斯公式 朴素贝叶斯分类器2个假设Example:文本分类欢迎关注公众号【三戒纪元】 概述 朴素贝叶斯可以处理多类别问题,在数据较少的情况下仍然有效&…

加速度传感器的量程估算

在测震动和噪声的场合,现有的加速度传感器,需要客户提供加速度值的大致区间。这个值该怎么计算呢?它几乎完全与被测信号的频率有关。因为所有的信号,按照频域展开的视角,都会简化为一个个正弦波。对于正弦波有这样的属…

亚马逊云科技新增功能:在一个位置设置您的亚马逊云科技通知

5月5日,亚马逊云科技发布AWS User Notifications,这是在亚马逊云科技管理控制台中设置和查看多个亚马逊云科技账户、区域和服务的亚马逊云科技通知的单一位置。 可以以一致、人性化的格式集中设置和查看来自100多项亚马逊云科技服务的通知,…

什么是语音识别的智能客服?

前言 随着人工智能技术的不断发展,语音识别技术越来越成熟,语音技术的应用也越来越广泛。智能客服是其中一个应用领域,它通过语音识别技术,将用户的语音输入转换为文本,并通过自然语言处理技术,解决用户的…

数据库的恢复技术

更好的阅读体验 存储器结构 分类 1、易失性存储器:内存、高速缓冲存储器 2、非易失性存储器:磁盘、磁带 3、稳定存储器:理想的存储器,其中信息永不丢失 稳定存储器的实现 要实现稳定存储器,就要在多个非易失性存储…

32从零开始学Java之方法传参到底是值传递还是引用传递?

作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在上一篇文章中,壹哥给大家讲解了方法的定义、调用和返回值,但方法的内容还有…

如何避免在Facebook群组中过度营销?

在社交媒体时代,Facebook群组已经成为了企业宣传的热门渠道之一。然而,很多企业在使用Facebook群组进行宣传时,都会犯一个很容易被忽视的错误——过度营销。 过度营销不仅会让Facebook群组的成员感到反感,甚至还会让管理员将你的帖…

如何进行TCP抓包调试?

网络调试工具——Wireshark Wireshark 是世界上应用最广泛的网络协议分析器,它让我们在微观层面上看到整个网络正在发生的事情。 Wireshark 本身是一个开源项目,所以也得到了很多志愿者的支持。同时,Wireshark 具有丰富的功能集,…