【数据生成】——Semantic Image Synthesis via Diffusion Models语义分割数据集生成论文浅读

news2024/10/5 18:34:40

语义分割,数据生成
在这里插入图片描述

摘要

Denoising Diffusion Probabilistic Models (DDPMs) 在各种图像生成任务中取得了显著的成功,相比之下,生成对抗网络 (GANs) 的表现不尽如人意。最近的语义图像合成工作主要遵循事实上的基于 GAN 的方法,这可能导致生成图像的质量或多样性不尽如人意。在本文中,我们提出了一种基于 DDPM 的语义图像合成的新框架。与以前的条件扩散模型直接将语义布局和噪声图像作为输入到 U-Net 结构不同,我们的框架对语义布局和噪声图像进行了不同的处理。它将噪声图像输入到 U-Net 结构的编码器中,而将语义布局通过多层空间自适应归一化算子输入到解码器中。为了进一步提高语义图像合成中的生成质量和语义可解释性,我们引入了无分类器引导采样策略,该策略承认无条件模型的得分用于采样过程。

1. 简介

直接将条件信息与噪声图像作为去噪网络的输入是不充分利用输入语义掩码中的信息的,这会导致生成的图像质量低且与语义相关性差。为此,我们设计了一个条件去噪网络,它独立处理语义布局和噪声图像。噪声图像被输入到去噪网络的编码器中,而语义布局通过多层空间自适应归一化算子嵌入到去噪网络的解码器中。这大大提高了生成图像的质量和语义相关性。

此外,扩散模型本身具有生成多样结果的能力。采样策略在平衡生成结果的质量和多样性方面起着重要作用。简单的采样过程可以生成具有高多样性但缺乏真实感和与语义标签图强相关性的图像。受[13]启发,我们采用无分类器引导策略来提高图像保真度和语义相关性。具体来说,我们通过随机删除语义掩码输入来微调预训练的扩散模型。然后,采样策略基于扩散模型在有和没有语义掩码时的预测进行处理。通过插值这两种情况下的得分,采样结果达到更高的保真度和与语义掩码输入更强的相关性。

2. 相关工作

3. 方法

在这里插入图片描述
整体架构
SDM 的条件去噪网络是一个基于 U-Net 的网络,用于估计输入噪声图像中的噪声。与先前的条件扩散模型不同,我们的去噪网络独立处理语义标签图和噪声图像。噪声图像被馈入去噪网络的编码器部分。为了充分利用语义信息,语义标签图通过多层空间自适应归一化算子注入到去噪网络的解码器中。

图像编码部分
编码器。我们使用堆叠的语义扩散编码器残差块(SDEResblocks)和注意力块对噪声图像的特征进行编码。我们在图 3(b)中展示了 SDEResblocks 的详细结构,它由卷积、SiLU 和组归一化组成。SiLU [33] 是一个激活函数,简单地说就是 f(x) = x · sigmoid(x),它在更深层次的模型上比 ReLU [28] 更好。为了使网络在不同的时间步长 t 估计噪声,SDEResblock 通过学习权重 w(t) ∈ R1×1×C 和偏置 b(t) ∈ R1×1×C 来缩放和移动中间激活值,并将 t 纳入其中。
在这里插入图片描述
编码器部分的attention 模块是 self attention

语义解码部分
我们将语义标签图注入到去噪网络的解码器中,以指导去噪过程。重新审视先前的条件扩散模型[35,36],它们直接将条件信息与噪声图像作为输入连接起来,我们发现这种方法并没有充分利用语义信息,导致生成的图像质量低且语义相关性弱。为了解决这个问题,我们设计了语义扩散解码器残差块(SDDResblock)(见图 3(b)),以多层空间自适应方式将语义标签图嵌入到去噪网络的解码器中。与 SDEResblock 不同,我们引入了空间自适应归一化(SPADE)[31]来代替组归一化。SPADE 通过调节特征中的空间自适应、可学习转换来将语义标签图注入到去噪流中

SPADE 通过调节特征中的空间自适应、可学习转换来将语义标签图注入到去噪流中。具体来说,它的公式如下:f_i+1 = γ_i(x) · Norm(f_i) + β_i(x),其中 f_i 和 f_i+1 分别是 SPADE 的输入和输出特征。Norm(·) 指的是无参数的组归一化。γ_i(x) 和 β_i(x) 分别是从语义布局中学习的空间自适应权重和偏置。值得一提的是,我们的框架与 SPADE [31] 不同,因为我们的 SDM 是专门为扩散过程设计的,具有注意力块、跳跃连接和时间步长嵌入模块,而 SPADE 则没有。

损失函数

  1. 输出噪声估计
  2. 遵循改进的去噪扩散模型[30],我们进一步训练网络来预测方差Σθ(y, x, t e ),以提高生成图像的对数似然。条件扩散模型还额外输出每个维度的插值系数 v,并将输出转换为方差,
    在这里插入图片描述
    无分类器引导策略
    图3.c 中的策略,其核心思想是将在语义标签图指导下估计的噪声 θ(yt|x) 与无条件情况 θ(yt|∅) 分离。相当于减去无条件的噪声
    在这里插入图片描述
    sample 的每一步会减掉无语义标签的噪声
    在这里插入图片描述

4. 实验

  • 采用FID, FPIPS作为评价指标
  • 为了评估学习到的对应关系,我们使用现成的网络来评估生成结果的“语义可解释性”。我们使用 DRN-D-105 [52] 用于 Cityscapes,UperNet101 [51] 用于 ADE20K,Unet [20, 34] 用于 CelebAMask-HQ 和 DeepLabV2 [4] 用于 COCO-Stuff。使用现成的网络,基于生成的图像和语义布局计算平均交集并集(mIoU)
    在这里插入图片描述
    MIOU
    在这里插入图片描述
    语义编码和无分类器采样策略的影响
    在这里插入图片描述
    为了评估独立于噪声图像嵌入条件信息的重要性,我们设计了一个基线变体作为比较。作为替代方案,我们直接应用条件 DDPM [35,36],它直接将语义标签图与噪声图像作为输入连接起来。从上表,观察到我们的语义扩散模型在所有指标上都高度优于先前的条件 DDPM。此外,我们分析了这两个变体之间的视觉结果。在图 9 中,可以看到,通过以多层空间自适应方式嵌入语义标签图,生成的图像在保真度和与语义标签图的对应关系上展示出更优异的视觉质量。

分类器无引导的重要性。此外,我们研究了分类器无引导策略的有效性。我们将没有分类器无引导的变体作为比较。从表 4 中可以看出,分类器无引导大大提高了 mIoU 和 FID 指标,而 LPIPS 损失很小。在图 9 中,我们展示了分类器无引导策略的定性结果。使用分类器无引导生成的图像更好地展示了语义信息并生成了更多结构化内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/479705.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT QHBoxLayout 水平布局控件

本文详细的介绍了QHBoxLayout控件的各种操作,例如:新建界面、添加控件、布局控件、显示控件、添加空白行、设置间距 、添加间距、设置位置、设置外边距、设置边距、添加固定宽度、方向上、方向下、方向左、方向右等等、 样式表等操作。 实际开发中&#…

无距离障碍:远程桌面Ubuntu实现全球办公【内网穿透】

目录 前言 视频教程 1. ubuntu安装XRDP 2.局域网测试连接 3. Ubuntu安装cpolar内网穿透 4.cpolar公网地址测试访问 5.固定域名公网地址 [TOC] 转载自远程穿透文章:Windows通过RDP异地远程桌面Ubuntu【内网穿透】 前言 XRDP是一种开源工具,它允许…

范数详解-torch.linalg.norm计算实例

文章目录 二范数F范数核范数无穷范数L1范数L2范数 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 范数是一种数学概念,可以将向量或矩阵映射到非负实数上,通常被…

Python使用pytorch深度学习框架构造Transformer神经网络模型预测红酒分类例子

1、红酒数据介绍 经典的红酒分类数据集是指UCI机器学习库中的Wine数据集。该数据集包含178个样本,每个样本有13个特征,可以用于分类任务。 具体每个字段的含义如下: alcohol:酒精含量百分比 malic_acid:苹果酸含量&a…

Python之硬汉巴特勒

一、前言 2023年4月27日,NBA季后赛热火4:1淘汰雄鹿,实现黑八。全NBA联盟最硬气的男人——巴特勒,再次向全世界证明了他是NBA最硬气的男人。上一场刚狂轰56分大比分逆转雄鹿,这一场又是带领球队打出了血性,超高难度绝平…

快速搭建简单图床 - 远程访问本地搭建的EasyImage图床【内网穿透】

文章目录 1.前言2. EasyImage网站搭建2.1. EasyImage下载和安装2.2. EasyImage网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言 一个好的图床,是网站或者文章图片能稳定显示的关键,…

驱动管理软件推荐

最近发现电脑右下角的任务栏中有一个叹号图标,如下: 点进去之后发现是Windows自家的安全中心的内核隔离出现了点问题,内核隔离功能打不开 点击“查看不兼容的驱动程序”,发现是一些驱动作祟 我的电脑中显示了好多不兼容的驱动程序…

跟着我学习 AI丨语音识别:将语音转为数字信号

语音识别是一种人工智能技术,其主要目的是将人类说话转化为计算机可以理解的信息。语音识别技术的应用非常广泛,包括智能家居、汽车导航、语音搜索、人机交互、语音翻译等。 语音识别的技术原理 语音识别的技术原理是将人类的语音信号转化为数字信号。这…

『python爬虫』06. 数据解析之re正则解析(保姆级图文)

目录 1. 什么是re解析2. 正则规则元字符量词匹配模式测试 3. 正则案例4. re模块的使用4.1 findall: 匹配字符串中所有的符合正则的内容4.2 finditer: 匹配字符串中所有的内容[返回的是迭代器]4.3 search, 找到一个结果就返回, 返回的结果是match对象4.4 match 从头开始匹配&…

Windows forfiles命令详解,Windows按时间搜索特定类型的文件。

「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 forfiles 一、结果输出格式二、按时间搜索三、搜索指定类型文件四、批量删除文件 forfile…

Ubuntu远程SSH连接与远程桌面连接

目录 一、远程桌面连接 二、远程SSH连接 1、安装客户端 2、安装服务端 3、SSH客户端和服务端的区别 一、远程桌面连接 首先需要在Ubuntu里进行些设置,点击界面右上角的控制区,选择设置选项; 弹出界面进入网络中,点击设置图…

【致敬未来的攻城狮计划】— 连续打卡第十八天:FSP固件库开发GPT — PWM输出波形 — LED呼吸灯

系列文章目录 1.连续打卡第一天:提前对CPK_RA2E1是瑞萨RA系列开发板的初体验,了解一下 2.开发环境的选择和调试(从零开始,加油) 3.欲速则不达,今天是对RA2E1 基础知识的补充学习。 4.e2 studio 使用教程 5.…

Rust开发环境搭建到运行第一个程序HelloRust

一、Rust语言 1.1 Rust语言介绍 Rust 语言是一种高效、可靠的通用高级语言。其高效不仅限于开发效率,它的执行效率也是令人称赞的,是一种少有的兼顾开发效率和执行效率的语言。 Rust 语言由 Mozilla 开发,最早发布于2014年 9月。Rust 的编…

《ADC和DAC的基本架构》----学习记录(二)

2 模数转换器 2.1 ADC架构I:Flash转换器 2.1.1 比较器:1位ADC 转换开关是 1 位 DAC,而比较器是 1 位 ADC,如图所示。如果输入超过阈值,输出即会具有一个逻辑值,而输入低于阈值时输出又会有另一个值。此外…

寻找2020+跳蚱蜢(蓝桥杯JAVA解法)

目录 寻找2020:用户登录 题目描述 运行限制 跳蚱蜢:用户登录 题目描述 运行限制 寻找2020:用户登录 题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 小蓝有一个数字矩阵&a…

使用ChatGPT生成了十种排序算法

前言 当前ChatGPT非常火爆,对于程序员来说,ChatGPT可以帮助编写很多有用的代码。比如:在算法的实现上,就可以替我们省很多事。所以,小试牛刀一下,看看ChatGPT生成了排序算法怎么样? 简介 排序…

网站搭建之配置tomcat

【 本次配置架构】 【安全配置】 1.删除后台登录 在tomcat安装目录下的/conf文件下编辑tomcat-users.xml,删除里面带有标签的内容块,默认这部分是被注释了的。注释了任然会显示后台登录,需要彻底删除。 进入末行模式,也就是使用vim进去后&…

Flask开发之环境搭建

目录 1、安装flask 2、创建Flask工程 ​编辑 3、初始化效果 4、运行效果 5、设置Debug模式 6、设置Host 7、设置Port 8、在app.config中添加配置 1、安装flask 如果电脑上从没有安装过flask,则在命令行界面输入以下命令: pip install flask 如果电…

【MFAC】基于偏格式动态线性化的无模型自适应控制(Matlab代码)

例题来源:侯忠生教授的《无模型自适应控制:理论与应用》(2013年科学出版社)。 👉对应书本 4.3 单输入单输出系统(SISO)偏格式动态线性化(PFDL)的无模型自适应控制(MFAC) 上一篇博客介绍了基于紧格式动态线性化的无模型…

C++每日一练:打家劫室(详解动态规划法)

文章目录 前言一、题目二、分析三、代码总结 前言 这题目出得很有意思哈,打劫也是很有技术含量滴!不会点算法打劫这么粗暴的工作都干不好。 提示:以下是本篇文章正文内容,下面案例可供参考 一、题目 题目名称: 打家…