Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE

news2024/7/4 5:25:13

Jialun Peng1 Dong Liu1* Songcen Xu2 Houqiang Li1 1 University of Science and Technology of China 2 Noah's Ark Lab, Huawei Technologies Co., Ltd.pjl@mail.ustc.edu.cn, {dongeliu, lihq}@ustc.edu.cn, xusongcen@huawei.com

原文提供代码链接:

GitHub - USTC-JialunPeng/Diverse-Structure-Inpainting: CVPR 2021: "Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE"

摘要:

给定一个没有附加约束的不完整图像,只要图像看起来合理,图像修复就原生允许多个解决方案。最近,已经提出了多种解决方案修复方法,并展示了生成不同结果的潜力。然而,这些方法很难确保每个解决方案的质量,例如它们产生扭曲的结构和/或模糊的纹理。我们提出了一个用于不同修复的两阶段模型,其中第一阶段生成多个具有不同结构的粗结果,第二阶段通过增加纹理分别细化每个粗结果。所提出的模型受到分层向量量化变分自动编码器 (VQ-VAE) 的启发,其层次结构解开结构和纹理信息。此外,VQVAE 中的矢量量化能够对结构信息的离散分布进行自回归建模。从分布中采样可以很容易地生成多样化和高质量的结构,构成了我们模型的第一阶段。在第二阶段,我们在纹理生成网络内部提出了一个结构注意模块,该模块利用结构信息来捕获远距离相关性。我们进一步重用VQ-VAE来计算两个特征损失,分别有助于提高结构的一致性和纹理真实感。在CelebA-HQ、Places2和ImageNet数据集上的实验结果表明,我们的方法不仅增强了修复解决方案的多样性,而且提高了生成的多幅图像的视觉质量。

模型结构图:

第一阶段——生成粗结果:

我们首先提出了一种多样结构生成器Gs,它使用自回归网络来制定离散结构特征上的条件分布。从分布中取样可以产生不同的结构特征。

损失函数为:

第二阶段——生成精细结果,有两部分组成:

第一部分主要由纹理生成器+粗结果/gt结果 ,得到生成整张图。

另外提出了一个结构注意力模块,它直接计算结构特征的注意力得分。直观地说,具有相似结构的区域应该具有相似的纹理。计算结构特征上的注意力得分可以对结构信息的精确长程相关性进行建模,从而提高合成纹理和生成结构之间的一致性。

此处的判别器为:SN PatchGAN中的判别器

可以计算由判别器以及L1损失。

第二部分由在原始数据集上提前预训练好的分层VQ-VAE的编码器部分构成:

预训练Hierarchical VQ-VAE

这个模型在编码器部分会生成图像的结构特征,纹理特征。

然后拿训练好的Hierarchical VQ-VAE的编码器部分,固定编码器参数??,将第一部分中生成的comp图像作为输入,得到了生成图像comp对于这个编码器的结构特征以及纹理特征。

然后与gt图像的结构特征纹理特征得到另外的损失函数。用于指导模型训练。

结构损失函数为:

总损失函数为:

模型表现(部分):

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1883986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL:数据类型

数据类型 1. 字符串类型2. 整数类型3. 定点数类型和浮点数类型4. 布尔类型5. 枚举和集合类型6. 日期和时间类型7. Blob类型8. JSON类型 字符串类型、数字类型、日期和时间类型、存放二进制的数据类型、存放地理数据的类型。 1. 字符串类型 字符串类型也可以用来存储邮编&…

【论文阅读】-- 研究时间序列可视化,提升用户体验

Investigating Time Series Visualisations to Improve the User Experience 摘要1 引言2 相关工作互动技巧视觉编码坐标系 3 用户研究时间序列可视化互动技巧任务实验设计 4 结果交互技术的效果视觉编码的影响坐标系的影响 5 讨论交互技术的效果视觉编码的影响坐标系的影响 6 …

(必看图文)Hadoop集群安装及MapReduce应用(手把手详解版)

前言 随着大数据时代的到来,处理和分析海量数据已成为企业和科研机构不可或缺的能力。Hadoop,作为开源的分布式计算平台,因其强大的数据处理能力和良好的可扩展性,成为大数据处理领域的佼佼者。本图文教程旨在帮助读者理解Hadoop集…

《昇思25天学习打卡营第5天|数据变换 Transforms》

文章目录 前言:今日所学:1. Common Transforms2. Vision Transforms3. Text Transforms 前言: 我们知道在进行神经网络训练的时候,通常要将原始数据进行一系列的数据预处理操作才会进行训练,所以MindSpore提供了不同类…

C语言部分复习笔记

1. 指针和数组 数组指针 和 指针数组 int* p1[10]; // 指针数组int (*p2)[10]; // 数组指针 因为 [] 的优先级比 * 高,p先和 [] 结合说明p是一个数组,p先和*结合说明p是一个指针 括号保证p先和*结合,说明p是一个指针变量,然后指…

蒂升电梯职业性格和Verify认知能力SHL测评答题攻略及薪资待遇解密!

​一、蒂升电梯职业性格和认知能力测评考什么 您好!蒂升电梯公司邀请您参加的OPQ职业性格测评和Verify认知能力测评是两种常见的评估工具,用于帮助了解个人的职场性格特点和认知能力。 OPQ职业性格测评 这是一种性格测试,通常用于评估个人在…

一文讲解Docker入门到精通

一、引入 1、什么是虚拟化 在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,它允许在一台物理机上创建多个独立的虚拟环境,这些环境被称为虚拟机(VM)。每个虚拟机都可以…

盘古5.0,靠什么去解最难的题?

文|周效敬 编|王一粟 当大模型的竞争开始拼落地,商业化在B端和C端都展开了自由生长。 在B端,借助云计算向千行万业扎根;在C端,通过软件App和智能终端快速迭代。 在华为,这家曾经以通信行业起…

Java登录管理功能的自我理解(尚庭公寓)

登录管理 背景知识 1. 认证方案概述 有两种常见的认证方案,分别是基于Session的认证和基于Token的认证,下面逐一进行介绍 基于Session 基于Session的认证流程如下图所示 该方案的特点 登录用户信息保存在服务端内存(Session对象&#xff…

Django 一对多关系

1,创建 Django 应用 Test/app9 django-admin startapp app9 2,注册应用 Test/Test/settings.py 3,添加应用路由 Test/Test/urls.py from django.contrib import admin from django.urls import path, includeurlpatterns [path(admin/,…

安装KB5039212更新卡在25% 或者 96% 进度

系统之家7月1日消息,微软在6月11日的补丁星期二活动中,为Windows 11系统推出了KB5039212更新。然而,部分用户在Windows社区中反映,安装过程中出现失败,进度条在25%或96%时卡住。对于遇到此类问题的Windows 11用户&…

YOLOv8改进 | 主干网络 | C2f融合动态卷积模块ODConv

💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效涨点》专栏介绍 & 专栏目录 | 目前已有40篇内容,内含各种Head检测头、损失函数Loss、…

Linux CentOS 7 离线安装.NET环境

下载 下载.NET 例如: aspnetcore-runtime-6.0.15-linux-x64.tar.gz 复制 复制到如下目录: /usr/local/dotnet/aspnetcore-runtime-6.0.15-linux-x64.tar.gz 解压 cd /usr/local/dotnet/ tar -zxvf aspnetcore-runtime-6.0.15-linux-x64.tar.gz 创建…

非标设备行业的数智化项目管理

近年来,中国制造快速发展,企业迫切需要加快转型升级。与传统制造业相比,高端制造业具有明显的优势:高技术、高附加值、低污染、低排放、竞争优势强。一方面,企业对于生产效率和自动化水平的要求不断提高,期…

esp12实现的网络时钟校准

网络时间的获取是通过向第三方服务器发送GET请求获取并解析出来的。 在本篇博客中,网络时间的获取是一种自动的行为,当系统成功连接WiFi获取到网络天气后,系统将自动获取并解析得到时间和日期,为了减少误差每两分钟左右进行一次校…

qt可点击的QLabel

需求——问题与思路 使用wpf实现一个可点击的超链接label相当简单(如下图),但是qt的QLabel不会响应点击事件,那就从QLabel继承一个类,然后在该类中重写mousePressEvent函数,并在该函数中对左键点击事件做响…

人工智能——常用数学基础之线代中的矩阵

1. 矩阵的本质: 矩阵本质上是一种数学结构,它由按照特定规则排列的数字组成,通常被表示为一个二维数组。矩阵可以用于描述一组数据,或者表示某种关系,比如线性变换。 在人工智能中,矩阵常被用来表示数据集…

沉浸感拉满的三模游戏外设神器!谷粒金刚3 Pro游戏手柄开箱试玩

沉浸感拉满的三模游戏外设神器!谷粒金刚3 Pro游戏手柄开箱试玩 哈喽小伙伴们好,我是Stark-C~ 对于喜欢打游戏的玩家来说,一款得力的游戏外设绝对是提升游戏体验,增加游戏乐趣的重要神器!而在众多的外设中&#xff0c…

全同态加密在大模型应用中应用

密码学简介 上文的图例基本展示了常见加密体系。加密体系,如果用比较正式的描述方法,无疑是做了三件事: 首先,通过一个生成算法 𝐾𝑒𝑦𝐺𝑒𝑛(1&#x1d70…

32.哀家要长脑子了!

1.299. 猜数字游戏 - 力扣(LeetCode) 公牛还是挺好数的,奶牛。。。妈呀,一朝打回解放前 抓本质抓本质,有多少位非公牛数可以通过重新排列转换公牛数字,意思就是,当这个数不是公牛数字时&#x…