Resolution-robust Large Mask Inpainting with Fourier Convolutions 阅读笔记

news2025/1/4 17:33:33

基于傅里叶卷积的鲁棒分辨率大Mask修补

WACV 2022
论文链接
代码链接

在这里插入图片描述

图1:本文提出的方法可成功修复大区域,并很好处理具有复杂重复结构的图像。该方法在256×256低分辨率下训练也能泛化到高分辨率图像上。

摘要: 现代图像修复技术主要受阻于大缺失区域、复杂几何结构和高分辨率图像,主要受阻原因是修复网络和损失函数都缺乏有效的感受野。为缓解该问题,本文提出了一个新方法:large mask inpainting (LaMa)。LaMa基于:

  1. 一种新的使用快速傅里叶卷积的修补网络,具有图像范围感受野,傅里叶卷积可以视为self-attention的轻量级替代
  2. 一个高感受野感知loss。
  3. large training masks,能发挥前两个组件的潜力。

我们的修补网络提高了一系列数据集的sota,在挑战性场景(如周期性结构)下也具有出色性能,并能以比baseline更低的参数量和时间成本泛化到比训练集分辨率更高的图像上。

文章目录

  • 基于傅里叶卷积的鲁棒分辨率大Mask修补
  • 1. Introduction
  • 2. Method
    • 2.1. Global context within early layers
    • 2.2. Loss functions
      • 2.2.1 High receptive field perceptual loss
      • 2.2.2 Adversarial loss
      • 2.2.3 The final loss function
    • 2.3. Generation of masks during training


1. Introduction

图像修复需要真实填充缺失部分,既需要“理解”自然图像的大规模结构,也需要执行图像合成。基于神经网络的图像修复通常在一个大型随机mask图像的数据集上训练两阶段网络。本工作使用简单的one-stage 网络实现了sota。
大感受野对于理解图像的全局结构并解决修复问题至关重要。 在大mask的情况下,大但有限的感受野可能都不足以访问生成修复的图像。当前主流的架构缺乏大感受野,因此我们干预其每个组件来缓解问题,并发挥 one-satge 解决方案的潜力。具体而言:

  1. 我们基于快速傅里叶卷积(FFCs)提出了一个修复模型,FFCs甚至允许网络在early layers覆盖整幅图像的感受野,这一特性提高了网络的感知质量和参数效率。 有趣的是,FFC的 inductive bias使网络可以泛化到训练期间从未见过的更高分辨率图像上(图5,图6),有效减少了训练数据和计算。
  2. 我们提出基于高感受野语义分割网络的感知loss。感受野不足不仅会损害修复网络,而且也损害感知loss,我们的loss促进了全局结构和形状的一致性。
  3. 我们引入了一种训练mask生成的策略以发挥前两个组件高感受野的潜力。生成宽大的mask迫使网络充分利用模型和损失函数的高感受野。

因此,LaMa的主要组成部分是:1.高感受野结构、2. 高感受野损失和 3. 训练mask生成的算法。通过评估,我们发现 LaMa 仅在低分辨率数据上训练,就能推广到高分辨率图像上。LaMa可以捕获和生成复杂的周期结构,并对大mask具有鲁棒性。此外,LaMa具有比baseline更低的训练参数和推理时间。

2. Method

我们的目标是修复一张被一个 pixel 未知的二进制掩码 m 掩盖住的彩色图像 x,被mask的图像表示为:x⊙m 。m与x⊙m堆叠,因此输入的是4通道tensor:x′ = stack(x ⊙ m, m),我们使用 feed-forward 修补网络 fθ(·),也称之为生成器,以完全卷积的方式处理x′ ,生成修复的三通道彩色图像 x ^ = f θ ( x ′ ) \hat{x}=fθ(x^′) x^=fθ(x)。在真实图像和合成生成的mask 组成的 (image, mask) 对上进行训练。

2.1. Global context within early layers

正确修复大mask需要考虑全局上下文。因此,一个好的修复架构在pipeline中应尽早具有尽可能宽的感受野。传统的完全卷积模型,如ResNet,有效感受野增长缓慢,由于卷积核通常较小(例如3×3),感受野可能不足,尤其在网络的 early layers,因此,网络中的许多层会缺乏全局上下文信息,需要浪费计算和参数进行创建。对于宽mask,在特定位置生成器的感受野可能在mask内,因此只能观察到缺失的像素。
Fast Fourier convolution (FFC)。FFC允许网络在 early layers 使用全局上下文,FFC基于一个channel-wise fast Fourier transform (FFT),并具有覆盖整幅图像的感受野。FFC将 channel 分成两个并行分支:i)使用传统卷积的局部分支,ii)使用 real FFT 来获取全局上下文的全局分支。 real FFT 只能应用于实信号,inverse real FFT 确保输出是实值,与FFT相比,real FFT只使用一半的频谱。具体而言,FFC采取以下步骤:
a) 对一个输入 tensor 应用Real FFT2d,并 concatenate 实部和虚部:
在这里插入图片描述
在这里插入图片描述
b) 在频域中应用一个卷积block:
在这里插入图片描述
c) 应用逆变换恢复空间结构:
在这里插入图片描述

最后,局部(i)和全局(ii)分支的输出融合在一起。FFC如图2所示。

在这里插入图片描述

图2:large-mask inpainting (LaMa)模式。LaMa基于前馈 ResNet-like 修复网络,该网络使用:Fourier convolution (FFC),一种结合对抗loss和大感受野感知loss的多分量损失,和一个 training-time large masks 生成程序。

The power of FFCs。 FFC完全可微且易于使用,可直接替换传统卷积。由于 image-wide 感受野,FFC允许生成器在 early layers 考虑全局上下文,这对高分辨率图像修复至关重要,也提高了效率:可训练的参数可以用于推理和生成,而不是“等待”信息的传播。
FFC非常适合捕捉周期性结构,这种周期性结构常见于人造环境,例如砖块、梯子、窗户等(图4)。有趣的是,在所有频率上共享相同卷积使模型尺度等变(图5、6)。

2.2. Loss functions

修复问题本身就模棱两可,同样的缺失区域有许多似乎可行的填充物,尤其当“洞”变宽时。

2.2.1 High receptive field perceptual loss

普通监督损失需要生成器准确重建GT,但图像的可见部分通常不包含足够的信息来精确重建被 mask的部分,因此,由于修复内容的多可能性模式的均值,使用普通监督会导致结果模糊。
相反,感知损失通过预训练网络 ϕ(·) 评估预测图像特征和目标图像特征间的距离,无需精确重建,允许重建图像的变化。大 Mask 修复的重点转向了理解全局结构,因此使用感受野快速增长的基础网络很重要。我们引入了高感受野感知损失:high receptive field perceptual loss (HRF PL),使用一个高感受野的基础模型ϕHRF(·) :
在这里插入图片描述
[ ⋅ − ⋅ ] 2 [· − ·]^2 []2 是一个元素级别操作,M是连续的两阶段平均操作(interlayer mean of intra-layer means)。可以使用傅里叶卷积或空洞卷积来实现ϕHRF(x),消融实验表明 HRF感知损失对我们的大mask 修复系统至关重要(表3)。

Pretext problem。 训练感知损失的基础网络的 Pretext problem 很重要,例如,使用分割模型作为感知损失的backbone有助于关注高级语义信息,例如对象及其部分,而分类模型更关注纹理信息,可能会引入不利于高级信息的偏差。

2.2.2 Adversarial loss

我们使用对抗损失来确保修复模型fθ(x′) 生成自然的外观局部细节,我们定义一个局部 patch-level 鉴别器 Dξ(·) 来区分“real” 和 “fake”patch,只有与 mask 区域相交的 patch 才得到“fake”标签。由于有监督的HRF感知损失,生成器很快学会复制输入图像的已知部分,因此我们将生成图像的已知部分标记为“real”。最后,我们使用 non-saturating adversarial loss:
在这里插入图片描述
x 来自数据集的样本,m是合成生成的mask, x ^ = f θ ( x ′ ) \hat{x}=f_θ(x^′) x^=fθ(x)是x′=stack(x⊙m, m) 的修补结果, s g v a r sg_{var} sgvar停止关于 var 的梯度,LAdv是要优化的 joint loss。

2.2.3 The final loss function

final loss 还使用 R 1 = E x ∣ ∣ ∇ D ξ ( x ) ∣ ∣ 2 R_1=E_x||∇D_ξ(x)||^2 R1=ExDξ(x)2 梯度惩罚,以及一个discriminator-based perceptual loss,或所谓的特征匹配损失——鉴别器网络LDiscPL的特征感知损失,LDiscPL训练稳定,某些情况下可以稍微提高性能。最终的loss如下:
在这里插入图片描述
LAdv和LDiscPL负责生成自然的外观局部细节,而LHRFPL负责监督信号和全局结构的一致性。

2.3. Generation of masks during training

我们系统的最后一个组件是 mask 生成策略,每个训练样本 x′ 都是真是照片与合成生成的mask的叠加。与数据增强对最终性能有很大影响的 discriminative 模型类似,mask 生成策略修复系统的性能影响很大。
因此,我们选择了一种 aggressive large mask 生成策略,统一使用由一个随机宽度(wide masks)和任意纵横比的矩形(box masks)扩展的多边形链的样本。mask示例如图3所示。使用large mask生成策略进行训练可以提高窄mask和宽mask的性能(表4),表明增加mask的多样性对修复系统有利。

在这里插入图片描述

图3:不同训练mask生成策略的样本。生成 mask 的方式极大影响了系统的最终性能。与传统做法(例如DeepFillv2)不同,我们使用了一个更 aggressive 的large mask生成策略,mask统一来自wide masks 策略或 box masks 策略。large mask 策略的mask面积更大更宽。使用 aggressive large mask 生成策略训练的模型在宽mask和窄mask上都表现良好(表4)。测试数据避免了覆盖超过50%图像的mask。

论文剩余部分略,不关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/83192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于intel平台车载M12网管交换机方案,13路网口,支持bypass功能

概述:XM-5130是二层网管型以太网交换机,该产品前面板提供13路100M自适应以太网接口、4路车辆间带链路聚合及bypass功能的以太网接口,接口通过M12端子形式提供。该产品适用于振动、温度、湿度、电源波动变化大、电磁干扰复杂的恶劣工作环境。设…

传统大型国企云原生转型,如何解决弹性、运维和团队协同等问题?

作者:王彬、杏祉尧、黄枫 项目背景 贵州酒店集团有限公司于 2019 年 2 月 28 日注册成立,是经贵州省人民政府批准并授权省国资委履行出资人职责的省管大一型企业,全资及控股子企业 23 家,自营及委管酒店(项目&#x…

Nacos的持久化和集群部署

###目前网络模式为:bridge 1.docker mysql:5.7的持久化存储及远程连接 1.下拉镜像 docker pull mysql/mysql-server:5.7 注:后面的mysql标签是版本号,可选择,有:5.5/5.6/5.7/8.0 2.在宿主机中相关目录&#…

单片机内部组成

目录 中央处理器(CPU) 内部数据存储器(128B RAM) 内部程序存储器(4KB ROM) 定时/计数器 可编程I/O口 串行接口 中断控制系统 时钟电路 中央处理器(CPU) 中央处理器是单片机的…

测试工作干了7年,却被实习生代替,是实习生太牛了,还是我们太弱了?

前几天有个朋友向我哭诉,说她在公司工作(软件测试)了7年了,却被一个实习生代替了,该何去何从? 这是一个值得深思的问题,作为职场人员,我们确实该思考,我们的工作会被实习…

详解文件篇(待更)

目录前言一、背景知识1.文件的真面目2.对文件进行的操作3.所谓的打开文件究竟是在干啥?4.文件可能存在的位置?5.文件操作的幕后主使者二、复习C语言中的相关文件操作1. 源代码:形成一个file.txt的文件2. 以"r"的方式打开文件3. 以&…

C++异常详解

文章目录前言一、C语言传统的处理错误的方式二、C异常概念三、异常的使用3.1 异常的抛出和捕获3.2 异常的重新抛出3.3 异常安全3.4 异常规范四、C标准库的异常体系五、自定义异常体系六、异常的优缺点C异常的优点C异常的缺点总结前言 正文开始! 一、C语言传统的处理…

大数据:Hive3.x安装部署和配置

文章目录Hive 简介一,Hive 下载和安装1)下载hive2)安装hive二,Hive 部署1)添加hive-site.xml配置2)上传mysql jdbc驱动到hive安装包lib下3)初始化元数据库4)启动hive5)be…

数字时代,你还不了解数据仓库吗?

事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。今天我们就来详细了解一下数据仓库,从概念、特点、…

【网络】一文带你了解计算机网络基础

我们在学校中,相信大家都学过计算机四门必修课之一的计算机网络,那么今天简单的总结一下计算机网络的基础和原理,有需要朋友,可以点赞收藏。 一文带你了解计算机网络基础1、 网络 7 层架构2、 TCP/IP原理2.1 网络访问层(Network A…

MongoDB的入门及使用

文章目录1、MongoDB组成2、基本指令3、安装Studio 3T4、操作语句db操作collection操作document操作document 查询5、开发使用1、MongoDB组成 MongoDB中有三个概念需要大家了解:数据库、集合、文档 数据库database: 数据库是一个仓库,在仓库中…

【Docker】安装容器(Tomcat/MySQL/Redis)

文章目录Docker安装镜像容器安装 Tomcat安装 MySQL安装 MySQL实战版安装 RedisDocker安装镜像容器 步骤 搜索镜像 拉取镜像 查看镜像 启动镜像 - 服务端口映射 停止容器 移除容器 安装 Tomcat 1、DockerHub上查找Tomcat镜像 docker search tomcat 2、从DockerHub拉取Tomcat镜…

volatile synchronized Lock

参考博客:https://www.cnblogs.com/cg-ww/p/14540450.html https://zhuanlan.zhihu.com/p/563597528?utm_id0 synchronized修饰变量,https://blog.csdn.net/dlf123321/article/details/53515756 详解synchronized关键字,https://zhuanlan.zh…

一文回顾Aleo到底有多卷

年底的Aleo是区块链行业的一场大事,由于融资超过两亿美元这样的光环围绕,Aleo出道即备受关注,网上不少教程也是满天飞,甚至在激励测试开始之前,就已经非常卷了,而大家都在认为激励测试在两三周之后开始&…

java swing(GUI) mysql实现的酒店管理系统源码文档教程

今天给大家演示一下由我修订开发的一款由Java swing mysql实现的酒店管理系统,以前是sqlserver版本的,我修改了驱动,做了整体升级,改成了mysql版本的,系统功能非常完善,实现了酒店宾馆日常的所有操作功能&a…

28-Vue之ECharts-折线图

ECharts-折线图前言折线图特点折线图实现步骤折线图常见效果标记线条控制填充风格紧挨边缘缩放, 脱离0值比例堆叠图前言 本篇来学习下折线图的实现 折线图特点 折线图更多的使用来呈现数据随时间的变化趋势 折线图实现步骤 ECharts 最基本的代码结构准备x轴的数据准备 y 轴…

高级网络应用复习——三层和生成树实验 加 命令

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.实验 1. 实验要求 2.实验命令 三层配置 和三层交换机连接…

双十二有哪些高性价比的电容笔?十大电容笔知名品牌

任何东西都有它独特的意义、存在和作用。随着ipad的影响力越来越大,ipad的用户数量也越来越多,所以要提高ipad的性能,就需要一款合适的电容笔。那么,电容笔该选择哪个品牌?我将向大家推荐几款性价比高的电容笔&#xf…

PPa-HA/NH2/NHS/MAL焦脱镁叶绿酸-a修饰叶酸/氨基/活性酯/马来酰亚胺的反应

小编下面给大家分享的科研内容是类PPa-HA/NH2/NHS/MAL焦脱镁叶绿酸-a修饰叶酸/氨基/活性酯/马来酰亚胺的反应,和小编一起来看看! PPa-HA焦脱镁叶绿酸-a修饰叶酸的反应: 以脱镁叶绿酸-a甲酯为起始原料,在二氯甲烷中于不同温度下与N-溴代丁二酰…

ChatGPT面试阿里P6测试开发岗能过吗?

最近ChatGPT爆火,ChatGPT能干什么呢?想必已经看过很多文章了,例如ChatGPT通过美国高考、ChatGPT开发游戏、调试代码、写文章等等。 哈哈,作为一个软件测试博主,我怎么可能不出来搞点事情呢?突发奇想&#…