快速傅立叶卷积(FFC)

news2025/1/10 16:43:13

在这里插入图片描述

论文 LaMa: Resolution-robust Large Mask Inpainting with Fourier Convolutions
https://github.com/advimman/lama

1.Introduce

解决图像绘制问题——缺失部分的真实填充——既需要“理解”自然图像的大尺度结构,又需要进行图像合成。

通常的做法是在一个大型自动生成的数据集上训练绘画系统,这些数据集是通过随机屏蔽真实图像创建的。通常使用带有中间预测的复杂两阶段模型,例如平滑图像[27,54,61]、边缘[32,48]和分割图[44]。在这项工作中,我们用一个简单的单级网络获得了最先进的结果。

一个大的有效接受野[29]对于理解图像的整体结构,从而解决图像绘制问题是必不可少的。此外,在一个大掩模的情况下,一个大而有限的接受域可能不足以获得生成高质量图像所必需的信息。我们注意到流行的卷积架构可能缺乏足够大的有效接受场。我们仔细地干预系统的每个组成部分,以缓解问题,并释放单级解决方案的潜力。具体来说:i)我们提出了一个基于最近发展的快速傅立叶卷积(FFCs)[4]的喷漆网络。ffc允许覆盖整个图像的接受域,即使在网络的早期层也是如此。我们证明ffc的这种特性提高了网络的感知质量和参数效率。有趣的是,FFC的归纳偏倚允许网络泛化到训练过程中从未见过的高分辨率(图5、图6)。这一发现带来了显著的实际好处,因为需要的训练数据和计算量更少。

ii)我们提出使用基于高接受场语义分割网络的感知损失[20]。这是基于这样一种观察,即接受野不足不仅会损害绘画网络,还会损害感知损失。我们的损失促进了全球结构和形状的一致性。

iii)我们引入了一种积极的训练掩码生成策略,以释放前两个组件的高接受场的潜力。这个过程产生了宽而大的掩模,这迫使网络充分利用了模型和损失函数的高接受场。

这就引出了一种新的单阶段图像绘制系统——大掩模绘制系统(LaMa)。LaMa的主要组成部分是高感受野架构(i),具有高感受野损失函数(ii),以及训练掩码生成的激进算法(iii)。我们仔细地将LaMa与最先进的基线进行比较,并分析每个提议组成部分的影响。

通过评价,我们发现仅在低分辨率数据上进行训练后,LaMa就可以泛化到高分辨率图像。LaMa可以捕获和生成复杂的周期结构,并且对大掩模具有鲁棒性。此外,与竞争基线相比,这是用更少的可训练参数和推理时间成本实现的。

方法

2.1. 早期层中的全局上下文

例如填充大蒙版,生成适当的inpainting需要考虑全局上下文。因此,我们认为一个好的架构应该在管道中尽可能早地拥有具有尽可能广泛的接受域的单元。传统的全卷积模型,如ResNet[14],存在有效接受野[29]增长缓慢的问题。由于卷积核通常很小(例如3 × 3),接收域可能不足,特别是在网络的早期层。因此,网络中的许多层将缺乏全局上下文,并且将浪费计算和参数来创建一个全局上下文。

对于宽掩模,特定位置的生成器的整个接受野可能在掩模内,因此只观察到缺失的像素。对于高分辨率图像,这个问题尤为明显。

快速傅立叶卷积(FFC)[4]是最近提出的运算符,它允许在网络的前期层中利用全局上下文。FFC基于通道快速傅里叶变换(FFT)[2],具有覆盖整个图像的接受野。FFC将通道分成两个并行分支:i)局部分支使用常规卷积,ii)全局分支使用真正的FFT来考虑全局上下文。实FFT只能应用于实值信号,逆实FFT保证输出为实值。与FFT相比,真正的FFT只使用了一半的频谱。具体而言,FFC采取以下步骤:
在这里插入图片描述
在这里插入图片描述
最后,将本地(i)和全局(ii)分支的输出融合在一起。FFC的图示见图2。
在这里插入图片描述
FFCs的功能FFCs是完全可微的,并且易于使用的替代传统卷积。由于图像范围的接受域,ffc允许生成器从早期层开始考虑全局上下文,这对于高分辨率图像的绘制至关重要。这也带来了更高的效率:可训练参数可以用于推理和生成,而不是“等待”信息的传播。

我们发现ffc非常适合捕获周期性结构,这在人造环境中很常见,例如砖、梯子、窗户等(图4)。有趣的是,在所有频率上共享相同的卷积将模型转向尺度等方差4。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1232503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是策划能力?如何提高策划能力?

什么是策划能力? 通常我们理解的策划能力,大多指的是策划活动,比如举办一次活动先要进行活动策划,形成具体的行动方案,然后开展组织人力物力等资源,最终落地实施。策划能力包含活动策划,但又不…

TCC简介

TCC TCC(Try-Confirm/Cancel)是一种分布式事务处理模型,旨在解决分布式系统中的事务一致性问题。 三阶段 Try阶段: 在这个阶段,业务参与者尝试执行事务,并执行相应的业务逻辑。该阶段用于检查事务执行的…

基于SpringBoot+Mybatis plus+React.js实现条件选择切换搜索功能

笔记/朱季谦 在写React前端逻辑时,经常遇到可以切换不同条件的列表查询功能,例如下边截图这样的,其实,这块代码基本都一个逻辑,可以一次性将实现过程记录下来,待以后再遇到时,直接根据笔记复用…

python刷题笔记1(42例题)

1. split()函数 str.split([sep [, maxsplit]]) 分割字符串,返回一个数组 2. 判断子串 # 判断子串是否在主串里面,是则输出“Yes”,否则输出“No” str1 input("子串:") str2 input("主串:") if str1 in s…

leetcode:交叉链表

题目描述 题目链接:160. 相交链表 - 力扣(LeetCode) 题目分析 我们先要搞清楚一个概念,单链表可以相交,但绝对不会交叉 原因如下: 单链表中,多个结点可以存一个结点的地址,但是一…

NX二次开发UF_CAM_ask_lower_limit_plane_status 函数介绍

文章作者:里海 来源网站:里海NX二次开发3000例专栏 UF_CAM_ask_lower_limit_plane_status Defined in: uf_cam_planes.h int UF_CAM_ask_lower_limit_plane_status(tag_t object_tag, UF_PARAM_lwplane_status_t * status ) overview 概述 Query the…

007 OpenCV霍夫变换

目录 一、环境 二、霍夫变换原理 三、代码 一、环境 本文使用环境为: Windows10Python 3.9.17opencv-python 4.8.0.74 二、霍夫变换原理 OpenCV中的霍夫变换是一种用于检测图像中直线和圆的算法。它基于图像中像素的分布情况,通过统计像素点之间的…

提升工作效率,使用AnyTXT Searcher实现远程办公速查公司电脑文件——“cpolar内网穿透”

文章目录 前言1. AnyTXT Searcher1.1 下载安装AnyTXT Searcher 2. 下载安装注册cpolar3. AnyTXT Searcher设置和操作3.1 AnyTXT结合cpolar—公网访问搜索神器3.2 公网访问测试 4. 固定连接公网地址 前言 你是否遇到过这种情况,异地办公或者不在公司,想找…

BUUCTF [BJDCTF2020]一叶障目 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 得到的 flag 请包上 flag{} 提交。来源:https://github.com/BjdsecCA/BJDCTF2020 密文: 下载附件,解压得到一张.png图片。 解题思路: 1、在010 Editor中打开&#x…

关于使用宝塔页面Nginx的一些注意事项:Nginx不生效情况,以及解决方案

判断Nginx是否正常运行 使用宝塔页面保存Nginx配置后,有的时候不生效,这就说明Nginx没有正常运行 可以通过以下几种方式排查 通过宝塔 如果能够打开负载状态,说明Nginx运行正常 如果打不开,说明肯定是配置文件或者什么导致ngi…

【ctfshow】web入门-信息搜集-web21~28

SSS web21_爆破什么的,都是基操web22_域名也可以爆破的,试试爆破这个ctf.show的子域名web23_还爆破?这么多代码,告辞!web24_爆个🔨web25_爆个🔨,不爆了web26_这个可以爆web27_CTFsho…

深度神经网络下的风格迁移模型

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 斯坦福大学李飞飞团队的风格迁移模型是一种基于深度学习的图像处理技术,可以将一张图像的风格转移到另一张图像上。该模型…

算法-简单-二叉树-翻转、对称

记录一下算法题的学习8 翻转二叉树 翻转二叉树题目 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 举例:给定root[5,3,7,2,4,6,10] 翻转成为root[5,7,3,10,6,4,2] 即所有的根节点的左右节点都要互换位置,输出的…

〖大前端 - 基础入门三大核心之JS篇㊴〗- DOM节点的关系

说明:该文属于 大前端全栈架构白宝书专栏,目前阶段免费,如需要项目实战或者是体系化资源,文末名片加V!作者:不渴望力量的哈士奇(哈哥),十余年工作经验, 从事过全栈研发、产品经理等工作&#xf…

【寒武纪(10)】linux arm aarch 是 opencv 交叉编译与使用

文章目录 1、直接找github 别人编译好的2、自主编译参考 3使用CMake检查 参考 1、直接找github 别人编译好的 测试很多,找到一个可用的。 https://github.com/dog-qiuqiu/libopencv 它用了超级模块! OpenCV的world模块也称为超级模块(supe…

NX二次开发UF_CAM_ask_opt_template_object 函数介绍

文章作者:里海 来源网站:里海NX二次开发3000例专栏 UF_CAM_ask_opt_template_object Defined in: uf_cam.h int UF_CAM_ask_opt_template_object(UF_CAM_opt_t * opt_object ) overview 概述 This function provides the object which is used to in…

Python如何将项目直接打包为一键整合包

目录 一、准备项目 二、创建打包文件 三、创建安装脚本 四、执行安装 五、测试安装 六、常见问题与解决方案 总结 Python项目打包成一键整合包是一个比较复杂的任务,需要考虑到项目的各个方面,包括依赖项、配置文件、静态文件、数据库等等。下面是…

澳洲猫罐头如何?我亲自喂养过的优质猫罐头分享

猫罐头要符合三点:营养配方完整均衡、原料新鲜优质、生产工艺科学可靠。只有具备这些特点,才是品质上乘的猫罐头。 猫罐头的三个要素,一个都不能少。配方不均衡,营养就不足;原料不新鲜,生产出来的猫罐头就…