Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)_studyeboy的博客-CSDN博客_分辨率稳健的大掩膜修复[Paper] Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)[Code]saic-mdal/lama基于傅里叶卷积的分辨率稳健的大型掩码修复现在的图像修复系统,尽管取得了重大进展,但经常与大面积缺失区域、复杂几何结构和高分辨率图像做斗争。我们发现造成这种情况的主要原因之一是修复网络和损失函数都缺乏有效的感受野。为缓解这个问题,我们提出了一种称为大蒙版修复(LaMa)的新方法。LaMa基于:1)新的修复https://blog.csdn.net/studyeboy/article/details/120985842Lama:《Resolution-robust Large Mask Inpainting with Fourier Convolutions》解读及实操 - 知乎最近任务需求跟图像inpainting相关,因此调研使用了多个较新的开源模型,例如crfill、RePaint、Lama等。综合比较之下Lama的速度、效果都是最佳的,并且支持自定义输入尺寸进行推理(而非必须固定输入尺寸)。因此…https://zhuanlan.zhihu.com/p/573505798图像修复算是非常实用的技术,之前公司上线过这个接口。修复/擦除/超分类似的任务和抠图分割还有些不同,抠图分割用监督任务还是比较多的,但是修复擦除超分几乎都是自监督的架构,配合gan,都会增加gan损失,都是偏向于使用生成的方法来增加保真度,早期的可能用l2损失unet架构的比较多,类似于去水印这种,拿到原图自己随机增加水印。lama架构上是encoder-decoder的自监督的架构,文章有三点:1.首先在结构上它使用了傅里叶卷积,傅里叶卷积覆盖整个图像范围的感受野,允许生成器从早期考虑全局上下文,除此之外,傅里叶卷积能够捕捉人造环境中常见的周期型结构。2.损失函数,高感受野感知损失和对抗损失组合。3.训练中的大掩膜的动态生成。
1.网络结构
对输入原图,先获取一个二进制掩膜进行遮罩,也就是要给一个输入的去除区域,形成一个四通道的输入tensor,(x*m,m),前向网络是一个生成器,以全卷积的方法获取一个三通道的彩色图像。
先看一下网络结构,左侧是模型结构,右侧是快速傅里叶卷积,快速傅里叶卷积实际上有两部分,一部分是local,一部分是global,local侧是普通卷积,global侧融合傅里叶卷积。网络整体是一个encoder-decoder结构。不同于gan结构,gan结构中有生成器和判别器两部分,此处的encoder-decoder结构对应的是生成器,如果不引入gan损失,只用l1/l2就退化成了分割任务。作者说一个好的架构应该在网络中具有尽可能广泛感受野,resnet的感受野增长缓慢,卷积核通常很小,感受野在早期可能不足,对于高分辨率图像效果不好,傅里叶卷积是完全可微的,是传统卷积的替代品,由于覆盖整个图像的感受野,傅里叶卷积允许生成器网络从早期开始考虑全局上下文,并且能够很好的捕获非常常见的周期性结构,比如砖,梯子,窗户等,在所有频率上共享相同的卷积会使模型朝着尺度协方差方向移动。
2.损失函数
2.1 高感受野感知损失
HRFPL是通过预训练的基础网络对输入图像x和生成图像x'进行特征相似的计算,具体来说是使用空洞卷卷或傅里叶卷积构建的HRF进行逐像素计算,这块我看源码就是每一层的两个特征都进行mse loss的计算,最终再计算个均值。选择一个合适的预训练网络很重要。
2.2 对抗损失
作者定义了一个在局部patch级别的鉴别器,用来区分真假patch,只有与掩膜相交的生成图像上patch才会获得假标签,真实图像上的相应区域则标记为真标签。
2.3 总体损失
对判别器进行梯度惩罚。
Ladv和Ldiscpl负责生成自然外观的局部细节,后者可以稳定训练,LHRFPL负责监督信号和全局结构的一致性。其实就是l2损失负责真正的去除,生成损失负责去除生成的保真度。
3.训练期间的掩膜生成
采用了积极的大型掩膜生成策略,该策略统一使用来自由高随机宽度和任意纵横比扩展的多边形的样本。
4.结果