Background Knowledge
基于推理的视觉理论:
-
只根据图像数据本省不能对相对应的物体空间结构提供充分的约束,也就是说这是一个约束不充分的问题,因此为了理解图像的内容必须要有附加的约束条件(例如知道图中是哪一类物体的知识),利用附加的高层信息等额外信息,可以去除多义性解释的通用约束。
-
图像先验(Image Prior):
就是我们已知的关于图像的各种属性信息,可以用来减少可行解的数量。 -
图像块(Image Patch):
就是像素块的容器,可以类比为卷积操作时的window,往往某些图像操作任务中对于图像块的操作往往要比操作整个图像要容易。
Motivation
- Modeling the internal distribution of patches within a single natural image has been long recognized as a powerful prior in many computer vision tasks.
计算机视觉对于图像重建修复一类问题,有前
- 也就是说 对于很多计算机视觉任务来说,通过一个单张自然图片建模内部的块分布一直以来被认作是一个很强的先验。
- 为了发现同样好的有代表性的外部块表示信息,需要一种外部的具有上百张的外部数据库。
- 一张图片内部的统计规律比外部统计规律要有更强的预测能力,潜在说也就是有更多强大的对于特定图片的先验在里面。
首先块信息趋向于重复多次在同一张图片中,这种重复要比外部的自然图片集合要更多。
所以作者想要通过一张图片内部的信息去进行图像修复任务等图像处理应用。那么作者也做到了就是通过sinGAN去产出了很多可以保留训练图片内部块统计信息分布的高质量结果。
Multi-scale architecture
- 全卷积网络(FCN),可以生成图片具备任意的尺寸和纵横比
- image retargeting:display images without distortion on different size of screen.
Results
- 最粗尺度下的最小维度是25px
- N(尺度数)受限于缩放因子r,r尽可能和4/3接近
- 对于所有结果,我们调整训练图片到最大维度250px
effect of scales at a test time
在单次测试中,我们的多尺度架构允许控制样例的变化性通过选择开始时生成的尺度。
从图片中我们可以看出,如果我们从粗糙尺度下进行生成样本,我们得到的结果是不自然的,如果从精细一点的尺度去生成样本那么这个整体的结构不会出现不自然的5条腿,只会出现斑纹级别尺度的不同。
Effect of scales during training
可以看出在小数字尺度下由于感受野比较小,我们捕捉到的信息是比较精细的,类似纹理信息而在大数字尺度下,我们就能捕捉到全局信息。