SwinIR发表在ICCV'21,它核心创新在于使用了SwinTransformer(同年ICCV best paper)进行图像修复,由ETH的CVL提出,大组还是抓前沿抓得好,不仅能想到,还能做出来性能,而且性能还是稳定的增益,通用性强。
目前,SwinIR的引用是2k+,是目前生成式复原模型,广泛使用的修复模型。
这体现出了arxiv的魅力。如果SwinTransformer不提前挂arxiv,也就没有SwinIR。
Q1:假设时间拨回到21年,如果想到swintransformer可以用来做图像修复,first-try是什么?
A1:swintransformer直接替换cnn。
Q2:那么这样做的问题是什么?
A2:首先是图像块的边界失真问题(boderline artifacts),其次边界处的像素由于丢失了相关其他信息而难以修复好。
Q3:不直接在图像上分块能不能避免这个问题?特征能否也考虑cnn的,至少最差也有cnn特征可以使用?
A3:在特征上进行分块,弱化这个问题。其次,使用cnn提取浅层特征,采用residual的结构,这样让swintransformer集中在高频信息学习上。
到此为止,网络结构呼之欲出。
优雅!有效~
由于这是architecture paper,实验中对于结构的ablation study放在了最前面。很喜欢这个探索。
接着是在各个应用上的探索,包括Image SR,JPEG Artifacts Reductuion,Image Denoising充分验证这个修复模型的通用性。
最后,也是我最喜欢的motivation部分。
cnn进行图像修复的问题有2个。动机1: 图像和卷积核的关联性是content-indepent。使用相同的卷积核去修复图像的不同区域也许不是个好选择;动机2: 局部处理的特性使得卷积对于long-range dependency modelling而言并不高效。
swintransformer完美将transformer和cnn优点相结合。首先,由于局部注意力机制,可以像cnn处理大尺寸图。其次,由于shifted window机制,可以很好地具备transformer的model long-range dependency能力。
最终,选择swintransformer是个必然。而且提出了一个实际可用,易于扩展的结构。