今天要分享的论文是2023CVPR《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》,图像恢复领域的又一力作,提供了新的发现,给出了新的解决方案
代码
https://github.com/ofsoundof/GRL-Image-Restoration
问题
对全局、区域和局部范围内图像层次结构进行建模
有效地建模高维图像中的全局范围特征以进行图像恢复
联合建模如何为不同的图像恢复任务带来统一的性能提升
发现
自然图像两个重要属性,跨尺度相似性和各向异性图像特征
1、 跨尺度相似性意味着自然图像中的结构在不同尺度上被复制。不同尺度的图像特征可能具有相似的性质。例如,在图像的低分辨率下,图像可能呈现出整体的形状和轮廓,而在高分辨率下,图像可能呈现出更多的细节和纹理。在不同尺度上的图像特征之间存在相似性。通过利用这种相似性,自注意力机制可以更好地捕捉图像中的多尺度信息,从而提高模型的表现。
2、 各向异性意味着不同方向上的图像特征可能具有不同的重要性和显著性,例如人脸图像中的眼睛、嘴巴等特征通常在特定方向上更为突出。因此,图像的特征通常具有各向异性的性质。在自注意力机制中,通过引入各向异性特征,可以更好地捕捉图像中的空间依赖关系,从而提高模型的表现。
局部特征(颜色和边缘,几个像素范围)和区域特征(局部结构,数十个像素)可通过CNN和窗口自注意力很高的建模,很难在全局特征(整体结构:对称性,多尺度模式重复,相同尺度纹理相似性,大物体和内容的结构一致性和相似性,超过数十个像素)进行建模
解决
提出锚定条纹自注意力,可以在时空复杂性添加自注意力和对超出区域范围进行建模,使用锚作为中间体近似自注意力的query和key之间注意力图,将图像信息降低到低维空间,为添加各向异性图像特征,在垂直和水平方向添加锚定自注意力
提出GRL网络模型,使用锚定条纹自注意力,窗口自注意力和通道注意力增强卷积来建模全局、区域和局部范围的图像层次结构