MSAR-Net: Multi-scale attention based light-weight image super-resolution
(MSAR-Net:基于多尺度注意力的轻量化图像超分辨率)
近年来,单幅图像超分辨率(SISR)技术在视频和图像处理领域得到了广泛的应用,其目标是从输入的低分辨率图像中保留丢失的结构和纹理信息。卷积神经网络(CNNs)的巨大成功彻底改变了SISR领域。然而,对于大多数基于CNN的SISR方法,在参数和触发器方面过度的存储器消耗阻碍了它们在低计算能力设备中的应用。此外,不同的最新SR方法通过平等地对待对网络性能有贡献的所有像素来收集不同的特征。本文综合考虑性能和重构效率,提出了一种用于SISR的轻量级多尺度注意残差网络(MSARNet)。MSAR-Net由用于特征细化的多尺度注意力残差(MSAR)块和用于提取的多尺度特征的边缘细化的上下采样投影(UDP)块组成。这些块能够有效地利用多尺度边缘信息,而不增加参数的数量。特别地,我们以渐进的方式设计网络,用小尺度因子(×2)组合代替大尺度因子(×4)组合,从而逐步利用层次信息。同时,为了以全局和局部方式调制多尺度特征,使用MSAR块中的信道和空间注意力。在合成的基准超分辨率数据集上,可视化结果和PSNR、SSIM的定量指标验证了该方法的准确性。实验分析表明,该方法在内存占用、推理时间和视觉质量方面均优于现有的SISR方法。
介绍
单幅图像超分辨率(SISR)虽然是一个古老的图像复原问题,但仍然是研究界的一个非常热门和迫切的课题。该技术在许多应用中找到了它的方式,如面部分析、视图合成、深度图估计。很多时候,目标检测、图像分割、图像分类等高级任务的准确性取决于重建的高分辨率图像。超分辨率(SR)问题是一个病态问题,即一幅低分辨率(LR)图像可能对应多幅高分辨率图像,这使得超分辨率问题具有很大的挑战性,引起了学术界越来越多的关注。在过去的几年里,随着卷积神经网络(CNN)的出现,SR模型已经显示出上级的结果,完全盖过了传统的插值和基于实例的方法。Dong等人介绍了基于CNN的SISR模型领域的先驱工作,并通过采用基于预上采样的SR框架显示了显著的改进。提出了使用相同预上采样框架的几种模型,如MemNet、DRRN,在学习策略和网络深度方面存在细微差异。与上述利用预处理图像的方法相反,许多作者提出在低维空间中提取特征,并使用亚像素卷积或转置卷积在网络末端进行上采样。Lim等人提出了一种非常深的随机共振网络,其优越的性能超越了当时所有的随机共振方法。此外,Lai等人引入了渐进式上采样方法,其中每个水平需要通过学习预测结果和上一水平的上推来预测残差。为了有效地使用特征,Ahn等人在残差网络上使用了级联结构。然而,这些方法没有充分利用LR图像的特征,使得难以重建真实的SR图像。
在各种工作中,为了强调更好的特征探索,使用了多尺度特征。Li等人提出了多尺度超分辨率领域的第一项工作。但是,交叉连接的体系结构导致模型复杂,增加了计算成本。Zhen等人利用了SISR反馈机制的概念。Hu等人提出了一种用于高频细节重建的多尺度信息网络。Lu等人探索了多尺度残差特征,以获得更好的特征提取。最近,Wang等人探索了SISR中稀疏性的概念。尽管由上述SR技术带来了相当大的改进,但是需要开发用于在单个网络中合并特征表示和边缘增强能力的专用方法。考虑到上述问题,在所提出的框架中,在每个多尺度注意残差块之后,使用一种新的上下采样投影块来收集高频信息。
关注特征空间或通道相关性的注意力机制在图像超分辨率领域也显示出良好的效果,基于注意力的SR网络的提出显示出令人印象深刻的性能,但代价是大量的参数。Hu等人遵循针对高级视觉问题提出的想法,利用通道和空间注意机制,表现出更好的性能。由于注意块的有效性,我们提出的方法进一步将组合注意模块嵌入到提出的残差块中。但是仍然自然地出现了一个问题,是否可能具有能够促进图像内容的理解的有效的合并框架,具有更少数量的参数?显然,增加层深度将导致梯度消失、计算负担问题。因此,为了用较少的参数提高重建性能,我们提出了一种轻量级的MSAR-Net,在单个网络中同时利用特征和边缘信息。
贡献
1)我们提出一个渐进的多尺度网络,以较少的参数顺序探索层次信息。这种轻量级架构使得可以有效地处理图像特征以实现高质量的图像恢复。
2)提出了多尺度注意残差(MSAR)块用于自适应地捕捉特征之间的多尺度相关性,以及上下采样投影(UDP)块用于提取的多尺度特征的边缘细化。
相关工作
在过去的十年中,计算机视觉界已经提出了过多的工作,包括基于插值、基于学习和基于CNN的方法。SRCNN 是第一个深度学习框架,为超分辨率领域的许多伟大作品铺平了道路。Lai等人提出了一种用于超分辨率重建HR图像子带残差的深拉普拉斯金字塔网络。Zhang等人通过剩余稠密块提取了丰富的局部特征,使得前一个关系数据库可以直接连接到当前关系数据库的所有层。此外,Jiang等人进一步探索了分层密集连接的思想,以获得更好的特征表示。在ResNet中残差块的成功之后,提出了EDSR和DRRN的非常深的网络。Liu等人提出了一种通过残差特征聚合(RFA)网络来探索特征的新方法。提出了几项研究,重点关注网络的轻量化设计和利用特征信息之间的差异。为了克服深宽网络中固有的计算复杂性,进一步提出了类似的方法。
近年来,使用基于注意力的网络来进一步提高SR网络的性能成为一种发展趋势。自从Zhang等人在残差块中引入信道注意机制以来,注意机制一直是SR应用的布恩。Hu等人遵循高级视觉问题中提出的想法,利用通道和空间注意机制,并表现出更好的性能。自那时以来,已经提出了诸如SAN、CSFM和RNAN之类的若干其他方法来自适应地处理视觉信息并关注显著区域。
方法
图1所示的拟建网络的整体管道由三个模块组成:(1)特征提取模块(FEB)处理LR输入图像以收集鲁棒特征,(2)多尺度注意力残差(MSAR)模块的堆叠,用于在探索特征之间的关系之后执行非线性映射,(3)上下投影(UDP)模块,用于执行所提取特征的边缘细化。特征提取模块由两个3 × 3卷积层组成,通过采集输入的激活信息提取特征,生成LR特征图。方程式(1)定义了FEB的基本功能。
我们使用像素混洗作为上采样层。值得一提的是,以不同尺度处理信息并随后进行汇总有助于为下一阶段提取特征,从而使模型能够提取各种信息。此外,在模型中使用残差连接,这有助于消除梯度消失的问题,从而最终稳定训练过程。
Multi-scale attention residual block
使用了一个整体渐进的多尺度模型,以获得更好的特征相关性,同时在网络中移动得更深。与现有文献中提出的其他残差和起始块不同,已经进行了增加感受野以更好地提取特征的尝试。为了将可用资源分配给图像中信息量更大的内容,我们使用了启发的注意力概念。为了进一步提高网络学习更重要特征的能力,设计了空间注意单元和通道注意单元。通过传递来自大小为1、3、5 - 1的并行卷积层的信息而获得的多尺度特征被级联为:
对于局部感受野未收集的进一步上下文信息,使用了全局平均池。我们选择使用Sigmoid函数来提取信道特性,以增强信道之间的非线性相互作用。通道注意块定义如下:
VGP(·)表示平均全局池化操作,以考虑信道方式的空间信息。δ(·)表示Sigmoid函数,λ(·)表示LeakyReLU激活函数。ψCA表示通道注意块的输出。ψresc表示第c个通道特征映射,xc表示ψres空间收缩后的统计量。为了强调通道之间的非线性激活,首先通过32个滤波器和1 × 1核大小的卷积层对获得的特征进行通道方式下采样,然后通过具有64个滤波器的1 × 1卷积层执行通道上采样。为了重新调整输入,将获得的通道统计乘以第c个通道中的特征图,如公式(6)以缩放重要的通道特征。
为了局部地调制特征,已经使用了空间注意单元,其被定义为,
这里,ψSA表示空间注意块的输出。ψMSAR表示MSAR模块的最终输出。Φ(·)表示滤波器大小为3 × 3的深度方向卷积。ψcat代表连接的注意特征。所提出的关注块能够利用通道间和通道内信息,其中深度方向卷积的使用进一步帮助为每个通道生成不同的2D空间关注图。然后,所获得的图通过具有64个滤波器的卷积层,以便更好地细化。为了同时利用这两个模块的优势,我们通过连接将它们组合在一起。
Up and down projection block
在从MSAR块中获得精细特征之后,我们应该通过使用如图1所示的所提出的UDP块来增加图像中高频信息的内容。UDP块的整体操作已经在等式(9)和(10)总结。首先,对MRFE的连续多尺度特征图进行差异性评价。它集中于高频信息,然后将减去的特征传递通过步长为2的上采样层Conv2DTranspose。通过使用跨距为2的卷积层将上采样的特征转换回LR空间。最后的减法运算,输出公式(9)中的ζn有助于去除冗余信息。等式(10)所示的加法运算,结合ψUDP输出,提取清晰图像重建所需的相关特征,从而增强多尺度特征。此外,来自所有UDP块的特征被加在一起以用于更好的梯度传播。最后将所有的残差特征和边缘特征进行拼接,充分利用多尺度边缘特征。