A Lightweight Deep Residual Attention Network for Single Image Super Resolution
(一种用于单幅图像超分辨率的轻量级深度残差注意力网络)
本文将稀疏编码技术应用于基于学习的文本图像超分辨率(SR)中,以提高光学字符识别(OCR)的准确性。对于单幅图像SR,我们创建了一个数据驱动的模型,具有深度残差注意力。深度残差注意力算法建立在一个新的深度架构,具有较高的代表性的能力。在所提出的方法的架构由一个残差网络和一个双注意力网络。通过使用通道注意和空间注意技术实现特征的重新校准。该模型使用残差图来恢复丢失的高频特征,并有助于克服较低的空间分辨率问题。
INTRODUCTION
在现代,数字化的必要性正在迅速增加。由于信息和通信技术(ICT)的增长以及手持设备的广泛可用性,人们通常更喜欢数字化内容而不是包括书籍和报纸在内的印刷材料。此外,利用自动化和人工智能等许多先进技术,更容易组织数字化数据并对其进行分析。因此,为了跟上目前的技术情况,有必要将所有印刷格式的当前信息转换为数字化形式。光学字符识别的主要任务是识别图像中的印刷文本。光学字符识别(OCR)帮助我们完成繁琐的数据数字化工作。OCR是计算机视觉中的一项重要任务,具有许多应用。可用于卡号识别、车牌识别、文档内容提取等。图1示出了OCR系统的不同阶段。
图像遭受许多问题,如图像模糊、每单位面积较少的像素来传达细节、缺乏高频细节、图像中的噪声等。OCR的目标是输出一幅图像,用于准确的字符识别;因此,如果输入的文本图像是低分辨率的,则识别精度将是不可接受的。对于低分辨率输入图像,在执行OCR操作之前增加分辨率将是有用的。因此,图像获取过程涉及扫描文档并将其存储为必须应用识别的图像。因此,需要一些预处理,使得图像变得对于OCR识别嵌入的信息而言适度容易。这就像是根据场合打扮。图像的可读性应足以使OCR系统正确地解释信息。然而,图像的可读性可能较差有三个主要原因。
1)低分辨率图像缺乏高频细节,并且具有关于场景的不完整信息(不适定问题)。因此,图像中没有规则性。
2)图像拍摄不正确。它们可能会因各种异常而失真,包括阴影、闪光反射或运动、照明不足或对焦不当。例如,考虑拍摄太大而不能容纳在单个图像中的货币收据的照片,通常不可能捕获整个信息。结果,图像是在远离收据的地方拍摄的,因此降低了可读性(即,模糊或不完整的细节)。
3)图像可以被高度压缩。有时在忙碌时间下载图像期间,Web可能会自动降低分辨率,从而使其无法用于OCR。
虽然有几个原因为什么接收到的照片是低质量的,在许多情况下,图像仍然是清晰的从人类的角度来看。然而,在大约40%的情况下,人可以读取输入图像,但OCR无法提取完整的数据。对于OCR,我们提出了一个单一的图像超分辨率(SISR)在本文中的解决方案。通过增加输入图像的分辨率(其已被上述因素降低),其寻求改善OCR的输出。主要目标是提高图像分辨率,使其可以被人以及OCR读取。
Contributions
1)该方法利用通道注意和空间注意的概念实现特征的重新标定,并利用残差的概念保留高频细节。
2)有效增强图像中的高频细节,有助于提高OCR性能和其他实际应用。
RELATED WORK
为了提高计算效率并充分利用深度学习技术自动提高分辨率,研究人员通过在模型之后合并端到端可学习层来取代预定的上采样,从而在低维空间中执行大部分计算。LR输入图像被馈送到深度CNN中,而不增加该架构的分辨率,特别是后上采样SR,并且在网络的末端添加端到端可学习的上采样层。由于这种具有高计算成本的特征提取过程仅发生在低维空间中并且在最后上采样,因此计算和空间复杂度大大降低。因此,这个框架也演变成了最广泛使用的架构之一。
Residual Learning
He等人提出了使用残差而不是完整映射来学习的ResNet,从那时起SR模型已经广泛使用残差学习。残差学习技术可以基本上被分成全局残差学习和局部残差学习,如下文所述。
1) Global Residual Learning:
图像SR是当输入图像和输出图像高度相关时的图像-图像平移问题。研究人员试图只学习它们之间的残差或全局残差学习。在这种情况下,避免了学习从一个完整图像到另一个完整图像的复杂变换,有利于仅学习残差图以恢复丢失的高频信息。模型的复杂性和学习难度显著降低,因为残差几乎接近于零。因此,它被SR模型广泛应用。
2) Local Recurrent Learning:
局部残差学习用于解决持续扩展网络深度所导致的退化问题,降低训练难度,并增强学习能力。它相当于ResNet中的剩余学习。局部结果学习在文献[15]-[18]中得到了广泛的应用。
PROBLEM DEFINITION
Problem
图像超分辨率是在最小化质量损失的同时放大微小图像的过程,或者通过从低分辨率图像中捕获丰富的特征将其转换为高分辨率图像的过程。对于给定的低分辨率图像有许多解决方案,使得这个问题极具挑战性。这方面的应用包括卫星和航空图像的研究、医学图像处理、压缩图像/视频增强等。低分辨率图像y是从参考高分辨率图像获得的,如由⑴给出的:
LR图像存在模糊、噪声、不适定(丢失信息)和低空间分辨率等问题。为了克服这些问题,提出了基于深度学习的架构以提高OCR性能。
Evaluation Method
两种常用的定性性能指标用于评估:PSNR和SSIM。这些是基于亮度。令X和X分别表示低分辨率输入图像和重建的高分辨率输出图像。
结构相似性指数(SSIM)也用于测量图像之间结构的相似性,基于在亮度、对比度对M×N个像素的^X结构方面的独立比较。
PROPOSED METHOD
拟议模型由三个部分组成:浅层特征提取(SFE)、深层特征提取(DFE)和恢复如图3所示。在算法1和2中,表示浅特征块和深特征块的流程
Dual Attention (DA) Block
双注意(DA)块从卷积流中提取特征。这表明,需要一种机制来在特征图内沿着空间和通道维度共享信息,这是由DA块执行的。DA块会抑制不太有用的功能,只允许继续提供更多信息。.使用通道注意力和空间注意力技术,这个功能重新校准完成。根据图4、图5和图6,DA块由空间关注块和信道关注块组成。在算法3中,表示双注意力块工作。
通道注意分支使用挤压和激励操作来利用卷积特征图的通道间关系。为了对给定特征图的全局上下文进行编码,挤压操作跨空间维度应用全局平均池化(GAP),从而产生特征描述符。该特征描述符被呈现给两个卷积层、Sigmoid和激活操作输出的激励算子。使用激活层的输出重新缩放输入特征映射会导致通道注意分支的输出。
要利用卷积特征的空间依赖性,请使用“空间注意力”分支。为了重新校准输入图像的特征,空间注意力的目的是创建空间注意力图。“空间注意力”分支在连接结果以生成空间注意力图之前,沿着通道维度对输入要素独立执行“全局平均池化”和“最大池化”操作。为了创建空间注意力图,特征图被卷积,然后被激活。为了缩放输入特征图,采用该空间注意力图。
如算法6所示,DFE块的输出然后被给予重建块。
Loss Function
在SR领域,图像恢复或重建通常使用回归损失和损失函数进行模型优化。在所提出的模型中,损失函数,即,像素丢失,测量两个图像之间的像素差异。所提出的损失函数,即L2(均方误差)如下所示。