0. 摘要
研究背景和意义
在人类视觉感知系统中,高分辨率(HR)图像对于清晰表达空间结构、细节特征、边缘纹理等信息至关重要,在医学、刑侦、卫星等多个领域具有广泛实用价值。超分辨率图像重建(SRIR)旨在从低分辨率(LR)图像中重建出含有清晰细节特征的高分辨率图像,是计算机视觉和图像处理领域的重点研究任务。
研究内容和方法
- 算法分类阐述:首先对超分辨率图像重建的概念和数学模型进行阐述,然后系统地将图像重建方法分为基于插值、基于重构、基于学习(深度学习前、后)三类超分辨率图像重建方法。
- 算法综述:对三类方法中典型、常用和最新的算法及其研究进行全面回顾和综述。从网络结构、学习机制、适用场景、优势和局限性等方面对所列的图像重建算法进行梳理。
- 数据集和评价指标归纳:归纳总结了超分辨率图像重建算法所用的数据集和图像质量评价指标。
- 算法性能比较:重点比较基于深度学习的各种超分辨率图像重建算法的特点与性能。
研究展望
从四方面对超分辨率图像重建问题未来的研究方向或角度进行展望。
关键词
图像处理;超分辨率重建;深度学习;图像质量评估
1. 概述
1.1. 概念
从给定低分辨率(LR)图像中重建含清晰细节的高分辨率(HR)图像,是计算机视觉和图像处理重点任务。
1.2. 数学模型
2. 基于插值的图像重建方法
2.1. 线性插值算法
最近邻插值法:插值点直接以与其欧式距离最短的像素点的灰度值为自身插值后的灰度值。
双线性插值法:从垂直、水平两个方向对相邻的四个像素点进行线性插值。
双三次插值法:将临近区域内四个相邻像素点扩充到十六个相邻像素点,使用三次插值多项式后进行加权平均计算。
2.2. 非线性插值算法
边缘导向插值法:对 RGB 三色图像的边缘信息进行约束、放大。
梯度引导插值法:利用邻域内一阶梯度、二阶梯度的信息调整梯度分布和像素分布。
小波变换插值法:利用小波变换所具有的局部细化特点,将图像特征信息分解到不同尺度上独立研究与分析后,将提取的特征信息叠加融合后再用小波逆变换提高图像分辨率。
3. 基于重构的图像重建方法
3.1. 频域法
在傅里叶变换频域内消除 LR 图像的频谱混叠,对多幅 LR 图像进行傅里叶变换实现超分辨率图像重建。
3.2. 空域法
非均匀内插法:对抽象出的非均匀分布的 LR 图像特征信息进行拟合或插值得到分布均匀的 HR 图像特征信息。
迭代反向投影法:解决超分辨率图像重建算法对图像先验信息的高依赖性问题。
凸集投影法:利用 HR 图像的正定性、有界性、光滑性等限制条件对重建图像的边缘信息和结构细节信息进行保留。
最大后验概率法:在已知 LR 图像序列信息和 HR 图像后验概率达到最大的前提下,对 HR 图像进行图像特征信息估计。
MAP/POCS 法:将 POCS 和 MAP 结合,在 MAP 迭代优化过程中加入 POCS 约束凸集中的先验条件。
4. 基于学习的图像重建方法
基于学习的图像重建方法主要是集中学习给定图像数据集的图像特征信息,建立LR 图像与HR 图像之间的图像序列先验关系,再通过超分辨率图像重建算法实现图像重建。
黄色实线表示HR图像通过降采样变为LR图像,绿色实线表示LR图像通过上采样变为HR图像,黑色实线表示HR图像与LR图像之间的图像序列信息之间建立的图像序列先验关系。
4.1. 深度学习前的图像重建算法
基于样例学习法:通过对原始 HR 图像实施退化操作,建立训练图像特征信息库来学习 HR 图像的先验信息。
邻域嵌入法:以图像块为单位对图像特征信息进行提取,构建特征信息库对 LR 图像块和 HR 图像块进行加权求和以实现 HR 图像重建。
稀疏表示法:重点以字典学习和稀疏编码为核心来实现图像重建效率与重建质量的有效提升。
4.2. 深度学习后的图像重建算法
由于深度学习在计算机视觉、自然语言处理、数据挖掘、机器翻译等领域有着较好的应用。对此,不少学者将深度学习与SRIR结合,使得 SRIR技术从最初小规模的三层训练模型到如今大规模的深层训练模型,运算速度、图像精度、网络结构深度都发生了质与量的变化。
且深度学习在超分辨率图像重建问题中的应用结果表明:该类型算法不仅是从深层次网络结构去改变对图像特征的提取与重建,而且还解决了网络结构加深所带来的过拟合、梯度消失或爆炸、模型参数量急剧增加、网络不收敛或不稳定、参数不能自我优化等问题,使得图像获得多尺度、多细节的图像信息。
通常,基于深度学习的超分辨率图像重建算法是在原有的基础网络上融入新的网络结构。
比如: 多个残差块堆叠而成的残差网络,多个跳跃长(短) 连接与残差块组建的密集连接网络,多个递归单元组成的递归神经网络,集中学习各个通道特征、层特征、空间特征的注意力机制,加强图像连续性学习、传递的记忆力机制以及低频信息与高频信息共享权重的反馈机制,如图5所示。
表3以表格的形式呈现出基于深度学习的超分辨率图像重建算法深层次网络结构的类型、相关作用和使用这些网络结构的代表算法。
本文主要从两方面基于深度学习的超分辨率图像重建算法进行详细介绍:
(1)基于卷积神经网络 (convolutional neural network,CNN)的深度学习图像重建算法直接对 LR 图像和 HR 图像进行端到端映射学习,弥补以往算法对高频细节信息丢失的缺陷,同时简化其学习过程;
(2)基于生成对抗网络(generative adversarial network,GAN)的深度学习图像重建算法利用“对抗博弈”思想,将模型训练无监督化,借助反向传播不断优化模型来缩减原始图像与重建图像之间的差距。
4.2.1. 基于卷积神经网络
SRCNN
首次将卷积神经网络与超分辨率图像重建技术结合,通过大量卷积对输入的 LR 图像进行特征提取。
FSRCNN
针对 SRCNN 算法处理图像细节不足、网络计算量大、网络运算速率低等问题,我们在其基础上提出的改进算法FSRCNN,旨在加速当前的 SRCNN,并提出一种紧凑的沙漏形 CNN 结构,以实现更快、更好的 SR。
主要从三个方面重新设计了 SRCNN 结构。
首先,我们在网络的末端引入一个反卷积层,然后直接从原始的低分辨率图像(没有插值)学习到高分辨率图像的映射。
其次,我们通过在映射之前缩小输入特征维度并在映射之后扩展来重新构建映射层。
第三,我们采用更小的滤波器大小,但更多的映射层。所提出的模型实现了 40 倍以上的加速,甚至具有卓越的修复质量。
此外,我们还介绍了可以在通用 CPU 上实现实时性能,同时仍保持良好性能的参数设置。还提出了相应的传输策略,用于跨不同放大因子进行快速训练和测试。
教师学生网络
Lee等人利用教师网络对HR图像进行二次采样提取图像中间特征,再传递给学生网络进行训练,大幅度提高了FSRCNN的网络性能。
VGG 网络
亚像素层
残差网络
注意力机制
递归神经网络
密集连接网络
混合网络
AdderNet
4.2.2. 基于生成对抗网络
SRGAN
首次将生成器网络与判别器网络对抗训练应用到超分辨率图像重建当中。
EDSR
ESRGAN
NatSR
SMSR
SRFeat
LatticeNet
TESRGAN
SRAC
IRN
CDC
LapSRN
SA-SR-GAN
HAN
MASA-SR
5. 实验数据
5.1. 深度学习前
5.2. 深度学习
6. 图像质量评价
6.1. 主观评价
定义
观察者通过眼睛观察重建的 HR 图像,依据在色彩、清晰度、噪音、质感等方面对图像综合评价。
局限性
观察者生理、心理对图像颜色、结构、纹理敏感度不同,评价易停留在表面信息,忽略深层信息。
6.2. 客观评价
定义
通过一定指标衡量原始图像与重建图像之间的接近度。
全参考型评价方式(FR - IQA)
表7 给出部分基于深度学习的超分辨率图像重建算法在部分数据集上PSNR与SSIM的测试结果。
7. 结束语
7.1. 现状总结
提高图像质量的方式:
方式1:对采集图像的设备源硬件性能进行升级。
方式2:对图像进行分辨率处理的软件(或算法)进行改进。
方式2的本质:
运用一定的算法来提高重建图像的质量,以便LR图像恢复至含有更多细节信息的HR图像。
方式2总结:
现有的问题:
想提出在各方面(网络深度、运算速度、图像精度、时间复杂度等)都高效的算法十分困难,且大多数算法使用的图像都是特定的,导致其适用的范围较窄。
7.2. 未来研究方向
均衡网络训练各方面的关系(各方面都高效)
- 均衡速度与精度间的关系:现有算法常牺牲运算速度提高精度,有效、快速、准确提取低频和高频信息是重点研究方向。
- 均衡效率与深度间的关系:加深网络深度可提升图像细节但会降低网络效率,在保证网络效率前提下适当增加网络层数需进一步研究。
传统方法在深度学习方法中的延续(深度学习方法与传统方法相结合)
- 基于深度学习的算法虽能挖掘细节,但会使一些简单特征缺失或忽略高频信息。
- 可利用传统算法特性,如小波变换、稀疏编码、基于样例学习法、边缘导向插值法等提高图像重建性能。
面向生活中各类真实场景(针对场景提出算法)
- 超分辨率图像重建可应用于交通、医学、航空等领域及人脸、指纹、车牌识别等小领域,帮助解决问题。
- 构建更适合真实场景图像的算法,将 LR 图像重建成更贴合人眼的 HR 图像是研究重点。
重建图像的质量评估方式(提出新的评估方式)
- 现有的 MSE、PSNR、SSIM 等客观评价方法不能准确反映图像重建质量。
- 寻找更贴合人眼视觉感知的图像质量评估方法是未来研究重点。