Real-ESRGAN:Training Real-World Blind Super-Resolution with Pure Synthetic Data

news2025/1/21 18:54:14

https://github.com/NightmareAI/Real-ESRGAN/tree/masterhttps://github.com/NightmareAI/Real-ESRGAN/tree/master从SRCNN到EDSR，总结深度学习端到端超分辨率方法发展历程 - 知乎超分辨率技术（Super-Resolution, SR）是指从观测到的低分辨率图像重建出相应的高分辨率图像，在监控设备、卫星图像和医学影像等领域都有重要的应用价值。本文针对端到端的基于深度学习的单张图像超分辨率方法(Si…https://zhuanlan.zhihu.com/p/31664818Real-ESRGAN超分辨网络 - 知乎对超分有兴趣的同学们可直接关注微信公众号，这个号的定位就是针对图像超分辨的，会不断更新最新的超分算法解读。正文开始论文： Real-ESRGAN: TrainingReal-World Blind Super-Resolution with Pure Synthetic D…https://zhuanlan.zhihu.com/p/393350811一.esrgan

srcnn->srgan->esrgan->realesrgan

esrgan主要是从3个方面对srgan进行改进，网络结构，对抗损失，感知损失。

a.网络结构：

1.移除了BN层，BN很多时候是伪影产生的原因，因为训练时是批数的均值方差，但是推理是全数据集的均值方差；2.将原始的resblock替换为residual-in-residual dense block.

b.对抗损失：

第一张图是sigmoid，第二张图是esrgan的relativistic discriminator，segma是sigmoid，标准的Gan是为了让真是图像的判别结果的概率更趋近于1，生成图像的判别结果概率更趋向于0，改进后的relativistic average discriminator，判别器对真实数据判别的原始值大于对生成数据判别的原始值，则第一个等式左侧，有C(REAL)-E(C(FAKE))>0，C是判别器结果，E是均值期望，且差值越大，表明两者距离越远，也就是该值经过sigmoid后的值越接近1，因此D的目的就是该值越接近1，real和fake直接的差距足够大，这就能将真实图片和生成图片很好的区分开。第二个等式，C(FAKE)-E(C(REAL))<0，差值越小，负值越多，表明两者距离越远，经过sigmoid后值越接近0。

生成器的目标函数如下：

判别器是为了更好的区分真实和生成，生成器是为了更难区分真实和生成。

c.Perceptual loss

提出了一种再vgg激活层钱获取感知损失（通过计算sr和hr的特征图之间的距离），而非传统srgan在激活层后计算感知损失，再激活层后计算感知损失有2个缺点，

1.激活层后的特征是已经稀疏化的，越深的网络越明显，稀疏的特征会导致更弱的监督，从而导致网络性能变差。

2. 使用激活层后的特征图计算感知损失会使得重建图像的亮度和gt不一致。

二、real-esrgan

real-esrgan和esrgan是同一个作者，esrgan提出的方法和思路被后续的很多论文借鉴。real-esrgan提出了四点对esrgan的改进，1.新的数据集构建方法，增强降阶图像的复杂度，2.构造数据集时引入sinc filter，解决了图像中的伪影，3.替换esrgan中的vgg-discriminator，使用unet-discriminator，4.引入spectral normalization以稳定复杂数据集和unet-discriminator带来的训练不稳定。

a.数据集构建

造成图像模糊的原因，包括，拍摄的手机，传感器噪声，相机模糊，图像编辑，图像在网络中的传输，JPEG压缩以及各种各样的噪声。

First-order：

first-order降级模型其实就是常规的降级模型，x表示降级后的图像，D表示降级函数，y代表原始图像，k代表模糊核，r代表缩小比例，n代表加入的噪声，JPEG代表进行压缩，每一种降级方法有多重方案可以选择

high-order由于使用相对简单的降级方法，很难模仿真实世界中的图像低分辨率情况，high-order是为了使用更复杂的降级方法

上式就是对first-order进行多次重复操作，也就是每一个D都是执行一次完整的first-order降级，作者通过实验得出，当执行2次first-order时生成的数据集效果最好，因此上图就是high-order的流程图。

为了解决超分图像中的ring和overshoot现象，在构建降级模型时引入了sinc filter，

上图表示实际中的振铃和折冲伪影现象，下图表示通过sinc filter设置不同的因子人工模仿的振铃和折冲现象，sinc filter在两个位置进行设置，一是每一阶的模糊核k的处理中，也就是在高斯模糊之后，设置sinc filter，二是在最后一阶JEPG压缩时，设置sinc filter。

b.网络结构

生成器还是esrgan，对于x1和x2的超分时先进性pixel-unshuffle（pixel-shuffle的反操作，pixel-shuffle可理解为通过图像的通道而对图像尺寸进行放大），以降低图像分辨率为前提，对图像通道数进行扩充，然后对处理后的图像输入网络进行超分重建，对于一幅图像，若只想x2放大变清晰，需先通过pixel-unshuffle进行2被缩小，通过网络进行4倍放大。