Blind Face Restoration via Deep Multi-scale Component Dictionaries

中文：基于深度多尺度分量字典的盲人脸复原
paper：
code：https://github.com/csxmli2016/DFDNet

摘要：

近年来，基于参考的人脸恢复方法因其在真实低质量图像上恢复高频细节的能力而受到广泛关注。然而，这些方法中的大多数都需要具有相同身份的高质量参考图像，这使得它们仅适用于有限的场景。为了解决这一问题，本文提出了一个深度人脸字典网络(称为DFDNet)来指导退化观测的恢复过程。首先，我们使用K-means从高质量图像中感知上重要的面部成分(即左/右眼，鼻子和嘴)生成深度字典。接下来，对于降级的输入，我们从相应的字典中匹配并选择最相似的组件特征，并通过提出的字典特征转移(DFT)块将高质量的细节传输到输入。特别是，利用组件AdaIN来消除输入和字典特征之间的风格差异(例如，照明)，并提出置信度评分来自适应地将字典特征融合到输入。最后，逐步采用多尺度字典实现从粗到精的恢复。实验表明，本文提出的方法在定量和定性评价方面都取得了令人信服的效果，更重要的是，在不需要身份归属参考的情况下，可以在真实退化图像上生成真实的、有希望的结果。

1.引言

人脸修复挑战->最近的方法reference-based method->有什么缺点->自己的方法通过提出什么解决了什么缺点。
最后总结，本文主要四个贡献：
1.深度成分字典作为候选参考来指导退化的人脸恢复，不需要相同ID的高质量人脸；
2.提出DFT block ，利用CAdaIN消除输入和字典族之间的分布差异，更好转移字典特征；另外还有置信分数，可以在不同退化等级上自适应融合字典特征
3.在不同特征尺度上采用逐步训练的方式，可以让DFDNet学习到由粗到细的特征
4.不论在合成数据还是在真实退化的图像，都可以有比较好的性能，有真实应用的潜力。

2.相关工作

相关工作主要介绍两点，第一点是单图像修复（Single Image Restoration），第二点是基于参考图像的图像修复（reference-based image restoration）。

2.1单图像修复（Single Image Restoration）

主要介绍目前基于CNN的单图像修复已经取得很多成功，例如图像超分辨，去噪，去模糊，去压缩伪影。针对特殊的人脸结构，同样有很多方法，这些方法包括Huang利用小波系数，Cao利用强化学习-----等人，基于语音分割map的先验信息的的也有…。但是这些方法可能会失败，由于姿势，光照或者先验信息的局限性。
在这里插入图片描述

2.2基于参考图像的图像修复（reference-based image restoration）

基于单图像修复的问题，有些人有额外的图像增加恢复的细节。针对自然图像，但是要找纹理相同的两个对照的图像进行信息的增强，这很难。针对人脸图像比较容易做到，因为相同ID的人脸就可以有相同的人脸组分结构。但是有另外一个问题，经过warp的人脸不一定和原始人脸一样的特征，例如张嘴和闭嘴。作者注意到，不同ID的人脸其实人脸结构也是类似的，可以使用直观地将整个脸分成不同的部分，并为每个部分生成相应的部件。

提出的方法

在这里插入图片描述
包括离线生成多尺度组分字典以及DFDNet。

3.1离线生成组分字典

采用FFHQ数据集，针对高质量图像首先使用预训练的VggFace提取不同尺度的特征，再使用dlib检测到的人脸关键点，进行ROI区域对齐操作，crop或re-sample这四个组分到固定尺寸。然后使用K-means针对每个组分生成K类。针对256*256的图像，左右眼睛，鼻子嘴巴分别被分配到40/40，25，55，往下下采样，则每次减少两倍。字典特征具体为：
在这里插入图片描述
其中Ih是高清图像，Lh是高清图像的landmark，Vgg网络等

3.2深度脸部字典网络（Deep Face Dictionary Network）

目标就是利用这个网络将字典特征转移到输入的低清图像。
在这里插入图片描述
其中Id是低清输入图像，Ld是低清landmark，字典Dic，参数θ。

为保证字典和LQ图像在同一特征域，编码层依然采用VGG网络。引入DFT block，这个模块包含5个部分，RoIAlign, CAdaIN, Feature Match, Confidence Score and Reverse RoIAlign。

个人理解：
RoIAlign：就是landmark对齐人脸的步骤，利用关键点，得到仿射变换矩阵，变换图像。

CAdaIN是字典特征的归一化，目标就是让字典的特征的域和LQ的域是相同的，这样肤色，头发啥的就可以一致了

Feature Match 也就是计算经过K-means后哪一族特征是跟LQ特征最匹配的。

Confidence Score 就是利用一个分数，决定高退化场景和低退化场景中字典特征加入的多少

Reverse RoIAlign 利用反仿射变换矩阵，变回原来人脸，但是网络不仅做这样，还把SFT模块加上去了，变成可训练参数了。