公众号：EDPJ

0. 摘要

1. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

1.1 主要思想

1.2 AdaIN

1.3 结构以及不同层使用 AdaIN 的效果

2. Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions

2.1 主要思想

2.2 上卷积造成的谱失真

2.3 谱正则化

2.4 其他贡献

3. FD: On understanding the role of deep feature spaces on face generation evaluation

3.1 主要思想

3.2 Fréchet Inception Distance (FID)

3.3 样本生成

3.4 实验

3.5 分析

4. Addressing Discrepancies in Semantic and Visual Alignment in Neural Networks

4.1 主要思想

4.2 语义混合

4.3 方法

5. Addressing Mistake Severity in Neural Networks with Semantic Knowledge

5.1 主要思想

5.2 名词解释

5.3 方法

5.4 分析

往期总结

0. 摘要

1. Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

（2017，AdaIN）用自适应实例归一化进行实时的任意风格迁移_EDPJ的博客-CSDN博客

1.1 主要思想

为了解释实例归一化的成功，作者提出了一种新的解释，即实例归一化通过归一化特征统计来执行样式归一化，这些特征统计携带图像的风格信息。基于此，作者提出了自适应实例归一化 (Adaptive Instance Normalization，AdaIN)。给定内容和风格，AdaIN 只需调整内容图像的均值和方差以匹配风格图像的均值和方差，从而使生成图像具有前者的内容和后者的风格。

1.2 AdaIN

AdaIN 如公式 8 所示：

其中，x 和 y 分别表示内容图像和风格图像。μ(x) 和 σ(x) 表示内容图像的均值和标准差，μ(y) 和 σ(y) 表示风格图像的均值和标准差。由于图像的特征统计携带图像的风格信息，通过归一化消除内容图像的风格信息后，再使用风格图像的特征统计（风格信息）进行仿射变换，就能实现风格迁移。

1.3 结构以及不同层使用 AdaIN 的效果

本文使用的网络结构和不同层使用 AdaIN 的效果如上两图所示。

由于 AdaIN 是基于图像特征（特征空间）的统计量进行操作，所以网络中越靠后的层可以提取到越精确地特征。基于这些精确特征的统计值，在实例归一化时可以更充分的消除内容图像的风格，从而实现更高质量的风格迁移。

2. Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions

（2020，谱正则化）观察你的上卷积：基于 CNN 的生成深度神经网络无法重现谱分布_EDPJ的博客-CSDN博客

2.1 主要思想

CNN 中使用的上卷积会造成频谱失真，可通过为生成器损失函数添加频谱正则化以及增大卷积核来缓解这种失真。通过缩小频谱差距，使生成图像与真实图像有相近的谱分布，从而提升生成质量。

2.2 上卷积造成的谱失真

线性插值上卷积和补零（灰度值为 0）上卷积分别如上图所示。这两种上卷积都会造成频谱失真。直观地理解是：

对于线性插值上卷积，由于填补的像素是原始像素的线性插值，所以相邻像素差异较小，从而导致频谱中低频分量的增加和高频分量的减少。
对于补零上卷积，由于原始像素和补零像素差别较大，从而导致频谱中高频分量的增加和低频分量的减少。

2.3 谱正则化

对图像进行离散傅里叶变换（DFT）获得二维频谱，沿径向进行方位角积分获得一维频谱。新的正则化项就是真实图像和生成图像一维频谱的交叉熵。通过缩小频谱差距，使生成图像与真实图像有相近的谱分布。

2.4 其他贡献

Deepfake 检测。由于现有生成网络中上卷积引起失真的普遍性，频谱失真可以作为一种指标来检测 deepfake。

谱正则化可以提升训练的稳定性。图像的频谱包含丰富的信息，通过使用谱正则化，可以提升模型的频谱意识。在更多信息的作用下，模型学习地更快，并且可以避免模式崩溃。

3. FD: On understanding the role of deep feature spaces on face generation evaluation

（2023，属性敏感性）FD：关于理解深度特征空间对人脸生成评估的作用_EDPJ的博客-CSDN博客

3.1 主要思想

不同的模型对不同属性的敏感程度不同。例如，FD 使用从 ImageNet 训练模型中提取的特征，着重强调帽子而不是眼睛和嘴巴等区域。此外，使用面部性别分类器特征的 FD 在身份（识别）特征空间中更强调头发长度而不是距离。

作者通过模糊不同的属性来探索这些属性对评估指标（FID）的影响。这种更细致的评估可以减轻偏差以及提高生成模型的整体质量。

3.2 Fréchet Inception Distance (FID)

FID 假设两个 Inception 嵌入图像分布是多元高斯分布，计算公式如公式 1 所示：

其中 (μ1,Σ1) 和 (μ2,Σ2) 是图像集（即真实图像和生成图像）embedding 的样本均值和协方差，Tr(·) 是矩阵迹。

3.3 样本生成

真实数据集包含显著的属性相关性，为了测试单个属性对评估指标的影响，作者使用生成的数据集。该数据集的生成有两步：

首先，合成一组基本面孔，这些面孔表现出浅肤色和短发的预定义统一特征，不包含：面部毛发、化妆、皱眉的表情、帽子或眼镜等与各种面部语义相对应的 12 个二进制属性。
然后，分别合成包含上述12个属性的样本。

3.4 实验

实验方法是，保持其他属性不变，仅改变（模糊）一个属性，然后观察它对 FID 的影响。

用于生成的模型是在不同数据集上训练的不同架构的模型，从而获得不同的特征空间。

为了比较不同特征空间的 FID，先计算该特征空间中原始图像与模糊图像之间的 FID，然后除以原始图像和完全模糊图像之间 FID 来获得归一化的 FID。

3.5 分析

实验的一部分结果如上图所示。以 SwAV-FFHQ（在 FFHQ 上训练的 ResNet-50 模型）为例

对头发的模糊程度增加（0%→100%）时，FID 基本没有变化，说明该特征空间对头发这一属性不敏感；
对肤色（skin tone）的模糊程度增加（0%→100%）时，FID 明显增加，说明该特征空间对肤色这一属性十分敏感。

差异分析。

作者推测这些差异是特征空间捕获与训练期间使用的目标函数最相关的语义特征的结果。
CLIP 特征对所有研究的特征都很敏感，这可能有两个原因：(1) CLIP 是在海量数据集上训练的，(2) 文本为图像编码器提供了丰富的感知特征信息来源，而这些信息是无法通过经典监督学习的。
虽然特征空间使用了在架构类型、大小和最终层特征数方面各不相同的网络，这些因素会对实验结果造成影响，但作者认为更大的影响来自于训练集和目标函数。