文章目录

一、摘要
二、引言
三、相关工作
- 3.1 自监督学习
- 3.2 自训练与知识蒸馏
四、方法
- 4.1 SSL with Knowledge Distillation
- 4.2 教师网络
- 4.3 网络架构
- 4.4 避免坍塌
五、实验与评估
六、消融实验
- 6.1 不同组合的重要性
- 6.2 教师网络选择的影响
- 6.3 避免坍塌
- 6.4 在小batch上训练
七、结论

自监督论文阅读系列：
【自监督论文阅读 1】SimCLR
【自监督论文阅读 2】MAE
【自监督论文阅读 3】DINOv1

论文地址：https://arxiv.org/pdf/2104.14294.pdf
github地址：https://github.com/facebookresearch/dino

论文题目：Emerging Properties in Self-Supervised Vision Transformers

一、摘要

在这篇文章里，质疑了自监督学习是否为ViT提供了与卷积网络相比更加突出的新的属性。
然后就是除了自监督方法适用于这篇文章提出的架构是特别有效的之外，本文还进行了以下观察：

自监督的ViT特征包含了显著的语义分割的信息；
这些特征也是优秀的K-NN分类器，用一个小的Vit，就在ImageNet上取得了78.3%的top1准确率

这篇文章同样列出了以下几点的重要性：

mementum encoder （动量编码器）
multi-cop training （多尺度裁剪训练）
the use of small patches with ViTs （带有Vits的小patch的使用）

本文方法实现为一个简单的自监督方法，叫做DINO（一定形式的无标签自蒸馏 self-distillation with no labels），本文展示了DINO和ViTs之间的协同作用，在ImageNet上，使用VIiT-Base的 linear评估达到80.1%的的top1准确率。

二、引言

Transformers最近在视觉识别领域，已经作为卷积网络的替代品出现。受NLP训练策略启发，Transformers在视觉领域的应用，也是对大量的数据进行预训练，然后在目标数据集上微调。
由此产生的ViT与卷积网络比，具有竞争力，但尚未出现明显的优势，如：

对计算要求更高
需要更多的数据
特征没有表现出独有的特性

这篇论文质疑了，Transformers在视觉领域的成功，是不是因为预训练中采用的是监督学习，动机如下：

Transformer在NLP领域成功的最大因素之一是使用了自监督预训练；
自监督预训练目标使用句子中的单词来创建一个pretext任务，这个比每个句子预测单个标签的监督目标有更丰富的学习信号
图像类似，图像强监督的会将图中丰富的视觉信息简化成单一的概念

虽然在NLP领域使用的自监督前置任务是特定文本的，但许多现有的使用卷积网络的自监督方法已经展示出在图像上的潜力。它们通常具有相似的结构，但具有不同的组件，这样设计是为了避免模型坍塌或者提高性能。受这些工作启发，这篇文章确定了几个有趣的属性，这些属性不会出现在受监督的 ViT 中，也不会出现在卷积网络中：

自监督 ViT 特征明确包含场景布局，特别是对象边界，如下图所示。这些信息可以在最后一个模块的自注意模块中直接获取
自监督 ViT 功能在基本的最近邻分类器 (k-NN) 上表现特别出色，无需任何微调、线性分类器或数据增强，在 ImageNet 上达到 78.3% 的 top-1 准确度

总的来说，这篇文章通过对这些组成部分的重要性的发现，设计了一种简单的自监督方法，然后解释为了一种没有标签的知识蒸馏形式，成之为DINO。DINO简化了自监督训练，体现在以下几个方面：
使用标准的交叉熵损失直接预测教师网络
教师网络是通过使用动量编码器来构建
本文方法只能使用教师输出的中心化和锐化来避免崩溃。而其他流行的组件，如预测器、高级归一化或对比损失在稳定性或性能方面几乎没有什么好处
框架非常灵活。可以在 convnets 和 ViTs 上工作，无需修改架构，也不需要调整内部的归一化

三、相关工作

3.1 自监督学习

大量关于自监督学习的工作侧重于创造实例分类的判别方法，该方法将每个图像视为不同的类别，并通过在不同的数据增强训练模型（区分它们）。然而，显式学习分类器以区分所有图像并不能很好地适应图像数量。有文章建议使用噪声对比估计 (NCE) 来比较实例，而不是对它们进行分类。这种方法的一个限制是它需要同时比较大量图像的特征。实际上，这需要大的batchsize 或内存库，还有几个变体允许以聚类的形式自动对实例进行分组。

最近的工作表明，可以在不区分图像的情况下学习无监督特征。特别有趣的是，其中有一种称为 BYOL 的度量学习公式，其中通过将特征与使用动量编码器获得的表示相匹配来训练特征。已经表明，像 BYOL 这样的方法即使没有动量编码器也能工作，但代价是性能下降。

其他几项工作也呼应了这个方向，表明可以训练与 l2 超球面上的均匀分布相匹配的特征，或使用白化操作。

文章中的方法从 BYOL 中汲取灵感，但又有以下不同之处：

但使用不同的相似性匹配损失
为学生和教师使用完全相同的架构。

这样，我们的工作就完成了在 BYOL 中发起的对自监督学习的解释，作为一种没有标签的 Mean Teacher 自蒸馏的形式。

3.2 自训练与知识蒸馏

自训练：通过将一小部分初始注释传播到大量未标记实例来提高特征质量。这种传播可以通过标签的硬分配或软分配来完成。
当使用软标签时，该方法通常被称为知识蒸馏，主要设计用于训练小型网络以模仿大型网络的输出以压缩模型。
蒸馏可用于将软伪标签传播到自训练流程中的未标记数据，从而在自训练和知识蒸馏之间建立了本质联系。

这篇文章的工作的正是建立在这种联系之上，并且将知识蒸馏扩展到没有标签可用的情况。

以前的工作还结合了自监督学习和知识蒸馏，实现了自监督模型压缩和性能提升。然而，这些作品依赖于预训练的固定教师，而本文方法是：

教师网络是在训练期间动态构建的，这样，知识蒸馏就不会被用作自监督预训练的后处理步骤，而是直接被用作自监督目标
我们的工作还与协同蒸馏codistillation 有关，其中学生和教师具有相同的架构，并在训练期间使用蒸馏。然而，codistillation 中的 teacher 也是从 student 中蒸馏出来的，而在我们的工作中它是用 student 的动量平均值更新的。

四、方法

4.1 SSL with Knowledge Distillation

DINO框架与最近的自监督方法具有相同的整体结构。然而，DINO也与知识蒸馏有相似之处，这篇文章主要从知识蒸馏的角度来介绍它。下图说明了 DINO，还有一个伪代码的实现：
在这里插入图片描述

在这里插入图片描述

输入 $x$ 为原始图像，经过两种数据增强方式得到 $x_1$ 和 $x_2$ ，分别送入到学生网络 $g(θ_s)$ 和教师网络 $g(θ_t)$ 中。需要注意的是，数据增强里组合里有local views和global views,
所有的local crop都送入到学生网络中，教师网络仅输入global views。主要用来鼓励局部到全局的通信。
教师网络不参与反向传播，参数通过exponential moving average (EMA)，从学生网络的参数更新，更新规则如下：
$θ_t ← λθ_t + (1 − λ)θ_s,$ 其中，λ在训练期间，遵循一个余弦规则表，从0.996到1。
教师网络和学生网络的输出 $P_s$ 和 $P_t$ ,都表示 $K$ 维的概率分布。概率 $P$ 说白了，就是网络最后一层的全连接的预测头后，再接一个SoftMax, 只不过这里的Softmax带有一个控制输出分布锐度的温度参数
-- 教师网络输出后，接一个centering操作，用来防止一个维度占主导地位，使鼓励崩塌到均匀分布。centering操作可以看成教师网络的输出再加上一个偏置项：

$g_t(x) ← g_t(x) + c$ .
锐化操作紧接着centering后：就是将softmax中的温度参数设置为一个较小的值。
损失函数就是交叉熵损失函数，用来衡量向量之间的一致性