翻译得可能不太准确,希望有能力的各位批评指正!
Introduction
第一段
深度卷积神经网络(CNN)在计算机视觉多数任务中取得了显著的成功。
然而,卷积网络的成功往往伴随着相当大的计算和内存消耗,
使得将其应用于资源有限的终端边缘设备成为一个具有挑战性的课题。
目前已经涌现较多的神经网络轻量化技术,包括设计新的网络架构[10, 2, 11, 26],网络剪枝[20, 15, 34, 4, 19],量化[13]和知识蒸馏[9, 25]。
第二段
本文将聚焦于知识蒸馏技术,探讨其在实践中的重要性、高效性以及未来潜在应用。
并且,它还是一个通用的方法,适用于几乎所有的网络架构,可以与许多其他轻量化策略相结合,如网络剪枝和量化[32],以进一步提升学生网络效率。
第三段
知识蒸馏最初是在2015年[9]中提出的。蒸馏过程是通过在参数量庞大的网络(也称为教师)的监督下训练一个小型网络(也称为学生)来完成的。
在[9]中,先设定一个蒸馏温度,软化教师的logit知识来蒸馏的,这意味着学生既受到真实标签的监督,也受到教师的logit的监督。
最近,人们致力于提升知识蒸馏框架的性能。FitNet [25]通过中间特征来蒸馏知识。
AT [38]进一步优化了FitNet,并使用特征注意力图来传递知识。
PKT [23]将教师的知识建模为概率分布,而CRD [28]则使用对比学习策略来进行知识的传递。
所有这些解决方案都侧重于转换和损失函数。
Our New Finding我们新的发现
本文从教师和学生模型之间的连接路径的新视角出发。
为了使我们的想法易于理解,我们首先展示了先前的工作是如何处理学生和老师的连接路径。
如图1(a)-(c)所示,所有先前的方法都只使用相同级别的知识来指导学生。
例如,在监督学生的第四阶段输出时,总是使用教师的第四阶段信息,这个过程是直观且易于构建的。
令人意外的是,我们发现这实际上是整个知识蒸馏框架中的一个瓶颈——快速更新结构可以惊人地提高整个框架的蒸馏性能,并且在许多视觉任务上的整体表现有了显著的提升。
经过我们的调研,发现之前的研究忽视了知识蒸馏中连接路径的重要性,因此我们提出了一个新的有效的知识蒸馏框架。
其中关键的一点是想使用教师网络中的低级特征参与监督学生的更深层次的特征学习,
从而实现提升学生模型的整体性能。
我们进一步分析了这个新的网络结构,
发现学生模型较深层是可以从教师模型的低级特征中学习到有用的信息
更多的分析在第4.4节中提供。
这个过程类似于人类学习曲线[35],虽然一个年幼的孩子只能理解起初老师教授的一小部分知识。
但是在成长的过程中,越来越多的之前不曾理解的知识可能逐渐被吸收并加深,并且存储为更深层次的经验。
Our Knowledge Review Framework
根据这些发现,我们提出使用老师模型的多层知识来指导学生网络的单层学习。我们提出的新颖流程如图1(d)所示,我们称之为“知识回顾”。复习机制是使用之前(更浅)的特征来引导当前特征的学习。
这意味着学生必须始终检查以前学习过的内容,以更新对“旧知识”的理解和刷新上下文。
在一段时间的学习中,将不同阶段的知识连接起来是我们人类学习的常见做法。
然而,如何从老师模型的多层信息中提取有用的知识,并将它们传递给学生,仍然是一个富有开放性及挑战性的问题。为了解决这些问题,我们尝试提出了一个残差学习框架,使学生模型的学习过程更加稳定和高效。我们进一步设计了一种注意力融合(ABF)模块和分层上下文损失(HCL)函数的方法,以提高学生模型的性能。我们提出的“知识复习”框架使学生网络的学习效果显著提高。
通过将这个想法落地,我们已经在目标检测、图像分类、图像语义分割等多个任务中取得了较好的性能提升。
第四节的实验结果清晰地证明了我们提出的知识回顾框架具有明显的优势。
Main Contributions
We propose a new review mechanism in knowledge distillation, utlizing multi-level information of the teacher to guide one-level learning of the student net.
我们提出了一个新的知识蒸馏框架,利用教师的多层次知识指导学生网络的单层次学习。
We propose a residual learning framework to better realize the learning process of the review mechanism.
我们提出了一个新的残差学习框架,以更好地实现知识回顾机制的学习过程。
To further improve the knowledge review mechanism, we propose an attentation based fusion (ABF) module and a hierarchical context loss (HCL) function.
我们提出了注意力融合(ABF)模块和分层上下文损失(HCL)函数,以进一步优化知识回顾机制。
We achieve state-of-the-art performance of many compact models in multiple computer vision tasks by applying our distillation framework.
我们的蒸馏框架已经成功地应用于多个计算机视觉任务中,使得许多轻量化模型能够取得最佳性能。