先占坑,持续更新 。。。
文章目录
- 1、DeiT
- 2、ConViT
- 3、Mobile-Former
- 4、MobileViT
Transformer是2017谷歌提出的一篇论文,最早应用于NLP领域的机器翻译工作,Transformer解读,但随着2020年DETR和ViT的出现(DETR解读,ViT解读),其在视觉领域的应用也如雨后春笋般渐渐出现,其特有的全局注意力机制给图像识别领域带来了重要参考。但是transformer参数量大,训练/推理耗时也是它的一大特点,NLP领域中,一个模型的参数量基本都是十亿量级。如何将transformer应用在图像领域并且轻量化是本篇博客的重点。我收集了近期4篇论文,DeiT(2020),ConViT(2021),Mobile-Former(2021)和MobileViT(2021)。它们的参数量及在ImageNet数据集上top1性能对比情况如下:
1、DeiT
DeiT是Fackbook在2020年底发表的一篇利用Transformer来进行图像识别的网络模型,是基于ViT的一种改进,之前训练Transformer需要数亿张图像进行预训练,但是作者通过改进,利用ImageNet数据就可以进行训练,而且只需要利用一台电脑在训练不到3天的时间,可以达到ImageNet top1为83.1%的精度。而且作者还提出了一种模型蒸馏策略。
论文地址:https://arxiv.org/abs/2012.12877
总之,该论文的主要贡献有如下三点:
1 、仅使用 Transformer,不引入 Conv 的情况下也能达到 SOTA 效果。
2、 提出了基于 token 蒸馏的策略,针对 Transformer 蒸馏方法超越传统蒸馏方法。
3、 DeiT 发现使用 Convnet 作为教师网络能够比使用 Transformer 架构效果更好。
Distillation through attention
模型蒸馏,需要一个教师模型指导学生模型学习,作者将强图像分类器作为教师模型,它可以是纯卷积模型,也可以是同时包含卷积和transformer的混合模型。作者列出了两种可选的蒸馏对比方式,hard distillation和soft distillation,经典方式蒸馏和token蒸馏。
2、ConViT
论文地址:https://arxiv.org/abs/2103.10697
3、Mobile-Former
论文地址:https://arxiv.org/abs/2108.05895
4、MobileViT
论文地址:https://arxiv.org/abs/2110.02178