轻量级模型解读——轻量transformer系列

news2025/4/26 14:22:11

先占坑，持续更新。。。

文章目录

1、DeiT
2、ConViT
3、Mobile-Former
4、MobileViT

Transformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是transformer参数量大，训练/推理耗时也是它的一大特点，NLP领域中，一个模型的参数量基本都是十亿量级。如何将transformer应用在图像领域并且轻量化是本篇博客的重点。我收集了近期4篇论文，DeiT(2020)，ConViT(2021)，Mobile-Former(2021)和MobileViT(2021)。它们的参数量及在ImageNet数据集上top1性能对比情况如下：
在这里插入图片描述

1、DeiT

DeiT是Fackbook在2020年底发表的一篇利用Transformer来进行图像识别的网络模型，是基于ViT的一种改进，之前训练Transformer需要数亿张图像进行预训练，但是作者通过改进，利用ImageNet数据就可以进行训练，而且只需要利用一台电脑在训练不到3天的时间，可以达到ImageNet top1为83.1%的精度。而且作者还提出了一种模型蒸馏策略。
论文地址：https://arxiv.org/abs/2012.12877

总之，该论文的主要贡献有如下三点：
1 、仅使用 Transformer，不引入 Conv 的情况下也能达到 SOTA 效果。
2、提出了基于 token 蒸馏的策略，针对 Transformer 蒸馏方法超越传统蒸馏方法。
3、 DeiT 发现使用 Convnet 作为教师网络能够比使用 Transformer 架构效果更好。

Distillation through attention
模型蒸馏，需要一个教师模型指导学生模型学习，作者将强图像分类器作为教师模型，它可以是纯卷积模型，也可以是同时包含卷积和transformer的混合模型。作者列出了两种可选的蒸馏对比方式，hard distillation和soft distillation，经典方式蒸馏和token蒸馏。