EfficientFormer: Vision Transformers at MobileNet Speed

news2025/1/10 1:47:38

Paper name

EfficientFormer: Vision Transformers at MobileNet Speed

Paper Reading Note

URL: https://arxiv.org/pdf/2206.01191.pdf

TL;DR

  • 本文目标是回答一个问题:transformer 是否可以在比 cnn 运行更快的时候同时精度更高?本文提出了 EfficientFormer 在修改一些耗时多的模块与进行网络结构搜索的情况下对前面的问题给了正向回复。

Introduction

背景

  • Vision Transformer (ViT) 在计算机视觉的很多任务中取得了优异的表现,不过因为模型的大参数量和模型结构(attention mechanism) 导致其在运行时一般比轻量级卷积网络慢
  • transformer 运行速度慢的原因分析:
    • 参数量大
    • 随着 token 长度增加计算复杂度呈二次增加
    • norm layer 不可融合
    • 缺乏编译器级别优化 (比如 CNN 中的 Winograd)
  • 之前的一些 ViT 的轻量化方案主要是通过网络结构搜索或结合 MobileNet block 的混合结构设计,但是这样的测试时间依然难以达到实时应用需求
  • 这就引起了一个问题:transformer 是否可以在比 cnn 运行更快的时候同时精度更高

本文方案

  • 本位提出了一种 dimension-consistent 的纯 transformer 网络,另外通过 latency-driven slimming 来得到一系列最终模型 (面向运行时间优化,而不是 MAC 或参数量),起名为 EfficientFormer
  • EfficentFormer-L1 在 Imagenet-1K 上 top1 acc 为 79.2%,iphone12 上运行耗时为 1.6 ms (基于 CoreML 编译测试)
    • 对比数据: MobileNetV2×1.4 (1.6 ms, 74.7% top1)
  • EfficientFormer-L7 (7ms, 83.3% top1)

Dataset/Algorithm/Model/Experiment Detail

实现方式

模型运行延迟分析

在这里插入图片描述
从以上测试结果得到的发现:

  1. 大 kernel 和 stride 的 patch embedding 是在移动设备上的速度瓶颈。由 DeiT-S、PoolFormer 与 LeViTate-256 的对比可以看出。慢的原因主要是 large-kernel 卷积在编译器级别没有类似 Winograd 之类的优化,这里替换成几个 3x3 卷积代替直连能加速
  2. 一致的特征维数对于 token mixer 的选择很重要。token mixer 的可选方案有传统的拥有去哪聚感受野的 MHSA mixer、更复杂的 shifted window attention、类似 pooling 的非参数化算子。其中 shifted window 算子目前大部分移动设备编译器都不支持,主要关心运算高效的 pooling token mixer 和精度更优的 MHSA。从上图对比 PoolFormer-s24 与 LeViT-256 可以看出 reshape 是瓶颈所在,保持特征维数一致非常重要。对比 DeiT-Small 和 LeViT-256,可以发现 MHSA 在特征维度保持一致的时候带来的延迟并不多。本文设计在 4D 特征和 3D MHSA 中尽量不用 reshape。
  3. conv-bn 的延迟比 LN(GN)-Linear 更优,掉点可接受。因为 BN 在测试阶段吸到 conv 中能降低测试延迟,从 DeiT-Small and PoolFormer-S24 等模型可以看出无法被吸的 norm 层在测试阶段占了总时长 10%-20%。本文中在 4D 特征中尽量使用 conv-bn 结构,3D 特征中使用 LN 为了获取更高精度。
  4. 非线性层的延迟取决于硬件和编译器。GeLU 在 iphone12 上几乎不比 relu 慢,但是 HardSwish 很慢(LeViT-256 在使用 HardSwish 时延迟为 44.5 ms,使用 GeLU 是 11.9 ms)。本文使用 GeLU 作为非线性层。

EfficientFormer 设计

在这里插入图片描述

  • 整个网络由一个 patch embeding 和一系列 meta transformer blocks (MB) 构成
    在这里插入图片描述
    其中 MB 是 tokenmixer 后接 MLP 构成
    在这里插入图片描述

详细结构

  • 4D partition 具体结构
    • 2 个 stride=2 的 3x3 conv 进行 patch embedding 在这里插入图片描述
    • pool 与 conv bn gelu 等算子用于提取 low level 特征 在这里插入图片描述
  • 3D partition 部分结构依然是和传统 ViT 结构一致
    在这里插入图片描述
    在这里插入图片描述

Latency Driven Slimming

  • Design of Supernet,定义了每个 metapath 中可以选择的模块,其中 I 是 identity path,j 代表 j-th stage,i 代表 i-th block
    在这里插入图片描述
    其中只在最后两个 stage 把 MB3D 放在搜索空间中,因为 MHSA 在 early stage 耗时明显,另外放置在后两个 stage 也符合 early stage 获取 low-level 特征,last stage 获取 long-term dependencies 的设计直觉。
  • Searching Space:主要是每个 stage 的宽度 (Cj) 和每个 stage 的 block 数量(Nj),以及从最后的第 N 个 block 开始用 MB3D
  • Searching Algorithm:提出了一种简单快速的基于梯度的搜索算法
    • step1:使用 Gumble Softmax sampling 来训练 supernet,获取每个 metapath 中的每个 block 的重要性得分
      在这里插入图片描述
      其中 α \alpha α 是代表选择一个 block 的概率,也即代表了该 block 的重要性; ϵ ∈ U ( 0 , 1 ) \epsilon \in U(0, 1) ϵU(0,1) 确保探索; τ \tau τ 代表温度; n n n 代表 metapath 中的 block 类型;
    • step2:获取不同宽度的 MB4D 与 MB3D 在端上设备运行延迟的 LUT 表
    • step3:基于 LUT 表对 step1 中训练的 supernet 进行 gradual slimming;基于以下定义计算每个 block 的重要性得分,然后对每个 stage 中的所有 block 重要求和计算得到 stage 的重要性得分
      在这里插入图片描述
      action space 如下:
      • action1:对于最不重要的 MP 使用 Identity path
      • action2:移除第一个 MB3D
      • action3:降低最不重要的 MP 的宽度
        结合延迟 LUT 表计算以上 action 的延迟,然后评估每个 action 的精度降低程度,选择降低延迟大且掉点低的 action
        在这里插入图片描述

实验结果

  • 实验配置:
    • A100 + V100 cluster
    • 测速: iphone12 (A14仿生芯片)
    • CoreMLTools 部署模型

图像分类任务

在这里插入图片描述

目标检测与实例分割任务

  • 基于 mask-rcnn 进行验证
    在这里插入图片描述

Thoughts

  • 文章的整理思路非常简洁,从当前各种模型测速的 profile 结果出发,把耗时多的模块和设计改掉,然后加上网络结构搜索得到了性能更优的模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/147953.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3. R获取数据的三种途径、读入文件、写入文件、读写excel文件、读写R文件

课程视频链接:https://www.bilibili.com/video/BV19x411X7C6?p1 本笔记参照该视频,笔记顺序做了些调整【个人感觉逻辑顺畅】,并删掉一些不重要的内容 系列笔记目录【持续更新】:https://blog.csdn.net/weixin_42214698/category_…

后端人眼中的Vue(三)

五、高级 5.1、计算 5.1.1、computed ​ 在之前的购物车的案例当中,我们已经实现了购物车价格的计算,但是有些时候我们需要在其他很多地方也展示价格,所以每展示一次,我们就需要调用一次计算价格的方法,所以Vue给了…

OV7670 摄像头模块介绍

OV7670摄像头模块简介OV7670是OV(OmniVision)公司生产的一颗1/6寸的CMOSVGA图像传感器。该传感器体积小、工作电压低,提供单片VGA摄像头和影像处理器的所有功能。通过SCCB总线控制,可以输出整帧、子采样、取窗口等方式的各种分辨率…

Visio 学习笔记 —— Visio 的键盘快捷方式

Visio 学习笔记 —— Visio 的键盘快捷方式常用热键常用对话框文本操作快速访问工具栏参考资料常用热键 操作热键指针工具Ctrl 1文本工具Ctrl 2连接线Ctrl 3连接点工具Ctrl Shift 1裁剪工具Ctrl Shift 2文本块工具Ctrl Shift 4组合所选的形状Ctrl G解散组合Ctrl Sh…

Verilog语法笔记(夏宇闻第三版)-结构说明语句

目录 initial语句: always语句: task和function说明语句: task和function说明语句的不同点: task说明语句: function说明语句: Verilog语言中的任何过程模块都从属于以下四种结构的说明语句&#xff…

【GNN】图基本知识代码、nxworks包的基本使用

一个写得很好的博客: 图或网络中的中心性:点度中心性、中介中心性、接近中心性、特征向量中心性、PageRank 特征向量中心性(eigenvector centrality) 特征向量中心性的基本思想是,一个节点的中心性是相邻节点中心性的函…

Reactive思考

最近在学习响应式编程,由此翻看了很多资料,在此把思考过程记录下 目录 来由 规范 具体实现 历史 1. Servlet的尝试 1.1 Async实现demo 2. web应用层 2.1 web-flux 2.2 web-flux/web-mvc 与 spring-web架构关系 3. DBConnection层 相关可能混淆…

STL中vector怎么扩容

STL vector扩容 vector容器 vector被称为向量容器,该容器擅长在尾部插入或删除元素,时间复杂度为O(1);而对于在vector容器头部或者中部插入或删除元素,则花费时间要长一些(移动元素需要耗费时间)&#xf…

十九、Kubernetes中Pod调度第一篇

1、概述 在默认情况下,一个Pod在哪个Node节点上运行,是由Scheduler组件采用相应的算法计算出来的,这个过程是不受人工控制的。但是在实际使用中,这并不满足的需求,因为很多情况下,我们想控制某些Pod到达某些…

Gradle学习笔记之插件

文章目录插件的作用插件的分类和使用脚本插件对象插件第三方插件用户自定义插件buildSrc项目编写步骤其他项目/模块引用步骤java插件常用属性插件的作用 插件可以帮助我们促进代码的重用、项目更高程度的模块化、自动化和便捷化,减少功能类似代码的编写&#xff0c…

【数据结构与算法】 | 用队列实现栈

用队列实现栈 链接: https://leetcode.cn/problems/implement-stack-using-queues/ 1. 要求 2. 思路 栈的性质是先进后出,队列的性质是先进先出。 题目要求是用两个队列来完成栈的实现,那么大思路就是通过倒腾数据来完成。 3. 代码实现…

JAVA系列 多线程 Thread类 耦合 线程调度 如何创建线程 弱耦合 完全解耦 思维结构整理

这估计是我JAVA系列 基础知识点梳理的最后一篇文章了吧 之后一段时间 我打算去看看之前承诺更新的JAVA的一些项目了 然后我要好好玩一段时间游戏 然后跟某些好朋友见面 所以后面会忙一点 然后就是很多同学 六级还没有考 估计很多人是开学再考把 这个假期就不要玩的太厉害了 没事…

人员超员识别系统 yolov5

人员超员识别系统通过yolov5深度学习网络模型对现场画面进行实时监测,监测到画面中区域人数超过规定人数时,立即抓拍存档预警。YOLO系列算法是一类典型的one-stage目标检测算法,其利用anchor box将分类与目标定位的回归问题结合起来&#xff…

一篇彻底解决:Fatal error compiling: 无效的目标发行版: 11 -> [Help 1]

先在这声明,如果我的方法没有解决你的问题,那你直接私信我,我第一时间帮你解决,送佛送到西!!! 这个问题,主要原因就是JDK的版本问题,“无效的目标发行版:11”的意思是你在某个位置配置了JDK11,但是在其他位置配置的并不是11&…

靶机测试Gears of War笔记

靶机介绍Its a CTF machine that deals with the history of gears of war, where we must try to escape from prison and obtain root privileges. it has some rabbit holes, so you have to try to connect the tracks to get access.This works better with VirtualBox ra…

[ 数据结构 ] 二叉树详解--------前序、中序、后序、存储、线索化

0 前言 why?为什么需要树结构? 数组虽然查找快(通过下标访问),但无法动态扩容(拷贝到新的数组),而链表相反,树结构刚好结合两者优点 浅谈树? 树的存储和读取效率都很高,比如二叉排序树,理解树的抽象模型有助于理解递归的原理,树的模型接近于单向链表,父节点指向左右子树,而…

【因果发现】 针对时序数据的因果图学习

文章目录 一、任务二、数据集说明三、专业名词CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、任务 This track focuses on solving a causal structure learning problem in AIOps. AIOps 相关:主要目标是从事件序列数据中挖掘因果图关系,并辅助定位根因。 主要需要解…

php学习笔记-php数组的创建和使用,数组常用函数-day03

php数组的创建和使用,数组常用函数数组的概念一维数组的创建和使用1.直接将变量声明为数组元素2.通过array()函数来创建一维数组3.数组的元素值的访问4.数组元素的赋值方式5.数组的注意事项二维数组的创建和使用1.二维数组的创建2.二维数组的数组元素值访问3.二维元…

ArcGIS基础实验操作100例--实验67设置标注样式

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 高级编辑篇--实验67 设置标注样式 目录 一、实验背景 二、实验数据 三、实验步骤 (1&…

Java+Swing可视化图像处理软件

JavaSwing可视化图像处理软件一、系统介绍二、功能展示1.图片裁剪2.图片缩放3.图片旋转4.图像灰度处理5.图像变形6.图像扭曲7.图像移动三、项目相关3.1 乱码问题3.2 如何将GBK编码系统修改为UTF-8编码的系统?四、其它1.其他系统实现2.获取源码一、系统介绍 该系统实…