SepViT: Separable(分离式) Vision Transformer

news2024/11/14 17:35:48

        Vision Transformers(ViT)在一系列的视觉任务中取得了显著的成功。然而,这些Transformer模型通常依赖大量的计算成本来实现高性能,这使得在资源受限的设备上部署它们变得非常困难。研究者们从深度可分离卷积(depthwise separable convolution)中汲取经验,并模仿其设计理念,设计了一个高效的Transformer主干网络,即Separable Vision Transformer,简称SepViT。

        SepViT使用深度可分离自注意力(depthwise separable self-attention)机制来帮助在窗口内部和窗口之间按顺序执行局部-全局的信息交互。这种方法通过两种新的技术来实现:

  • 窗口标记嵌入(window token embedding):以可忽略的成本计算窗口之间的注意力关系。
  • 分组自注意力(grouped self-attention):在多个窗口之间建立长距离的视觉交互。

1. 引言

        ViT将Transformer引入到图像识别任务中。它将整个图像分割成补丁(小块),并将每个补丁作为令牌提供给Transformer。然而,基于补丁的Transformer由于计算效率低下的全注意机制而难以部署。

        为了解决这一问题,Swin (Liu et al . 2021)提出了基于窗口的自注意,以限制非重叠子窗口的自注意计算。显然,基于窗口的自关注在很大程度上降低了复杂性,但在窗口之间建立连接的算子移位给 ONNX 或 TensorRT 的部署带来了困难。

        ONNX(Open Neural Network Exchange)是一个用于表示深度学习模型的开放格式,它使得模型可以在不同的框架和硬件之间轻松转移。

        TensorRT是NVIDIA的一个高性能深度学习推理优化器和运行时,它用于NVIDIA GPU的推理加速。

        Twins (Chu et al . 2021a)利用基于窗口的自注意和来自PVT的空间缩减注意(Wang et al . 2021c),提出了空间可分离的自注意。虽然Twins是部署友好的,并且取得了出色的性能,但它的计算复杂度很难降低。CSWin (Dong et al . 2021)通过新颖的十字形窗口自关注显示了最先进的性能,但其吞吐量较低。

        为了克服上述问题,提出了一种高效的 Transformer 主干,称为可分离视觉变压器(SepViT),它可以按顺序捕获本地和全局依赖关系。SepViT的一个关键设计元素是其深度可分离的自注意模块。受MobileNets中的深度可分离卷积的启发,重新设计了自注意力模块,并提出了深度可分离自注意力,它由深度自注意(PSA)和点自注意(PSA)组成,分别对应于MobileNets中的深度和点卷积。

         深度自注意力用于捕获每个窗口内的局部特征,而点向自注意力用于建立窗口之间的联系,显著提高了表达能力。此外,为了获得局部窗口的全局表示,开发了一种新的窗口令牌嵌入方法,该方法用于计算窗口间的注意关系。此外,还将AlexNet (Krizhevsky, Sutskever, and Hinton 2012)的分组卷积思想扩展到我们的深度可分离自注意中,并提出了分组自注意力,以进一步提高性能。

1.1 主要贡献

        设计了一种轻量级而高效的深度可分离自注意,并将其扩展到分组自注意,实现了单个Transformer块中窗口内部和窗口之间的信息交互。

        提出了窗口令牌嵌入来学习每个窗口的全局特征表示,用于在计算成本可以忽略的情况下建立窗口之间的注意关系。

        提出了一种高效的可分离视觉变压器(SepViT),它在各种视觉任务的性能和延迟之间实现了最先进的权衡。

2. 相关工作

2.1 Vision Transformer 

        Vision Transformer是在ViT (Dosovitskiy et al . 2020)诞生时首次进入我们的视野,并在分类任务上取得了优异的表现。基于ViT的一系列视觉变压器相继诞生,如DeiT (Touvron et al . 2021)、T2T (Yuan et al . 2021)、TNT (Han et al . 2021)、CPVT (Chu et al . 2021b)等。随后,PVT (Wang et al . 2021c)和Swin (Liu et al . 2021)同步提出了适合于对象检测、语义和实例分割等密集预测任务的分层结构。同时,Swin (Liu et al . 2021)作为先驱提出了基于窗口的自注意力来计算局部窗口内的注意力。不久之后,Twins (Chu et al . 2021a)和CSWin (Dong et al . 2021)相继提出了基于层次结构的空间可分自注意和十字形窗口自注意。

        另一方面,一些研究人员将CNN的空间归纳偏差纳入Transformer中。CoaT (Xu et al . 2021)、CVT (Wu et al . 2021)和

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1915994.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python专栏】Python的历史及背景介绍

博客主页:Duck Bro 博客主页系列专栏:Python专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Python的背景介绍 关键词:Python、优缺点、领域 目录 …

先进电机拓扑及控制算法介绍(1)——串联绕组电机拓扑极其控制

1.前言 在这个专栏,我会介绍一些比较先进的电机拓扑及控制算法,并且会做仿真来验证这些电机拓扑及控制算法的先进性。什么叫做“比较先进的电机拓扑及控制算法”呢? 在我看来,这些电机拓扑及控制算法被提出不久,知道…

无法访问。你可能没有权限使用网络资源。请与这台服务器的管理员联系以查明你是否有访问权限。【解决办法】

问题描述 新建好一台windows虚拟机,两台设备网络是互通的,但是物理机在访问虚拟机的网络共享文件资源时,出现图下所示的报错:XXX无法访问。你可能没有权限使用网络资源。请与这台服务器的管理员联系以查明你是否有访问权限。用户…

初次用bable遍历vue项目下的中文

利用 babel 找到 AST 中的中文 // vite-plugin-babel-transform.js const parser require(babel/parser) const traverse require(babel/traverse).default // const types require(babel/types) // const generate require(babel/generator).default const fs require(f…

场外期权有交割日吗?场外期权应该怎么交割?

今天带你了解场外期权有交割日吗?场外期权应该怎么交割?场外个股期权是一种非标准化的金融衍生品,它允许投资者在未来某一特定日期以特定价格买入或卖出某一特定股票。 交割日就是买卖双方进行交割的日期,期权合约具有到期日,到期日的后一天…

开放式耳机哪种好用又实用?五大热门畅销空气炸锅推荐2024

开放式耳机市场现在越来越多品牌涌现了,作为数码博主,这里有必要给大家科普一下如何选择一款开放式欸日记是最好的,这篇文章就是给大家答疑解惑的,想要知道如何挑选一款开放式耳机的,看这一篇就够了,在介绍…

视频监控汇聚平台LntonCVS视频监控系统解决智慧产业园的安全应用方案

近年来,随着全国各地数字化转型和相关政策的出台,数字化和智慧化在各行业迅速发展,尤其是作为产业集群重要组成部分的产业园区。然而,园区智慧化进程加快的同时,数字化转型面临着诸如视频监控数据分散、联通不畅、碎片…

开源无人机从入门到炸机,共需要几步?

阿木实验室2024年的重磅新品 Prometheus 仿真笔记本已经上架有一段时间了,近日,该产品的研发负责人廖工受邀到直播间与开发者们深度解读了Prometheus仿真笔记本的设计理念。直播过程中,廖工不仅展示了该产品的功能demo,解答技术开…

ARM功耗管理标准接口之ACPI

安全之安全(security)博客目录导读 思考:功耗管理有哪些标准接口?ACPI&PSCI&SCMI? Advanced Configuration and Power Interface Power State Coordination Interface System Control and Management Interface ACPI可以被理解为一…

<PLC><威纶通>威纶通触摸与信捷PLC通讯,使用脚本根据页面自动切换模式

前言 本系列是关于PLC相关的博文,包括PLC编程、PLC与上位机通讯、PLC与下位驱动、仪器仪表等通讯、PLC指令解析等相关内容。 PLC品牌包括但不限于西门子、三菱等国外品牌,汇川、信捷等国内品牌。 除了PLC为主要内容外,PLC相关元器件如触摸屏…

数字人+展厅互动体验方案:多元化互动方式,拓宽文化文娱新体验

数字化创新已成为推动展厅可持续发展,创造全新消费体验,满足游客多元化需求的关键力量。 “数字人数字互动展厅”可以适应年轻一代的文化传播与多媒体互动新体验趋势,打造新生代潮玩聚集地,促进文化创意传播与互动体验场景创新&a…

JMH325【剑侠情缘3】第2版80级橙武网游单机更稳定亲测视频安装教学更新整合收集各类修改教学补丁兴趣可以慢慢探索

资源介绍: 是否需要虚拟机:是 文件大小:压缩包约14G 支持系统:win10、win11 硬件需求:运行内存8G 4核及以上CPU独立显卡 下载方式:百度网盘 任务修复: 1,掌门任务&#xff08…

海南云亿商务咨询有限公司抖音电商服务领军者

在当今这个数字化高速发展的时代,抖音电商已经成为了一种不可忽视的新型商业模式。作为行业的佼佼者,海南云亿商务咨询有限公司凭借其专业团队和卓越的服务能力,为众多商家提供了一站式的抖音电商解决方案,助力商家在竞争激烈的市…

【C++之·C++11·lambda函数】

系列文章目录 文章目录 前言一、概述1.1 lambda函数简介1.1.1 为什么使用lambda函数?1.1.2 引入lambda的目的 二、实例演示总结 前言 一、概述 1.1 lambda函数简介 名称lambda来自lambda calculus(lambda演算),一种定义和应用函数的数学系统。这个系统中…

零基础STM32单片机编程入门(十二) HC-SR04超声波模块测距实战含源码

文章目录 一.概要二.HC-SR04主要参数1.模块引脚定义2.模块电气参数3.模块通讯时序4.模块原理图 三.STM32单片机超声波模块测距实验四.CubeMX工程源代码下载五.小结 一.概要 HC-SR04超声波模块常用于机器人避障、物体测距、液位检测、公共安防、停车场检测等场所。HC-SR04超声波…

MIT机器人运动控制原理浅析-人形机器人

MIT人形机器人基于开发改进的执行器全新设计,通过可感知执行器运动动力学移动规划器(Actuator-Aware Kino-Dynamic Motion Planner)及着地控制器(Landing Controller)等实现机器人的运动控制。 机器人设计 机器人高0.7米,21KG(四肢重量 25%),…

ROM修改进阶教程------深度解析小米设备锁机型不解锁bl 刷写特殊类固件的步骤

在玩机过程中会遇到很多自己机型忘记密码或者手机号不用导致机型出现账号锁。无法正常使用。那么此类机型如果无法正常售后解锁。只能通过第三方渠道。例如在早期小米机型有强解bl锁资源。然后刷入完美解锁包。这种可以登陆新账号。但后期新机型只能通过修改分区来屏蔽原设备锁…

案例开发-日程管理-第一期

九 案例开发-日程管理-第一期 共7期 9.1 登录页及校验 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>.ht{text-align: center;color: cadetblue;font-family: 幼…

【Docker-compose】搭建php 环境

文章目录 Docker-compose容器编排1. 是什么2. 能干嘛3. 去哪下4. Compose 核心概念5. 实战 &#xff1a;linux 配置dns 服务器&#xff0c;搭建lemp环境&#xff08;Nginx MySQL (MariaDB) PHP &#xff09;要求6. 配置dns解析配置 lemp Docker-compose容器编排 1. 是什么 …