论文解析[9] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

news2025/1/9 9:49:28

发表时间:2021
论文地址:https://arxiv.org/abs/2103.14030
代码地址:https://github.com/microsoft/Swin-Transformer

文章目录

  • 摘要
  • 3 方法
    • 3.1 总体框架
    • 3.2 基于自注意力的移动窗口
    • 3.3 结构变形
  • 5 结论

摘要

这篇论文提出了一个新的ViT叫作Swin Transformer, 它可以被用来当作计算机视觉领域一个通用的骨干网络。将Transformer从语言改编到视觉的挑战来自于两个领域的差异,比如同一个视觉实体有不同的尺度、相比于文本中单词,图像中像素的高分辨率。

为了解决这些差异,我们提出了一种层级的Transformer,它的特征是通过移动窗口来进行计算的。移动窗口不仅带来了更好的效率,也允许交叉窗口连接。这种层级结构拥有在不同尺度建模的灵活性,也拥有关于图像大小的线性计算复杂度。

这些Transformer的特征可以让它使用到广泛的下游任务中,包括图像分类,密集预测任务例如目标检测和语义分割。

层级设计和移动窗口方法也能够提升所有的MLP结构。

3 方法

3.1 总体框架

在这里插入图片描述

Swin Tranformer block
在这里插入图片描述
Swin Transformer是用基于移动窗口的模块替换Transformer block中的标准多头自注意力(MSA)模块。

一个Transformer block包括一个基于MSA的移动窗口模块,然后是一个二层的MLP。在MSA模块和MLP层之前,都有一个标准化层(LN)。

3.2 基于自注意力的移动窗口

用于图像分类的标准Transformer结构和它的改编都是使用全局自注意力,计算一个token和其他全部token的关系。全局计算导致了关于token数量平方的复杂度,导致了它不适合许多需要极大token的数据集的视觉任务,例如密集预测,或者表示一个高分辨率图像。

Self-attention in non-overlapped windows

对于有效的建模,我们提出在窗口中计算自注意力。窗口是以一种不重叠的方式均匀划分图像。假设每个窗口包含M×M个patch,计算一个全局MSA模块和一个基于h×w个patch的图像的复杂度:
在这里插入图片描述
前者是关于patch数量hw的平方复杂度,后者当M固定时,关于hw线性复杂度。当基于自注意力的窗口很大时,全局自注意力的计算往往是不可接受的。

Shifted window partitioning in successive blocks

基于窗口的自注意力模块缺少窗口之间的连接,会限制它的建模能力。为了引入窗口之间的连接并且保持不重叠窗口的计算效率,我们提出了一种移动窗口的划分方式,它可以在连续的Swin Transformer块中的两种划分方式之间交替。

在这里插入图片描述
第一个模块使用正常的窗口分割策略,从左上方像素开始,8×8的特征图平均分割成了2×2个4×4大小的窗口。下一个模块采用从上一层移动而来的窗口策略,通过(是⌊M/2⌋, ⌊M/2⌋)像素替换正常分割窗口。

带有移动窗口策略的Swin Transformer block计算:
在这里插入图片描述
z ^ l \hat{z}^l z^l z l z^l zl 代表W-MSA模块和MLP的输出特征,W-MSA和SW-MSA代表基于多头自注意力使用正常和移动分割策略。

移动窗口分割方式带来了邻近不重叠窗口之间的连接,对于图像分类、目标检测和语义分割来说是有效的。

Efficient batch computation for shifted configuration

使用移动窗口分割的一个问题是它会导致更多的窗口,从 ⌈h/M⌉×⌈h/M⌉ 变为 (⌈h/M⌉ + 1)×(⌈h/M⌉ + 1),一些窗口会小于 M×M。一个朴素的办法是将小窗口填充为M×M,在计算注意力时掩盖填充的值。当使用正常分割的窗口数比较小时,例如2×2,使用这种方法提升的计算量是相当大的(2×2到3×3,2.25倍)。我们提出了一个更有效的batch计算方式,通过向左上方循环移动,如图4。
在这里插入图片描述
经过这次移动,一个窗口会由几个在特征图中不相邻的子窗口组成,因此一个掩码机制被用来限制每个子窗口中的自注意力计算。通过循环移动,窗口的数目和正常分割相同,并且是有效率的。

3.3 结构变形

我们创建了基础模型Swin-B,具有和ViT-B/DeiT-B相似的模型大小和计算复杂度。我们也引入了Swin-T, Swin-S和Swin-L,是0.25倍,0.5倍和2倍模型大小和复杂度。注意到Swin-T和Swin-S的复杂度相似于ResNet-50 (DeiT-S) 和ResNet-101。

5 结论

这篇论文提出了Swin Transformer,可以生成层级特征表示和关于输入图像大小线性复杂度的一个新ViT。它在COCO目标检测和ADE20K语义分割上取得了sota的表现,显著超过先前的最佳表现。我们希望Swin Transformer在不同视觉问题上的强大表现可以激发视觉和语言信号的统一建模。

作为Swin Transformer的一个关键元素,基于自注意力的移动窗口在视觉领域上是有效和有效率的,我们期待研究它在 nlp 上的使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/95084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据培训kettle安装部署

kettle安装部署和使用 2.1 kettle安装地址 官网地址 https://community.hitachivantara.com/docs/DOC-1009855 下载地址 https://sourceforge.net/projects/pentaho/files/Data%20Integration/ 2.2 Windows下安装使用 2.2.1 概述 在实际企业开发中,都是在本…

Html 小功能总结二

文章目录一、Html 实现弹窗的实例二、Html 实现流程图三、制作一个简单的菜单功能一、Html 实现弹窗的实例 <!DOCTYPE html> <html> <head><meta charset"utf-8" /><title></title><style type"text/css">body…

C++ Reference: Standard C++ Library reference: Containers: map: map: crbegin

C官网参考链接&#xff1a;https://cplusplus.com/reference/map/map/crbegin/ 公有成员函数 <map> std::map::crbegin const_reverse_iterator crbegin() const noexcept;返回指向反向开始的const_reverse_iterator 返回一个指向容器中最后一个元素的const_reverse_ite…

Nacos 消息通知系统 源码讲解

目录 1. 介绍 2. Nacos 中的生产者 3. Nacos 中的消费者 4. Nacos 中的事件 5. 统一事件通知中心 NotifyCenter 6. 总结 1. 介绍 Nacos 节点内部使用了大量的事件机制进行通信&#xff0c;这样各种操作进行了解耦&#xff0c;提高了性能。 接下来就介绍。 所谓事件机制…

virtualenv系列 (5) · 打通virtualenvwrapper和PyCharm/IntelliJ IDEA的虚拟环境

PyCharm/IntelliJ IDEA已经内置了对virtualenv的支持&#xff0c;当我们为一个项目创建一个新的Python SDK时&#xff0c;就会进入到Add Python Interpreter对话框&#xff0c;选择Virtualenv Environment -> New environment就将创建一套新的virtualenv环境。这里&#xff…

关于长三角某高校能效管理平台应用成效探讨

更多请关注&#xff1a;安科瑞电气网 摘要&#xff1a; 随着现代科学技术的发展&#xff0c;在高校中开始广泛应用智能化技术&#xff0c;改善学生宿舍的用电管理模式&#xff0c;提高宿舍的管理水平&#xff0c;有利于实现高校宿舍用电管理的科学化。本文主要阐述传统高校宿…

D2. Seating Arrangements (hard version)(贪心+排序)

Problem - 1566D2 - Codeforces 这是该问题的困难版本。唯一的区别是&#xff0c;在这个版本中&#xff0c;1≤n≤300。 电影院的座位可以表示为有n行和m列的表格。每行的座位都用1到n的整数编号&#xff0c;从左到右连续编号&#xff1a;在第k行&#xff0c;从m(k-1)1到mk&am…

前端的视角聊聊如何快速入门Python

对于 NodeJs 开发的小伙伴&#xff0c;使用 node-gyp 将 C 模块转换成 NodeJs 的 addon 插件时会依赖 Python 的安装环境&#xff08;针对使用了 nvm 等版本管理工具的情况&#xff09;。对于前端小伙伴来说&#xff0c;Python 本身确实不是一个必须学习的语言&#xff0c;但也…

提前做好网络安全分析,运维真轻松(一)

背景 某汽车总部已部署NetInside流量分析系统&#xff0c;使用流量分析系统提供实时和历史原始流量。汽车配件电子图册系统是某汽车集团的重要业务系统。本次分析重点针对汽车配件电子图册系统进行预见性分析&#xff0c;以供安全取证、性能分析、网络质量监测以及深层网络分析…

SQL基础——聚合与排序

聚合与排序前言思维导图聚合函数示例表3-1![在这里插入图片描述](https://img-blog.csdnimg.cn/9c286053f87a4ae882bece8128bdcab5.png)计算表中数据的行数 COUNT函数示例代码3.1 计算全部数据的行数执行结果计算NULL之外的数据的行数代码示例3.2 计算NULL之外的数据行数执行结…

【DevOps实战系列】第五章:基于Gitlab/Maven/Jenkins/Docker实战案例详解

个人亲自录制全套DevOps系列实战教程 &#xff1a;手把手教你玩转DevOps全栈技术 从创建Jenkins的job开始 1.gitlab设置&#xff1a; 我们从新建一个jenkins任务开始&#xff0c;建一个自由风格项目&#xff0c;我们暂时只让他能拉取git的代码。 路径&#xff1a;从gitlab上新…

【ML笔记】5、支持向量机(SVM)

支持向量机&#xff08;SVM&#xff09;是一个强大的和通用的ML模型&#xff0c;能够执行分类&#xff0c;回归&#xff0c;甚至异常值检测&#xff0c;特别适合于复杂的中小型数据集。 1、线性SVM分类 我们可以看到&#xff0c;这两个类可以很容易地用一条直线(线性可分)分开…

GAN入门知识

GAN入门知识 结构 正式说 GAN 之前我们先说一下判别式模型和生成式模型。 判别器 判别式模型 判别式模型&#xff0c;即 Discriminative Model&#xff0c;又被称为条件概率模型&#xff0c;它估计的是条件概率分布(conditional distribution)&#xff0c; p(class|context) 。…

图书网上商店

开发工具(eclipse/idea/vscode等)&#xff1a; 数据库(sqlite/mysql/sqlserver等)&#xff1a; 功能模块(请用文字描述&#xff0c;至少200字)&#xff1a; 1

docker-compose安装部署kafka

文章目录前言一、环境信息二、准备部署1.准备路径2.安装docker-compse&#xff0c;下载镜像3.生成yml文件2.执行部署三、登陆页面前言 记录一下使用docker-compose部署kafka平台的过程 参考&#xff1a;https://blog.csdn.net/QQ83512272/article/details/126368978 一、环境信…

Socket Websocket 客户端和服务端实现

最近在写一个上位机&#xff0c;用到了Websocket&#xff0c;这里就整理一下&#xff0c;顺便把Socket的东西也整理的了&#xff0c;方便以后查阅。 Socket Websocket 客户端和服务端实现Socket客户端和服务端实现Socket客户端Socket服务端实现效果Websocket 客户端和服务端实现…

QT Linux环境搭建——VM虚拟机和Ubuntu的安装

1、从ubuntu官网上下载iso镜像文件&#xff0c;该镜像文件用于安装linux操作系统&#xff0c;以下微官网链接 Enterprise Open Source and Linux | Ubuntu 选择一个最新的稳定版本下载即可&#xff08;好处是&#xff0c;不需要像一些别的网站&#xff0c;必须要注册&#xff…

基于java+springmvc+mybatis+vue+mysql的远程家庭健康监测管理系统小程序

项目介绍 本系统采用java语言开发&#xff0c;后端采用ssm框架&#xff0c;前端采用vue技术&#xff0c;数据库采用mysql进行数据存储。 前台&#xff1a; 登录注册、查看个人信息、留言反馈、查看健康信息、查看百科、社区交流 后台&#xff1a; 首页、个人中心、用户管理、…

陈天老师的Rust培训(2)学习笔记

所有权&#xff1a; Rust中的每一个值都有一个被称为其 所有者&#xff08;owner&#xff09;的变量值在任一时刻有且只有一个所有者。当所有者(变量)离开作用域的时候&#xff0c;这个值将被丢弃。 Copy的类型&#xff1a; 所有整数类型&#xff0c;比如u32。布尔类型所有浮…

本地springboot jar 部署到云服务器linux [安装jdk 安装msyql]

A). 安装jdk 参考博客CentOS 8 安装 JAVA 三种方式(yum / rpm / tar.gz) [rootiZt4ned91xzjstx1s6ftjvZ local]# rpm -qa |grep java [rootiZt4ned91xzjstx1s6ftjvZ local]# rpm -qa |grep jdk [rootiZt4ned91xzjstx1s6ftjvZ local]# rpm -qa |grep jre [rootiZt4ned91xzjstx…