swin-transformer

news2025/1/10 17:45:37

面向视觉任务的transfomer

Vision Transformer(ViT)在视觉任务中的局限性

  • 需求数据量巨大

    CNN中是图像整体输入,并且经过多年的演变,发展出了多个不同的优化策略。从而在学习时能够在一定先验知识的前提下拟合数据。

    而transformer是将图像切割成若干较小的patch,并拉伸成向量。从而难以获得图像关联信息,缺少大量先验知识。

    对此,需要从大量数据中学习这些先验知识。大量例子证明,在数据量足够充分的前提下,transformer能够获得比CNN更好的效果。

    但是在小规模数据中,由于无法有效学习到数据的先验知识,反而会比CNN更低。

  • 计算量大

    事实上,transformer所包含的参数通常要大于CNN。

    其主要原因在于:transformer的模型结构就导致学习数据非常的难,因此需要更多的hidden layer来学习数据的本质分布。

    为了达到这一目的,通常要累加很多层transoformer结构,因此也更加的庞大。

在视觉领域中的具体困难

1. 大尺寸图像计算量爆炸

2. 尺度固定为16*16

Swin transformer的解决之道:用CNN的精神

swin-transformer结构图

按照"长宽各减一半,channel数增加一倍"的‘规则’进行

transformer需要大量数据原因之一:因为将先验知识(序列或图片切成小patch拉成一个向量)结构被破坏,因此需要更多的数据去训练。

swin与vit不同的是:不与所有的token做相关性,而是跟它相近的(周边邻域(4个或5个))token做相关性,感受野逐渐扩大,与cnn神似;
线性变换降维:通过mlp或1*1卷积进行降维

patch partition:将图片分割成小块block(如:win size: 7*7),在通过1*1卷积将通道数3变为48

swin transformer用CNN的方式去构建网络,用卷积局部化的思想,基于self-attention的方式去搭建网络,实现图像编码

其中主要包含3个主要内容:

  1. patch partition: 类似于池化

  2. shift操作:令不同token之间有通信,减少计算量

  3. 相对位置编码:进一步加强token之间的上下文关系

patch partition

MSA和WMSA

复杂度比较

对于MSA的复杂度大约为:

对于W MSA来说

M:切割后的尺寸,如上图:M=2 ,但每个block之间没有关联起来,解决:shift

shift操作

问题:原来4个token,现在变成9个token了

解决:挪动一些token

新问题:特征乱窜

解决: 加mask

位置偏置

位置偏置就是将位置信息作为偏置,加入向量。

imagenet上加入位置偏置可以有3%的提升。

具体步骤为:

  • 计算每个token的相对位置坐标

  • 拉伸后合并成一个矩阵

  • 合并成一维位置向量(全部加上M-1,行再乘以2M-1,行列相加)

  • 可训练参数B作为偏置value的索引,查表将偏置作为归一化后的偏置信息

B:位置编码(增加每个token的位置信息)

总体架构

Token

在计算机视觉中,Token通常指的是一种用于表示图像或文本中的最小单位的符号或标记。这些符号或标记可以是像素、单词、字符或其他更高级的语义单位。

在图像处理中,Token可以是图像的像素、图像块、特征点或其他表示图像信息的单位。例如,在图像分类或目标检测任务中,可以将图像划分为不同的图像块,并将每个图像块视为一个Token来进行处理。

在自然语言处理中,Token通常指的是将文本分割成单词、字符或其他语义单位的过程。这些Token可以用于文本的分析、语义理解、机器翻译等任务。例如,在文本分类任务中,可以将文本分割成单词并将每个单词视为一个Token来进行处理。

Token在计算机视觉中的应用非常广泛,可以用于图像处理、目标识别、图像分割、文本处理等各种任务中。通过将图像或文本分割成Token,可以更好地理解和处理图像或文本数据,从而提高计算机视觉任务的性能和效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/752023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

精彩回放 | AI驱动下的流程挖掘如何提升企业决策和运营效率?

流程挖掘是一种从事件日志中发现、监控和优化实际业务流程的技术。在AI的驱动下,流程挖掘能进行更深层次的自动化和智能化处理,从而帮助企业更准确地了解和优化业务流程,提高决策的精确度和运营的效率。然而,AI驱动的流程挖掘在实…

FPGA——pwm呼吸灯

文章目录 一、实验环境二、实验任务三、实验过程3.1 verilog代码3.2 引脚配置 四、仿真4.1 仿真代码4.2 仿真结果 五、实验结果六、总结 一、实验环境 quartus 18.1 modelsim vscode Cyclone IV开发板 二、实验任务 呼吸灯是指灯光在微电脑的控制之下完成由亮到暗的逐渐变化…

便捷查物流教程

当下寄递物品早已成为常态,而如何快速进行物流信息查询,成为收寄人所关心的问题。在回答这个问题之前,首先我们要知道,物流信息查询,有哪些方法? 1、官网单号查询 知道快递公司和单号的情况下,…

目标检测——目标检测概述

目录 目标检测常用的开源数据集PASCAL VOC数据集MS COCO数据集 常用的评价指标IOU(交并比)mAP(Mean Average Precision) NMS(非极大值抑制)目标检测方法分类 目标检测 常用的开源数据集 PASCAL VOC数据集 …

遭遇勒索攻击,日本名古屋港停摆两天!

日前,中央社东京报道一则勒索软件讯息。日本名古屋港的货柜码头遭受勒索病毒攻击后发生系统故障,系统数据已被加密,无法装卸货柜,造成港内5处货柜码头全数停摆长达两天,造成了巨额损失。 名古屋港是日本汽车产业聚集的…

ArcGIS如何制作横版图例

如果你经常制图,肯定使用过插入图例这个功能,默认情况下,插入的图例是竖着的,在某些情况下,如果需要横着的图例是否可以实现呢,答案是肯定的,这里为大家介绍一下ArcGIS如何制作横版图例&#xf…

DC电源模块输出电压的关键参数详细说明

BOSHIDA DC电源模块输出电压的关键参数详细说明 DC电源模块是一种直流电源设备,广泛应用于各种电子设备的供电系统中。DC电源模块的输出电压是其中一个非常关键的参数,对于电子设备的性能和稳定性都有着重要的影响。以下将详细描述DC电源模块输出电压的…

状态模式:实现对象状态的封装和切换

状态模式是一种行为设计模式,它允许对象在内部状态改变时改变其行为。该模式将对象的行为封装在不同的状态类中,使得对象可以根据其内部状态的改变而改变行为,从而实现了状态和行为的解耦。 结构和参与者 状态模式包含以下几个关键角色&…

什么是RPC并实现一个简单的RPC

1. 基本的RPC模型 主要介绍RPC是什么,基本的RPC代码,RPC与REST的区别,gRPC的使用 1.1 基本概念 RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务本地过程调用&am…

【仲裁器】轮询仲裁round-robin,rr

起因:在多主单从的设计中,当多个源端同时发起传输请求时,需要仲裁器根据优先级来判断响应哪一个源端。轮询仲裁:各个源端优先级相同,当其同时发起请求时,依次进行响应。 电路图 代码 module rr_arb(input…

ACREL-5000能耗管理系统在某机场的应用 安科瑞 许敏

摘要:大型公共建筑总面积不足城镇建筑总面积的4%,但总能耗却占全国城镇总耗电量的22%,大型公共建筑单位面积年耗电量达到70~300KWh,为普通居民住宅的10~20倍。公共建筑是节能大户和节能重点,做好…

【HarmonyOS】ArkTS学习之基于TextTimer的简易计时器

【关键字】 ArkTS、计时器、TextTimer 【介绍】 TextTimer是ArkTS提供的通过文本显示计时信息并控制其计时器状态的组件。今天就给大家展示一个基于TextTimer的简易计时器的实现吧。在使用之前我们要先了解它的用法: TextTimer(options?: { isCountDown?: boolean…

【文末送书】Python深度学习(基于PyTorch)

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。搜…

FIR 滤波器去除噪声

目录 FIR 滤波器去除噪声 解决方案一:滑动平均滤波方法 解决方案二:另外一种理解角度-----引入权重系数概念 FIR滤波器表达式 FIR滤波器 一、FIR滤波器的基本结构 二、FIR滤波器的设计方法 1、频率采样法 2、窗函数法 三、FIR滤波器的性能指标 …

【2023,学点儿新Java-33】字符型变量char | 布尔类型变量 boolean:true、false

前情提要: 【2023,学点儿新Java-32】Java基础小练习:根据圆周率与半径求圆的面积 | 温度转换 | 计算矩形面积 | 判断奇偶数 | 年龄分类【2023,学点儿新Java-31】测试:整型和浮点型变量的使用 | 附:计算机存…

(超详解)--->自定义类型(结构体,枚举,联合)

目录 本章学习重点: 1:结构体类型的声明与变量的定义 2:如何求解结构体的大小(结构体的内存对齐) 3:结构体传参,结构体实现位段 4:枚举类型的定义和优点 5:联合的定义与特点及大小的计算 1:结构…

Kind | Kubernetes in Docker 把k8s装进docker!

有点像杰克船长的黑珍珠 目录 零、说明 一、安装 安装 Docker 安装 kubectl 安装 kind 二、创建/切换/删除集群 创建 切换 删除 将镜像加载到 kind 群集中 零、说明 官网:kind Kind: Kubernetes in Docker 的简称。kind 是一个使用 Docker 容…

【技能实训】DMS数据挖掘项目-Day09

文章目录 任务9【任务9.1.1】升级DataBase类为可序列化的类,以便在文件保存或网络中传递【任务9.1.2】升级LogRec类为可序列化的类,以便在文件保存或网络中传递【任务9.1.3】升级MatchedLogRec类为可序列化的类,以便在文件保存或网络中传递【…

java通过正则表达式提取信息

java通过正则表达式提取信息 工具类如下 package com.datafactory.util;import lombok.extern.slf4j.Slf4j; import org.springframework.stereotype.Component;import java.util.regex.Matcher; import java.util.regex.Pattern;Component Slf4j public class RegexUtils {/…

“简单易懂的排序:深入了解直接选择排序“

文章目录 🔍 选择排序的原理与过程📈 选择排序的优缺点👉 代码实现 🔍 选择排序的原理与过程 本文我们直接说一个优化过的直接选择排序。其思路大同小异. 选择排序的思路很简单 每次从待排序的数据中选择一个最小和最大的元素&a…