视觉Transformer(ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

news2024/12/23 20:26:35

【视觉Transformer】(Vision Transformer, ViT) 是一种革命性的技术,它将Transformer架构应用于视觉识别任务,通过自注意力机制来捕捉图像中的特征关系,显著增强了模型对视觉信息的解析力。这一领域的研究不仅打破了传统卷积神经网络(CNN)在特征提取方面的限制,还为计算机视觉带来了全新的模型设计和更强的表征能力,从而在图像分类、目标检测、语义分割等多个领域实现了性能的飞跃。此外,视觉Transformer的研究深化了我们对深度学习中注意力机制的理解,并激发了模型设计的创新,如通过局部注意力机制降低计算成本,或通过结构性重参数化提高效率。视觉Transformer的进展为处理跨模态任务和大规模视觉识别挑战提供了新的工具,推动了人工智能在视觉识别领域的快速发展。

为了促进对【视觉Transformer】技术的深入理解和创新,我们精心汇总了近两年内该领域在顶级会议和期刊上发表的15篇重要研究成果。这些论文涵盖了最新的理论进展、实验方法和应用案例,同时提供了相应的代码资源,以期为研究人员和实践者提供丰富的学术参考和灵感启发。希望通过这份精心整理的资料,能够帮助大家在视觉Transformer的研究和应用上取得新的突破。

三篇论文解析

1、Super Vision Transformer: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer

方法
  • SuperViT (Super Vision Transformer): 提出了一种新的训练范式,通过训练一个能够处理不同尺寸输入图像并且能够在多种计算成本下提供改进图像识别性能的ViT模型。

  • 多尺寸补丁分割: 将输入图像复制到多个并行分支中,每个分支负责特定尺寸的局部补丁分割,以注入不同尺寸补丁的信息。

  • 多令牌保持率: 在训练过程中考虑多种令牌保持率,以挖掘图像中的冗余区域并减少计算成本。

  • 硬件效率: SuperViT能够在不同硬件资源条件下动态适应,通过调整输入图像的补丁大小和令牌保持率来实现快速的准确性-效率权衡。

  • 训练目标: 使用交叉熵损失和Kullback-Leibler散度来训练SuperViT,以处理不同尺寸的补丁和不同的令牌保持率。

创新点
  • 激活稀疏性的重新审视: 提出了一种新的训练范式,使得一个ViT模型能够在保持高分辨率信息的同时,根据当前可用的硬件资源动态调整其复杂性。

  • 多尺寸和多保持率的训练: 通过在训练过程中考虑多种补丁尺寸和令牌保持率,SuperViT能够在测试阶段适应不同的计算成本,从而提高性能。

  • 硬件效率的优化: SuperViT能够在各种硬件平台上实现高效的部署,甚至在相同工作站上的硬件资源(如电池条件或工作负载)发生变化时,也能够通过简单地调整输入图像的补丁大小和令牌保持率来实现即时和自适应的准确性-效率权衡。

  • 提高ViT模型的计算效率: 通过减少令牌数量和在训练过程中注入多尺寸补丁的信息,SuperViT在减少计算成本的同时,甚至能够提高模型的性能。

  • 一种新的训练目标: 通过结合交叉熵损失和Kullback-Leibler散度,SuperViT能够在训练过程中同时考虑不同尺寸的补丁和不同的令牌保持率,从而实现更好的性能。

IMG_256

2、Vicinity Vision Transformer

方法

Vicinity Vision Transformer (VVT) 是一种新型的视觉Transformer骨干网络,它通过以下方法来提高视觉任务的性能和计算效率:

  • Vicinity Attention:提出了一种新型的线性注意力机制,称为Vicinity Attention,它通过2D曼哈顿距离来调整图像块之间的注意力权重,从而使相邻的图像块获得更强的注意力。

  • Feature Reduction Attention (FRA):为了解决线性注意力在特征维度上的二次方计算复杂度问题,提出了FRA,它通过减少输入特征维度来降低计算复杂度。

  • Feature Preserving Connection (FPC):为了弥补FRA可能带来的特征信息损失,引入了FPC,它通过额外的跳跃连接来保留原始特征分布,增强特征提取能力。

  • 金字塔结构:VVT采用金字塔结构,从高分辨率的图像块开始,逐步缩小尺寸以适应不同视觉任务的多尺度输出需求。

创新点
  • 2D局部性引入:VVT首次在视觉Transformer的线性自注意力中引入了2D局部性偏置,这有助于模型更好地理解和处理图像中的局部特征。

  • 线性复杂度的自注意力:通过Vicinity Attention,VVT实现了线性复杂度的自注意力计算,这使得模型能够处理更高分辨率的图像,同时保持计算效率。

  • Vicinity Attention Block:提出了一种新的注意力结构,即Vicinity Attention Block,它结合了FRA和FPC,不仅减少了计算量,还保持了模型的准确性。

  • 多尺度特征输出:VVT的金字塔结构能够生成不同尺度的特征图,这使得它能够适应各种视觉任务,如图像分类和语义分割。

  • 参数和计算效率:在保持或提高性能的同时,VVT在参数数量和计算量上都比现有的Transformer和卷积网络更高效,尤其是在处理高分辨率输入时。

IMG_257

3、WetMapFormer: A unified deep CNN and vision transformer for complex wetland mapping

方法

WetMapFormer 是一种结合了深度卷积神经网络(CNN)和视觉变换器(ViT)的深度学习算法,用于精确映射复杂湿地。具体方法包括:

  • 特征提取器:使用3D和2D卷积操作来提取光学和SAR数据的特征。

  • 深度可分离卷积块:采用轻量级的CNN架构,通过并行的深度可分离卷积来提取多尺度特征。

  • 局部窗口注意力(Local Window Attention, LWA):代替传统的自注意力机制,通过限制每个查询令牌的感受野到其邻域区域,以提高局部特征泛化能力,同时显著降低计算成本。

  • 编码器-解码器架构:采用编码器-解码器网络来进一步提取和细化特征。

  • 前馈网络(Feed-Forward Network, FFN):使用密集层对特征进行进一步的处理,以生成类别概率。

创新点
  • CNN与ViT的融合:提出了一种新的深度学习框架,有效结合了CNN和视觉变换器架构,以提高湿地分类的准确性。

  • 局部窗口注意力(LWA):开发了一种新的注意力机制,与常规的自注意力相比,能够减少计算成本,同时保持特征提取的有效性。

  • 计算效率:与原始ViT相比,WetMapFormer通过LWA显著降低了计算成本,使得模型更适合于大规模湿地制图。

  • 特征提取的改进:通过3D和2D卷积的结合,以及深度可分离卷积的使用,提高了特征提取的能力,尤其是在处理光学和SAR数据时。

  • 数据集和实验验证:在加拿大新不伦瑞克省的三个试点地区使用Sentinel-1和Sentinel-2卫星数据进行了广泛的实验验证,并与多种CNN和视觉变换器模型进行了比较,证明了WetMapFormer的有效性。

IMG_258

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143907.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【BFS专题】— 解决拓扑排序问题

拓扑排序介绍&#xff1a; 1、课程表 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; 通过Map<Integer, List<Integer>> 来创建邻接图&#xff0c;数组来表示入度然后遍历课程数组&#xff0c;建图然后再拓扑排序&#xff0c;bfs最后在遍历入度数组&…

ADB ROOT开启流程

开启adb root 选项后&#xff0c;执行如下代码&#xff1a; packages/apps/Settings/src/com/android/settings/development/AdbRootPreferenceController.java mADBRootService new ADBRootService(); Override public boolean onPreferenceChange(Preference preference…

(十五)、把自己的镜像推送到 DockerHub

文章目录 1、登录Docker Hub2、标记&#xff08;Tag&#xff09;镜像3、推送&#xff08;Push&#xff09;镜像4、查看镜像5、下载镜像6、设置镜像为公开或者私有 1、登录Docker Hub 需要科学上网 https://hub.docker.com/ 如果没有账户&#xff0c;需要先注册一个。登录命令如…

基于用户增长的动销方案实践!

在竞争激烈的市场环境下&#xff0c;实现用户增长和推动产品动销至关重要。 首先&#xff0c;明确市场定位与目标用户群体&#xff0c;通过市场调研深入了解用户需求和痛点&#xff0c;进行精准营销。同时&#xff0c;不断优化用户体验&#xff0c;提升产品质量和性能&#xff…

服装企业必备增长利器:高效商品管理系统

在时尚界的快车道上&#xff0c;服装企业如同驾驶着赛车&#xff0c;在瞬息万变的市场中疾驰。为了在这场激烈的竞赛中保持领先&#xff0c;服装企业迫切需要一把能够助其精准操作、高效运转的钥匙——商品管理系统。这不仅仅是一个软件工具&#xff0c;更是企业应对市场挑战、…

碰撞检测 | 图解线段几何与线段相交检测原理(附ROS C++可视化)

目录 0 专栏介绍1 线段与线段相交检测2 线段与圆相交检测3 线段与矩形相交检测4 算法仿真与可视化4.1 核心算法4.2 仿真实验 0 专栏介绍 &#x1f525;课设、毕设、创新竞赛必备&#xff01;&#x1f525;本专栏涉及更高阶的运动规划算法轨迹优化实战&#xff0c;包括&#xf…

[Java]maven从入门到进阶

介绍 apache旗下的开源项目,用于管理和构建java项目的工具 官网: Welcome to The Apache Software Foundation! 1.依赖管理 通过简单的配置, 就可以方便的管理项目依赖的资源(jar包), 避免版本冲突问题 优势: 基于项目对象模型(POM),通过一小段描述信息来管理项目的构建 2…

第六天旅游线路规划

第五天&#xff1a;从贾登峪返回乌鲁木齐&#xff1b; 第六天&#xff1a;从乌鲁木齐到天山天池&#xff0c;晚上回乌鲁木齐住宿。 第六天从乌鲁木齐到天山天池景区入口的的规划结果见下图&#xff1a; 1、行程安排 根据上面的耗时情况&#xff0c;规划一天的行程安排如下&a…

OFDM简介

OFDM(Orthogonal Frequency Division Multiplexing)全称为正交频分复用&#xff0c;在无线通信中被广泛应用。本文结合下图对OFDM的基本原理进行说明。 图1. OFDM信号生成流程示意图 上图为OFDM信号生成、传输和接收的整体流程图。结合该流程图对其中每一个模块进行详细说明。 …

Logstash 安装与部署(无坑版)

下载 版本对照关系&#xff1a;ElasticSearch 7.9.2 和 Logstash 7.9.2 &#xff1b; 官方下载地址 选择ElasticSearch版本一致的Logstash版本 https://www.elastic.co/cn/downloads/logstash 下载链接&#xff1a;https://artifacts.elastic.co/downloads/logstash/logst…

一、XML与Tomcat

文章目录 1. XML简介1.1 什么是XML1.2 XML的作用 2. XML语法2.1 文档声明2.2 xml 注释2.3 元素&#xff08;标签&#xff09;2.4 xml 属性2.5 语法规则2.5.1 所有XML元素都须有关闭标签&#xff08;也就是闭合&#xff09;2.5.2 XML 标签对大小写敏感2.5.3 XML 必须正确地嵌套2…

# windows 运行框输入mrt提示错误:Windows 找不到文件‘mrt‘。请确定文件名是否正确后,再试一次

windows 运行框输入mrt提示错误&#xff1a;Windows 找不到文件’mrt’。请确定文件名是否正确后&#xff0c;再试一次 一、错误描述&#xff1a; 当您在 windows 运行框中输入mrt并收到错误提示“Windows 找不到文件’mrt’。请确定文件名是否正确后,再试”时&#xff0c;这…

【无人机设计与控制】四旋翼无人机轨迹跟踪及避障Matlab代码

摘要 本文主要研究了四旋翼无人机在复杂环境中的轨迹跟踪与避障控制策略。通过Matlab/Simulink对四旋翼无人机进行了建模与仿真。系统集成了避障算法&#xff0c;使得无人机在执行任务时能够有效避开障碍物&#xff0c;保证飞行的安全性与稳定性。 理论 无人机飞行控制通常涉…

着色器 简介

着色器&#xff08;Shader&#xff09;是运行在 GPU 上的小程序。这些小程序为图形渲染管线的某个特定部分而运行。从基本意义上来说&#xff0c;着色器只是一种把输入转化为输出的程序。着色器也是一种非常独立的程序&#xff0c;因为它们之间不能相互通信&#xff1b;它们之间…

【JavaSE】--数组的定义与使用

文章目录 1. 数组的基本概念1.1 什么是数组1.2 数组的创建及初始化1.2.1 数组的创建1.2.2 数组的初始化 1.3 数组的使用1.3.1 数组中元素访问1.3.2 遍历数组 2. 数组是引用类型2.1 初识JVM的内存分布2.2 基本类型变量与引用类型变量的区别2.3 再谈引用变量2.4 认识null 3. 数组…

es的封装

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、类和接口介绍0.封装思想1.es的操作分类 二、创建索引1.成员变量2.构造函数2.添加字段3.发送请求4.创建索引总体代码 三.插入数据四.删除数据五.查询数据 前…

公共建筑能耗监测系统解决方案

jianzhunenghao 建筑节能监测系统公共建筑能耗监测系统建筑能耗监测系统节能监测系统能耗监测建筑能耗监测能耗分析能耗管理能耗预测能耗监控能耗监测平台建筑能耗 介绍 能耗监控系统是为耗电量、耗水量、耗气量&#xff08;天然气量或者煤气量&#xff09;、集中供热耗热量…

STHS34PF80高灵敏度红外感应器(2)----InfraredPD存在感应检测

STHS34PF80人体存在传感器.2--InfraredPD存在感应检测 概述视频教学样品申请完整代码下载硬件准备开启CRC串口设置开启X-CUBE-MEMS1InfraredPD文件InfraredPD算法库注意事项对应DEMOMX_MEMS_InitMX_MEMS_Processt_obj_comp&#xff08;补偿后的物体温度&#xff09;t_obj_chang…

清理C盘缓存,电脑缓存清理怎么一键删除,操作简单的教程

清理C盘缓存是维护电脑性能、释放磁盘空间的重要步骤。以下是一个详细且操作简单的教程&#xff0c;旨在帮助用户通过一键或几步操作完成C盘缓存的清理。 1.使用Windows系统自带工具 磁盘清理 1.打开磁盘清理工具&#xff1a; -按下“WinE”打开文件资源管理器…

数据结构与算法——Java实现 5.链表

目录 一、定义 链表的分类 二、性能 随机访问 插入或删除 三、单向链表 链表内部节点类 ① 增加&#xff08;插入&#xff09; 1.头插法 2.寻找最后一个节点位置 3.尾插法 4.根据索引位置插入 ② 删除 1.删除首个结点 2.获取链表的指定索引节点 3.删除链表指定索引元素节点 4.删…