2023年4月份上新的Transformer模型设计系列论文(附下载链接)

news2024/12/23 18:03:07

来源:投稿 作者:王老师
编辑:学姐

论文1

论文标题:
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention**
滑动Transformer:具有局部自注意的分层视觉Transformer

论文链接:https://arxiv.org/pdf/2304.04237.pdf
代码链接:https://github.com/LeapLabTHU/Slide-Transformer

发表在CVPR 2023

自注意机制是视觉Transformer(ViT)最近进展的一个关键因素,它能够从全局上下文中进行自适应特征提取。然而,现有的自注意方法要么采用稀疏全局注意,要么采用窗口注意来降低计算复杂度,这可能会影响局部特征学习,或者受到一些手工设计的影响。相比之下,局部注意力将每个查询的感受野限制在其自己的相邻像素,它同时享受卷积和自注意力的好处,即局部归纳偏差和动态特征选择。

然而,当前的局部注意力模块要么使用低效的Im2Col函数,要么依赖于特定的CUDA内核,这些内核很难推广到没有CUDA支持的设备。在本文中,我们提出了一种新的局部注意力模块Slide attention,它利用常见的卷积运算来实现高效率、灵活性和可推广性。具体来说,我们首先从一个新的基于行的角度重新解释基于列的Im2Col函数,并使用深度卷积作为一种有效的替代。在此基础上,我们提出了一种基于重新参数化技术的变形移位模块,该模块将固定的键/值位置进一步放宽到局部区域中的变形特征。通过这种方式,我们的模块以高效和灵活的方式实现了局部注意力范式。大量实验表明,我们的滑动Transformer模块适用于各种先进的Vision Transformer模型,并与各种硬件设备兼容,并在Benchmark上实现了持续改进的性能优势。

论文2

论文标题:
Token Boosting for Robust Self-Supervised Visual Transformer Pre-training
用于鲁棒自监督视觉Transformer预训练的Token提升

论文链接:https://arxiv.org/pdf/2304.04175v1.pdf
代码链接:暂未开源

发表在CVPR 2023

使用大规模未标记数据进行学习已成为预训练视觉Transformer(VT)的强大工具。然而,先前的工作往往忽略了在现实世界的场景中,输入数据可能被破坏和不可靠。在这种损坏的数据上预训练VT可能具有挑战性,尤其是当我们通过掩蔽自动编码方法进行预训练时,在这种情况下,输入和掩蔽的“地面实况”目标都可能不可靠。为了解决这一限制,我们引入了Token提升模块(TBM)作为VT的即插即用组件,它有效地允许VT在掩蔽自动编码预训练期间学习提取干净和稳健的特征。我们提供了理论分析,以表明TBM如何通过更稳健和可推广的表示来改进模型预训练,从而有利于下游任务。我们进行了大量实验来分析TBM的有效性,在四个损坏的数据集上的结果表明,TBM持续提高了下游任务的性能

论文3

论文标题:
PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and Progressive Shif

论文链接:https://arxiv.org/pdf/2304.03481.pdf
代码链接:https://isee-ai.cn/wugaojie/PSLT.html.

发表于TPAMI 2023

视觉Transformer(ViT)由于其建模长期依赖性的能力,在各种视觉任务中显示出巨大的潜力。然而,ViT需要大量的计算资源来计算全局自注意。在这项工作中,我们提出了一种具有多个分支和渐进移位机制的梯形自注意块,以开发一种需要较少计算资源(例如,相对较少的参数和FLOP)的轻量级变换器主干,称为渐进移位梯形变换器(PSLT)。首先,梯形自注意块通过对每个分支中的局部自注意进行建模来降低计算成本。同时,提出了渐进转移机制,通过为每个分支建模不同的局部自我注意并在这些分支之间相互作用,来扩大梯形自我注意块中的感受野。第二,梯形自注意块的输入特征沿着每个分支的通道维度被平均分割,这显著降低了梯形自关注块的计算成本(参数和FLOP的数量接近13),然后通过像素自适应融合来协作这些分支的输出。因此,具有相对少量参数和FLOP的梯形自注意块能够对长距离相互作用进行建模。基于梯形自注意块,PSLT在图像分类、目标检测和人物重新识别等视觉任务上表现良好。在ImageNet 1k数据集上,PSLT以9.2M个参数和1.9G FLOP实现了79.9%的前1精度,这与现有的几个具有超过20M个参数和4G FLOP的模型相当。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取CV方向顶会必读论文

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/449558.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT 克隆方案,开源了!开箱即用

什么是 ChatGPT ChatGPT是一种基于人工智能技术的大型语言模型,它能够理解和处理人类自然语言,并且在回答问题、生成文本和模拟对话等方面表现出色。ChatGPT使用的是GPT-3.5架构,它在训练过程中接触了大量的语言数据,并利用这些数…

机器学习算法系列(四)-- 决策树

机器学习算法之–决策树 最经典的机器学习模型之一,成树型结构,决策树的目的是为了产生一颗泛化能力强,处理未见实例能力强的树,通过特征判断不断分类,基本流程遵循“分而治之”的递归分类策略。 一、算法原理 1.1、特…

《C++程序设计原理与实践》笔记 第17章 向量和自由空间

本章和后面四章介绍C标准库的容器和算法部分(通常称为STL)。本章和后面两张的重点是最常用、最有用的STL容器——向量的设计和实现。 17.1 引言 C标准库中最有用的容器是vector。vector提供了给定类型的元素序列。标准库vector是一个方便、灵活、&…

Redis从零上手

文章目录 NoSQL概述互联网发展史单机MySQL的年代(90年代)缓存时代: Memcached MySQL 垂直拆分(读写分离)分库分表 水平拆分(MySQL集群)如今最近的年代 为什么要用NoSQL什么是NoSQLNoSQL特点阿里巴巴演进分析阿里巴巴中文站架构发展历程简单分析 NoSQL…

MySQL架构设计其实很简单

一、概述 我们很多互联网项目首选的数据库就是MySql5.7,因为免费,支持数据库主从复制,读写分离,且语法简单,容易上手,虽然对sql的函数、触发器、存储过程有一定的了解,也能说出一些优化sql语句…

基于SpringBoot+Vue的前后端分离的博客管理系统

菜单 首页写文章内容管理 博客管理相册管理归档登录、注册(项目整合了shiro+jwt+redis,用户未登录不能发布博客、内容管理、相册、归档等功能) 文章​​​​​​​末尾赋前后端代码以及数据库文件链接!!! 1 首页 首页包括菜单、博客、登录用户、推荐博客排行、博客分类…

Autosar-Interface接口

文章目录 一、Autosar接口1、AUTOSAR Interface2、Standardized Interface3、Standardized AUTOSAR Interface二、AUTOSAR接口的通用规则三、示例-存储四、总结一、Autosar接口 在Autosar里规定了三类接口,分别是AUTOSAR接口,标准AUTOSAR接口和标准接口。 下图将所有的接口…

【Linux】I/O复用

概述 I/O复用使得程序能同时监听多个文件描述符,看文件上是否有用户感兴趣的事件发生,提高程序性能。 使用I/O复用技术的情况: 客户端同时处理多个套接字 客户端同时处理用户输入和网络连接 同时监听多个端口 同时处理TCP和UDP请求 TCP服务器…

【JavaEE】文件操作(InputStream、OutputStream)

博主简介:想进大厂的打工人博主主页:xyk:所属专栏: JavaEE初阶 在Java中总会用到文件操作,比如从盘符读写文件,按字节和字符进行数据读写,那么你真的认识什么是文件路径吗?平时谈到的“文件”,…

mybatis实现CRUD详解(使用mapper映射文件实现增删改查)

mybatis实现CRUD详解(使用mapper映射文件实现增删改查) 创建maven项目&#xff1a;项目结构如图所示 准备数据库表&#xff1a; 准备pom.xml所需的依赖&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.…

快速弄懂RPC

快速弄懂RPC 常见的远程通信方式远程调用RPC协议RPC的运用场景和优势 常见的远程通信方式 基于REST架构的HTTP协议以及基于RPC协议的RPC框架。 远程调用 是指跨进程的功能调用。 跨进程可以理解为一个计算机节点的多个进程或者多个计算机节点的多个进程。 RPC协议 远程过…

C++string类

&#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;C &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 本博客主要内容讲解了C中的string类以及类内的一些常用函数 Cstring类 文章…

k8s_3节点集群部署

背景 近期想在自己电脑上部署一套3节点K8s 作为自己平时的学习测试环境。 本来想看一下有没有比较便捷的部署方式如&#xff1a; rancherdesktop: https://docs.rancherdesktop.io/zh/next/getting-started/installation/ sealos: https://www.sealos.io/docs/getting-started…

【超算/先进计算学习】日报3

目录 今日已完成任务列表遇到的问题及解决方案任务完成详细笔记作业管理系统 slurm作业管理系统及常用用户命令节点状态查询/作业提交命令作业队列查询/作业取消命令任务练习 调试器 GDB实时调试core 文件调试 对自己的表现是否满意简述下次计划其他反馈 今日已完成任务列表 4-…

Spring的体系结构

Spring的体系结构 一、Spring简介1. Spring介绍1.1 为什么要学1.2 学什么1.3 怎么学 2. 初识Spring2.1 Spring家族2.2 Spring发展史 3. Spring体系结构3.1 Spring Framework系统架构图3.2 Spring Framework课程学习路线 4. Spring核心概念4.1 目前我们代码存在的问题4.2 核心概…

『Linux从入门到精通』第 ⑫ 期 -深入了解冯诺依曼体系结构与操作系统(Operator System)

文章目录 &#x1f490;专栏导读&#x1f490;文章导读&#x1f337;计算机之父——冯诺依曼&#x1f337;冯诺依曼体系结构&#x1f33a;木桶效应 &#x1f337;操作系统(Operator System)&#x1f33a;如何理解操作系统&#x1f33a;系统调用和库函数概念 &#x1f490;专栏导…

论文结构商讨

论文查重 pass软件 提出问题 1、由于选取的算法太多了&#xff0c;不知道是简单介绍&#xff0c;还是深入介绍 希望找到一个具体的模板 2、数据库要是用一个就在前面介绍&#xff0c;用不一样的就在每章里面分别介绍 4、数据集介绍放在那个具体位置&#xff1f; 如果可以画出…

蓝精灵事件来袭: 深受喜爱的蓝色角色来 Web3 啦!

起源于漫画并成为国际知名的卡通和电影明星的蓝色x小家伙正在进入 NFT 舞台。 作者&#xff1a;Coindesk——Toby Bochan 因漫画、卡通片和电影而闻名的热门动画系列“蓝精灵”正在展开新的冒险&#xff0c;由蓝精灵协会推出一系列新的非同质化通证&#xff08;NFT&#xff09;…

汽车ECU的内部构成与功能模块

摘要&#xff1a; ECU作为与外部通信的接口&#xff0c;为了通过微控制器运算实现符合实际状态的最佳控制&#xff0c;需要检测外部状态的输入手段及实际控制驱动的输出手段。 1. 常规功能模块 ① 电源&#xff1a;向ECU内的各模块提供稳定的电压&#xff08;5V、3V等&#xf…

sequelize + Nodejs + MySQL 的简单用法

How to Use Sequelize ORM in NodeJS - Tutorial 1 Sequlize 简介 Sequelize 是最流行的可以与 Nodejs 一起使用的一种关系数据库 ORM (Object-relational mapping 对象关系映射)&#xff0c;Mongoose 是 MongoDB 的 ORM. Sequelize 的作用&#xff0c;简单地说&#xff0c;就…