计算机视觉(CV)领域Transformer最新论文及资源整理分享

news2024/11/14 21:33:45

    Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。

    本资源整理了至2021年transformer应用于计算机视觉(CV)领域最新的论文、代码数据等资源,分享给需要的朋友。

     

    资源整理自网络,源地址:https://github.com/DirtyHarryLYL/Transformer-in-Vision

论文资源列表

Surery

    (arXiv 2020.9) Efficient Transformers: A Survey, PDF

    

    (arXiv 2020.1) Transformers in Vision: A Survey, PDF

    

Recent Papers

    (ICLR'21) UPDET: UNIVERSAL MULTI-AGENT REINFORCEMENT LEARNING VIA POLICY DECOUPLING WITH TRANSFORMERS

    

    (ICLR'21) Deformable DETR: Deformable Transformers for End-to-End Object Detection

    

    (ICLR'21) LAMBDANETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION

    

    (ICLR'21) SUPPORT-SET BOTTLENECKS FOR VIDEO-TEXT REPRESENTATION LEARNING, 

    

    (ICLR'21) COLORIZATION TRANSFORMER

    

    (ECCV'20) Multi-modal Transformer for Video Retrieval, 

    

    (ECCV'20) Connecting Vision and Language with Localized Narratives, 

    

    (ECCV'20) DETR: End-to-End Object Detection with Transformers

    

    (CVPR'20) Multi-Modality Cross Attention Network for Image and Sentence Matching

    

    (CVPR'20) Learning Texture Transformer Network for Image Super-Resolution

    

    (CVPR'20) Speech2Action: Cross-modal Supervision for Action Recognition, 

    

    (ICPR'20) Transformer Encoder Reasoning Network

    

    (EMNLP'19) Effective Use of Transformer Networks for Entity Tracking

    

    (arXiv 2021.02) Is Space-Time Attention All You Need for Video Understanding? 

    

    (arXiv 2021.02) Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

    

    (arXiv 2021.02) Video Transformer Network, 

    

    (arXiv 2021.02) Training Vision Transformers for Image Retrieval, 

    

    (arXiv 2021.02) Relaxed Transformer Decoders for Direct Action Proposal Generation

    

    (arXiv 2021.02) TransReID: Transformer-based Object Re-Identification, 

    

    (arXiv 2021.02) Improving Visual Reasoning by Exploiting The Knowledge in Texts, 

    

    (arXiv 2021.01) Fast Convergence of DETR with Spatially Modulated Co-Attention, 

    

    (arXiv 2021.01) Dual-Level Collaborative Transformer for Image Captioning, 

    

    (arXiv 2021.01) SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation (arXiv 2021.1), 

    

    (arXiv 2021.01) CPTR: FULL TRANSFORMER NETWORK FOR IMAGE CAPTIONING, 

    

    (arXiv 2021.01) Trans2Seg: Transparent Object Segmentation with Transformer

    

    (arXiv 2021.01) Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder Network

    

    (arXiv 2021.01) Trear: Transformer-based RGB-D Egocentric Action Recognition, 

    

    (arXiv 2021.01) Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

    

    (arXiv 2021.01) Spherical Transformer: Adapting Spherical Signal to CNNs, 

    

    (arXiv 2021.01) Are We There Yet? Learning to Localize in Embodied Instruction Following, 

    

    (arXiv 2021.01) VinVL: Making Visual Representations Matter in Vision-Language Models, 

    

    (arXiv 2021.01) Bottleneck Transformers for Visual Recognition, 

    

    (arXiv 2021.01) Investigating the Vision Transformer Model for Image Retrieval Tasks, 

    

    (arXiv 2021.01) ADDRESSING SOME LIMITATIONS OF TRANSFORMERS WITH FEEDBACK MEMORY, 

    

    (arXiv 2021.01) Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

    

    (arXiv 2021.01) TrackFormer: Multi-Object Tracking with Transformers, 

    

    (arXiv 2021.01) VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search, 

    

    (arXiv 2021.01) Line Segment Detection Using Transformers without Edges, 

    

    (arXiv 2021.01) Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers, 

    

    (arXiv 2020.12) Accurate Word Representations with Universal Visual Guidance, 

    

    (arXiv 2020.12) DETR for Pedestrian Detection, 

    

    (arXiv 2020.12) Transformer Interpretability Beyond Attention Visualization

    

    (arXiv 2020.12) PCT: Point Cloud Transformer, 

    

    (arXiv 2020.12) TransPose: Towards Explainable Human Pose Estimation by Transformer, 

    

    (arXiv 2020.12) Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

    

    (arXiv 2020.12) Transformer Guided Geometry Model for Flow-Based Unsupervised Visual Odometry, 

    

    (arXiv 2020.12) Transformer for Image Quality Assessment

    

    (arXiv 2020.12) TransTrack: Multiple-Object Tracking with Transformer

    

    (arXiv 2020.12) 3D Object Detection with Pointformer, 

    

    (arXiv 2020.12) Training data-efficient image transformers & distillation through attention, 

    

    (arXiv 2020.12) Toward Transformer-Based Object Detection, 

    

    (arXiv 2020.12) SceneFormer: Indoor Scene Generation with Transformers, 

    

    (arXiv 2020.12) Point Transformer, 

    

    (arXiv 2020.12) End-to-End Human Pose and Mesh Reconstruction with Transformers, 

    

    (arXiv 2020.12) Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting, 

    

    (arXiv 2020.12) Pre-Trained Image Processing Transformer, 

    

    (arXiv 2020.12) Taming Transformers for High-Resolution Image Synthesis

    

    (arXiv 2020.11) End-to-end Lane Shape Prediction with Transformers

    

    (arXiv 2020.11) UP-DETR: Unsupervised Pre-training for Object Detection with Transformers, 

    

    (arXiv 2020.11) End-to-End Video Instance Segmentation with Transformers, 

    

    (arXiv 2020.11) Rethinking Transformer-based Set Prediction for Object Detection, 

    

    (arXiv 2020.11) General Multi-label Image Classification with Transformers, [](https://arxiv.org/pdf/2011.14027}

    

    (arXiv 2020.11) End-to-End Object Detection with Adaptive Clustering Transformer, 

    

    (arXiv 2020.10) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

    

    (arXiv 2020.07) Oscar: Object-Semantics Aligned Pre-training for Vision-and-Language Tasks

    

    (arXiv 2020.07) Feature Pyramid Transformer

    

    (arXiv 2020.06) Visual Transformers: Token-based Image Representation and Processing for Computer Vision, 

    

    (arXiv 2019.08) LXMERT: Learning Cross-Modality Encoder Representations from Transformers

    

往期精品内容推荐

摇身一变,智能对话在物联网的巧妙应用

互联网面试必读-《用算法和数据结构解决问题》免费pdf分享

加州理工《数据驱动算法设计》课程(2020)视频及ppt分享

推荐系统领域常见公共数据集整理分享

20年6月最新-《深度神经网络的高效处理技术综述》免费书分享

Yoshua Bengio-深度学习处理系统2

历史最全图像/视频去模糊化精选论文整理分享

两分钟论文解读之让蒙娜丽莎开口说话

函数式编程规范新书-《Frisby函数式编程的基本指南》最新版pdf免费分享

深度学习基础:正向模型、可微损失函数与优化

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/131812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

梯度,GD梯度下降,SGD随机梯度下降

前言 羊了,但是依旧生龙活虎。补补之前落下的SGD算法,这个在深度学习中应用广泛。 梯度(Gradient) 方向导数 在梯度之前,非常重要一个概念:方向导数,这里uuu是nnn维向量,代表一个…

EMNLP 22:Bi-Directional Iterative Prompt-Tuning for Event Argument Extraction

总结 文中的前向和后向的思想可以借鉴下。 但总的来看,似乎是通过前向和后向来做的ensemble操作,虽然是在一个模型下,但同时前向和后向概率保证,可能能够使得预测更准确。 任务形式:event argument extraction (EAE)…

Java 读取resources下的文件+读取resource文件/路径

Java 读取resources下的文件 文档来源 三种实现方式 pom.xml <!-- commons-io io的工具包 --> <dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.6</version></dependency>…

SSM之Spring(二)

目录 2.3 基于注解管理bean 2.3.1 标记与扫描 2.3.2 基于注解的自动装配 三&#xff1a;AOP 3.1 场景模拟 3.1.1 声明接口 3.1.2 创建实现类 3.1.3 创建带日志功能的实现类 3.1.4 提出问题 3.2 代理模式 3.2.1 概念 3.2.2 静态代理 3.2.3 动态代理 3.2.4 测试 3.3 AO…

ElasticSearch笔记

ELASTICSEARCH笔记 1、安装elastic search dokcer中安装elastic search &#xff08;1&#xff09;下载ealastic search和kibana docker pull elasticsearch:7.6.2 docker pull kibana:7.6.2&#xff08;2&#xff09;配置 mkdir -p /mydata/elasticsearch/config 创建目…

Hex程序烧写到单片机

一、创建一个Keil代码工程 1、在电脑F盘&#xff08;哪个盘可以随意选择&#xff09;上创建项目工程文件夹Template 2、在Template文件中&#xff0c;创建一个main.c文件 3、进入keil主页面&#xff0c;工具栏project---->New uVision project---->选则第一步的工程文…

【数据结构】时间与空间复杂度

&#x1f3d6;️作者&#xff1a;malloc不出对象 ⛺专栏&#xff1a;《初识C语言》 &#x1f466;个人简介&#xff1a;一名双非本科院校大二在读的科班编程菜鸟&#xff0c;努力编程只为赶上各位大佬的步伐&#x1f648;&#x1f648; 目录前言一、算法效率1.1 如何衡量一个算…

【华为上机真题 2022】太阳能板的最大面积

&#x1f388; 作者&#xff1a;Linux猿 &#x1f388; 简介&#xff1a;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我&#xff0c;关注我&#xff0c;有问题私聊&#xff01; &…

ArcGIS基础实验操作100例--实验27细分栅格

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台&#xff1a;ArcGIS 10.6 实验数据&#xff1a;请访问实验1&#xff08;传送门&#xff09; 基础编辑篇--实验27 细分栅格 目录 一、实验背景 二、实验数据 三、实验步骤 方法一&#xff1a;使用…

oneblog博客系统 让你的博客实现图片显示的功能

背景 \ 闲来无事&#xff0c;希望捣腾捣腾计算机&#xff0c;玩一玩网络&#xff0c;自己搭一个博客系统。那么在家搭建一个自己的服务器&#xff0c;并且让别人通过你的博客系统与你交流。多么神奇的事情。 在搭建博客系统的过程中&#xff0c;你需要在后台写好文章。但是在上…

网赚不要当苦力,流量变现才是王道

事实上&#xff0c;大多数互联网从业者脑子里只想到一件事。无脑搬砖一个月挣一万多元。不可否认&#xff0c;有这样的副业&#xff0c;但也需要前提条件。你需要在早期阶段努力工作&#xff0c;然后才能分批赚钱。这是两个概念&#xff0c;一开始就听话。 我从来不建议你做那…

leetcode 155. 最小栈-java题解

题目所属分类 辅助栈 或者一个栈 原题链接 设计一个支持 push &#xff0c;pop &#xff0c;top 操作&#xff0c;并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop() 删除堆栈顶部…

关于gets()与scanf()输入字符串与\0,\n,空格之间的问题

我们都知道输入字符串的话&#xff0c;用gets()函数与scanf()加%s的话都是可以的。同时&#xff0c;一个字符串的结尾默认有一个\0也是老生常谈。 空格 gets() 1. 当gets()碰到空格时就把它当成一个普通的字符来看&#xff0c;没有任何特殊之处可言。 scanf() 1. 如果再输入…

【自学Python】Python特点

Python特点 Python特点教程 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性&#xff0c;相比其他语言经常使用英文关键字&#xff0c;其他语言的一些标点符号&#xff0c;它具有比其他语言更有特色语法结构。 Py…

计算机组成原理实验——一、ALU实验

一、实验目的 1.掌握ALU模块的组成和接口&#xff0c;理解ALU的功 能。 2.通过编程调用ALU模块计算斐波那契数。 3.掌握Verilog中多模块编程方法和实现。 二、实验内容 用 Verilog 设计一个算术运算单元 ALU&#xff0c;采 用纯组合逻辑设计&#xff0c;32bit 宽。 利用该 …

2022(终)最后一篇博客—继承和多态

目录 文章目录 一、继承 1.1为什么要继承 1.2继承概念 1.3继承的语法 1.4成员访问 1.5方法访问 1.6初始化代码块 1.7继承方式 二、多态 1.1多态的概念 1.2多态实现条件 1.3动态绑定与静态绑定 1.4向上转型与向下转型 1.5多态的优缺点 1.6需要注意的地方&#x…

【王道操作系统】1.1.2 操作系统的特征(并发、共享、虚拟、异步)

操作系统的特征(并发、共享、虚拟、异步) 文章目录操作系统的特征(并发、共享、虚拟、异步)1.操作系统特征&#xff1a;并发2.操作系统特征&#xff1a;共享3.操作系统特征&#xff1a;虚拟4.操作系统特征&#xff1a;异步操作系统是一种系统软件&#xff0c;但与其它系统软件和…

NXP的mfgtool镜像烧写工具是如何对EMMC进行分区的

本来是想在IMX6ULL板卡上实现u-boot中显示开机logo的功能的&#xff0c;过程中就牵扯出了这几个问题。大概的缘由是修改了u-boot后&#xff0c;想在系统中直接对EMMC中u-boot进行更新&#xff0c;就不用通过SD卡或USB重新烧写了&#xff1b;在更新的时候&#xff0c;又需要知道…

猿如意程序代码生成实践与测试

ChatGPT中国区申请无法直接注册与使用&#xff1b; 使用csdn提供的猿如意效率工具箱提供的chatGPU功能实现智能程序编写实验&#xff1a; 先安装&#xff1a; csdn猿如意下载地址 选择其中的ChatGPT菜单 在右侧窗口中的输入框&#xff0c;可输入问题内容。 &#xff08;1&a…

〖产品思维训练白宝书 - 产品思维认知篇⑥〗- 职场人面临困惑与迷茫应该如何破局?

大家好&#xff0c;我是 哈士奇 &#xff0c;一位工作了十年的"技术混子"&#xff0c; 致力于为开发者赋能的UP主, 目前正在运营着 TFS_CLUB社区。 &#x1f4ac; 人生格言&#xff1a;优于别人,并不高贵,真正的高贵应该是优于过去的自己。&#x1f4ac; &#x1f4e…