【CV论文阅读】【计算机视觉中的Transformer应用综述】(1)

news2024/10/7 18:32:16

在这里插入图片描述

0.论文摘要

摘要——自然语言任务的Transformer model模型的惊人结果引起了视觉社区的兴趣,以研究它们在计算机视觉问题中的应用。在它们的显著优点中,与递归网络例如长短期记忆(LSTM)相比,Transformer能够模拟输入序列元素之间的长依赖性,并支持序列的并行处理。与卷积网络不同,Transformer的设计需要最小的偏差,自然适合作为集函数。此外,Transformer的简单设计允许使用类似的处理块处理多种形式(例如,图像、视频、文本和语音),并表现出对超大容量网络和巨大数据集的出色可扩展性。这些优势已经导致使用Transformer model网络的许多视觉任务取得了令人兴奋的进展。本调查旨在提供计算机视觉学科中Transformer model模型的全面概述。我们首先介绍Transformer成功背后的基本概念,即自我关注、大规模预训练和双向特征编码。然后,我们将介绍Transformer在视觉中的广泛应用,包括流行的识别任务(例如,图像分类、对象检测、动作识别和分割)、生成建模、多模态任务(例如,视觉问题回答、视觉推理和视觉基础)、视频处理(例如,活动识别、视频预测)、低级视觉(例如,图像超分辨率、图像增强和彩色化)和3D分析(例如,点云分类和分割)。我们从建筑设计和实验价值两个方面比较了流行技术各自的优势和局限性。最后,我们对开放的研究方向和未来可能的工作进行了分析。我们希望这一努力将进一步激发社区的兴趣,以解决当前在计算机视觉中应用Transformer model模型的挑战。

1.研究背景

Transformer模型[1]最近在广泛的语言任务中表现出典型的性能,例如文本分类、机器翻译[2]和问题回答。在这些模型中,最受欢迎的包括BERT(来自Transformer的双向编码器表示)[3],GPT(生成式预训练Transformer model)v1-3[4]-[6],RoBERTa(鲁棒优化的BERT预训练)[7]和T5(文本到文本传输Transformer model)[8]。Transformer model模型的深远影响已经变得更加明显,因为它们可以扩展到非常大容量的模型[9],[10]。例如,拥有3.4亿个参数的BERT-large[3]模型明显优于拥有1750亿个参数的GPT-3[6]模型,而最新的专家混合开关Transformer model[10]可扩展到高达1.6万亿个参数!Transformer model网络在自然语言处理(NLP)领域的突破引发了计算机视觉社区对将这些模型用于视觉和多模态学习任务的极大兴趣(图1)。

然而,视觉数据遵循典型的结构(例如,空间和时间一致性),因此需要新颖的网络设计和训练方案。因此,Transformer model模型及其变体已成功用于图像识别[11]、[12]、对象检测[13]、[14]、分割[15]、图像超分辨率[16]、视频理解[17]、[18]、图像生成[19]、文本——图像合成[20]和视觉问题回答[21]、[22],以及其他几个用例[23]-[26]。本调查旨在涵盖计算机视觉领域最近令人兴奋的努力,为感兴趣的读者提供全面的参考。

Transformer model架构基于自我注意机制,该机制学习序列元素之间的关系。与递归处理序列元素且只能关注短期上下文的递归网络相反,Transformer可以关注完整的序列,从而学习长期关系。尽管注意力模型已广泛用于前馈和递归网络[27],[28],但Transformer仅基于注意力机制,并具有针对并行化优化的独特实现(即多头注意力)。这些模型的一个重要特征是它们对高复杂性模型和大规模数据集的可扩展性,例如,与其他一些替代方案相比,如硬注意力[29],硬注意力本质上是随机的,需要蒙特卡罗采样来采样注意力位置。由于与卷积和递归对应物[30]-[32]相比,Transformer假设关于问题结构的先验知识最少,因此它们通常使用大规模(未标记)数据集上的借口任务进行预训练[1]、[3]。这种预训练避免了昂贵的人工注释,从而编码了高度表达的对给定数据集中存在的实体之间的丰富关系进行建模的概括表示。然后,学习到的表征以监督的方式在下游任务上进行微调,以获得有利的结果。

本文提供了为计算机视觉应用开发的Transformer model模型的整体概述。我们开发了网络设计空间的分类法,并强调了现有方法的主要优点和缺点。其他文献综述主要集中在NLP领域[33],[34]或涵盖一般的基于注意力的方法[27],[33]。通过关注视觉Transformer这一新兴领域,我们根据自我注意的内在特征和所研究的任务全面组织了最近的方法。我们首先介绍了Transformer model网络背后的突出概念,然后详细阐述了最近视觉转换器的细节。在可能的情况下,我们将NLP领域[1]中使用的转换器与为视觉问题开发的转换器进行比较,以展示主要的新奇事物和有趣的特定领域见解。最近的方法表明,卷积运算可以完全被基于注意力的Transformer model模块所取代,并且还在单个设计中联合使用,以鼓励两组互补运算之间的共生。本调查最后详细列出了开放的研究问题,并对未来可能的工作进行了展望。

在这里插入图片描述

图1:过去几年BERT、自注意力、Transformer等关键词出现在Peer reviewed和arXiv论文标题中的次数统计(在计算机视觉和机器学习中)。这些图在最近的文献中显示出持续的增长。本综述涵盖了计算机视觉领域中Transformer的最新进展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1509285.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cocos2dx-lua ScrollView[二]进阶篇

一.概述 本文缩写说明:sv = ScrollView, item代表ScrollView的一个子节点 如果对sv熟系程度还不够,请阅读基础篇: Cocos2dx-lua ScrollView[一]基础篇-CSDN博客 本文介绍sv的一种封装类库,来实现快速创建sv,有如下几个优点: 1.item的位置通过参数控制,提高开发效率…

【MySQL】1.在Centos 7上如何卸载/安装/配置MySQL(保姆级教程)

MySQL 在 Centos 7环境安装 说明: • 安装与卸载中,用户全部切换成为root,⼀旦安装,普通用户能使用的 • 初期练习,mysql不进行用户管理,全部使用root进行,尽快适应mysql语句,后⾯学…

机器学习,剪刀,石头,布

计算机视觉:剪刀,石头,步 TensorFlow AI人工智能及Machine Learning训练图集的下载建立分类模型并用图像进行训练检验模型总结当前AI Machine Learning 异常火爆,希望在MCU上使用机器学习,做图像识别的工作。看到一个剪刀,石头,步的学习程序,给大家分享一下。 TensorFl…

记录一个vue编辑的移动端页面

<template><div class"wrap"><el-form :model"queryParams" ref"queryForm" size"small" :inline"true" label-width"120px"><el-form-item label"班级" prop"classId"…

K8s — PVC|PV Terminating State

在本文中&#xff0c;我们将讨论PV和PVC一直Terminating的状态。 何时会Terminting? 在以下情况下&#xff0c;资源将处于Terminating状态。 在删除Bounded 状态的PVC之前&#xff0c;删除了对应的PV&#xff0c;PV在删除后是Terminting状态。删除PVC时&#xff0c;仍有引用…

使用飞书机器人发送消息与文件

本文默认你已拥有一个机器人&#xff0c;如果没有请点击以下链接创建机器人 检查机器人权限 如果需要跨部门发送消息&#xff0c;检查是否开通跨部门权限 在发布版本时选择作用范围为所有员工 机器人发送消息需要获取以下权限&#xff1a; 通过手机号或邮箱获取用户 ID查看…

ETL的数据挖掘方式

ETL的基本概念 数据抽取&#xff08;Extraction&#xff09;&#xff1a;从不同源头系统中获取所需数据的步骤。比如从mysql中拿取数据就是一种简单的抽取动作&#xff0c;从API接口拿取数据也是。 数据转换&#xff08;Transformation&#xff09;&#xff1a;清洗、整合和转…

Flutter可重排的列表控件ReorderableListView详解

文章目录 ReorderableListView 介绍主要属性使用示例注意事项 ReorderableListView 介绍 ReorderableListView 是 Flutter 中一个可重排的列表控件&#xff0c;允许用户通过拖动来改变列表项的顺序。它继承自 ListView&#xff0c;并提供了一些额外的功能来实现重排功能。 主…

应用方案 | DCDC电源管理芯片MC34063A

DCDC电源管理芯片 MC34063A MC34063A 为一单片 DC-DC 变换集成电路&#xff0c;内含温度补偿的参考电压源&#xff08;1.25V&#xff09;、比较器、能有效限制电流及控制工作周期的振荡器&#xff0c;驱动器及大电流输出开关管等。外配少量元件&#xff0c;就能组成升压、…

Mysql 学习(十五)redo 日志

redo 日志 什么是redo日志&#xff1f;在说这个之前我们先来想一个场景&#xff0c;在访问磁盘的页面之前&#xff0c;我们会先把页面缓存到Buffer Pool之后&#xff0c;才会访问。写页面的时候也会先将buffer pool中的页面修改之后&#xff0c;然后在某个时机才会刷新到磁盘中…

Centos7 安装mongodb 7.0

官方手册参考&#xff1a; https://www.mongodb.com/docs/manual/tutorial/install-mongodb-on-red-hat/ Mongodb支持的版本 安装 MongoDB 社区版 按照以下步骤使用包管理器安装 MongoDB Community Edition yum。 配置包管理系统 ( yum) 创建一个/etc/yum.repos.d/mongodb-o…

uni-app微信小程序上拉加载,下拉刷新

pages.json配置官网链接 onPullDownRefresh、onReachBottom函数跟生命周期同级 data() {return {orderList:[],total: null, //总共多少条数据page: 1,pageSize: 10,} }, onLoad() {}, mounted(){this.getInfo() }, methods:{getInfo(){API.getListxxx().then(res > {const…

sensitive-word 敏感词 违规文字检测

1、快速开始 - JDK1.7- Maven 3.x 2、Maven 引入 <!-- https://mvnrepository.com/artifact/com.github.houbb/sensitive-word --><dependency><groupId>com.github.houbb</groupId><artifactId>sensitive-word</artifactId><version…

【CSS3】CSS3 3D 转换示例 - 3D 旋转木马 ( @keyframes 规则 定义动画 | 为 盒子模型 应用动画 | 开启透视视图 | 设置 3D 呈现样式 )

文章目录 一、3D 导航栏示例 - 核心要点1、需求分析2、HTML 结构section 标签 3、CSS 样式keyframes 规则 定义动画为 盒子模型 应用动画开启透视视图设置 3D 呈现样式鼠标移动到控件上方效果设置 6 个子盒子模型的效果 二、完整代码示例1、代码示例2、展示效果 一、3D 导航栏示…

安全防御第七次作业

拓扑图如图所示&#xff1a; 问题&#xff1a;在FW7和FW8之间建立一条IPSEC通道保证10.0.2.0/24网段 可以正常访问到192.168.1.0/24 注&#xff1a;基础配置我在此省略了 一、NAT配置 FW4&#xff1a; FW6&#xff1a; 二、在FW4上做服务器映射 三、配置IPSEC FW5&#xff…

最大的单入口空闲区域

最大的单入口空闲区域 问题描述输入输出代码实现 问题描述 找到最大的单入口空闲区域。 空闲区域是由连通的’O’组成的区域&#xff0c;位于边界的’O’可以是入口&#xff0c; 单入口空闲区域即有且只有一个位于边界的’O’作为入口的由连通的’O’组成的区域。 如果两个元素…

SpringBoot中定时任务、corn表达式

SpringBoot中定时任务、corn表达式 corn表达式网站&#xff1a;https://cron.qqe2.com/ 方法上加上Scheduled(cron表达式) 启动类上加上EnableScheduling 示例 启动类上 启动类加上EnableScheduling开启定时任务。 SpringBootApplication EnableScheduling public class…

应用方案 | D54123B低功耗漏电保护电路

概 述 A&#xff09;、D54123B是一款高性能 CMOS 漏电保护器专用电路。芯片内部包含稳压电源、放大电路、比较器电路、延时电路、计数器电路、跳闸控制电路及跳闸驱动电路。芯片外围应用有脱扣线圈、压敏电阻、稳压二级管、二级管、电阻、电容等元器件。 B&#xff09;、内部…

Day35:安全开发-JavaEE应用原生反序列化重写方法链条分析触发类类加载

目录 Java-原生使用-序列化&反序列化 Java-安全问题-重写方法&触发方法 Java-安全问题-可控其他类重写方法 思维导图 Java知识点&#xff1a; 功能&#xff1a;数据库操作&#xff0c;文件操作&#xff0c;序列化数据&#xff0c;身份验证&#xff0c;框架开发&…

数据结构顺序表的操作,窗口界面(c语言版)

// 准备头文件 #include <stdio.h> #include <stdlib.h>#define InitSize 10 // 动态顺序表的初始默认长度// 定义C语言的bool变量 #define bool char #define true 1 #define false 0/* 定义数据元素的数据类型 */ typedef int ElemType; // 方便更改// 动态顺…