视觉Transformer在低级视觉领域的研究综述

视觉Transformer在低级视觉领域的研究综述

news2026/2/14 11:02:55

视觉Transfomer的基本原理

在这里插入图片描述

在图像处理过程中，ViT首先将输入的图片分成块，对其进行线性的编码映射后排列成一堆的向量作为编码器的输入，在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示，最后通过一个全连接层输出结果

注意力机制

注意力机制让网络更聚焦于输入中相关信息的方法，从而减少对无关信息的关注程度

计算步骤：

将输入X通过函数f(x)将其分成若干个[a1,a2…at ]节点，这些节点分别通过三个权重矩阵W^q、W^k和W^{v，得到对应的q}t^ 、k^t 和 v^t
qⁱ = aⁱW^q kⁱ=aⁱW^k vⁱ=aⁱW^v
其中qⁱ 代表查询向量，后续会去和每一个kⁱ进行匹配
kⁱ代表被查询向量，后续会被每个qⁱ匹配，vⁱ代表从aⁱ中提取得到的信息向量
计算qⁱ和kⁱ之间的相似性来获得权重
对相似度权重进行归一化处理。常使用softmax函数将相似度矩阵归一化为注意力权重矩阵。

通过softMax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布
根据权重对信息向量进行求和得到注意力：

其中，L_x表示输入序列的长度，Similarity表示相似度计算，Q、K和V分别表示查询向量、被查询向量和信息向量

图像序列化和位置编码

Transfomer的输入是一个序列，要能够对图像进行处理则要使得二维的图像变成一个一维的序列。
在这里插入图片描述

Transformer模块

Transfomer模块上是基于编码器和解码器架构，而编码器和解码器是由多个层构成。编码器负责提取特征，解码器负责将提取到的特征转化为结果。编码器由注意力层和全连接层构成。
在这里插入图片描述

视觉Transformer的优势和缺点

优点

多模态融合能力强
更宽广的感受野

缺点

VIT有着庞大的计算量、参数量和算法复杂度。
数据需求量大

Transformer在低级视觉任务中的应用

低级视觉任务常用数据集

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1026060.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Java：JSR 310日期时间体系LocalDateTime、OffsetDateTime、ZonedDateTime

Java：JSR 310日期时间体系LocalDateTime、OffsetDateTime、ZonedDateTime

JSR 310日期时间体系： LocalDateTime：本地日期时间OffsetDateTime：带偏移量的日期时间ZonedDateTime：带时区的日期时间目录构造计算格式化参考文章日期时间包 import java.time.LocalDateTime; import java.time.OffsetDateT…

阅读更多...

盲水印接口，版权保护，防止篡改

盲水印接口，版权保护，防止篡改

添加水印，水印生成，获取水印，隐性水印，版权保护，防止篡改，数字媒体分发， 数字取证，水印生成一、接口介绍通过上传原始图片和水印图,生成带有隐性水印图的图片。既保持图片的美观…

阅读更多...

算法题必备基础技巧（C++版）

算法题必备基础技巧（C++版）

最近可能要参加秋招面试........最近还要顺便复习整理一下之前的一些技巧，整理归纳一下。倒不是说放弃考研了，而是尽可能找一个普通的工作保底吧...... 一.函数模板模板，顾名思义，任何类型都可以套用，分享一个打印任…

阅读更多...

$【数据分享】2023年全国地级市点位数据（免费获取\shp格式\excel格式）$

【数据分享】2023年全国地级市点位数据（免费获取\shp格式\excel格式）

地级市点位数据是我们各项研究中经常使用到的数据，在之前的文章中我们分享过2022年度的地级市及以上城市的点位数据（可查看之前的文章获悉详情）。本次我们带来的是2023年度的全国范围的地级市及以上城市的点位数据，点位位置为市政…

阅读更多...

【Linux 服务器运维】定时任务 crontab 详解 | 文末送书

【Linux 服务器运维】定时任务 crontab 详解 | 文末送书

文章目录前言一、crontab 介绍1.1 什么是 crontab1.2 crontab 命令工作流程1.3 Linux 定时任务分类二、crontab 用法详解2.1 crond 服务安装2.2 crontab 文件内容分析2.3 crontab 命令用法2.3.1 查看定时任务列表2.3.2 编辑/创建定时任务2.3.3 删除定时任务2.3.4 其他 cronta…

阅读更多...

NI SCXI-1000 编码器模块

NI SCXI-1000 编码器模块

NI SCXI-1000 是 NI（National Instruments）生产的编码器模块，通常用于工业自动化和控制系统中，以采集和处理编码器信号，用于测量和监测旋转或线性位置。以下是该模块的一些主要产品特点： 编码器输入&#x…

阅读更多...

linux内核分析：进程通讯方式

linux内核分析：进程通讯方式

信号一旦有信号产生，我们就有下面这几种，用户进程对信号的处理方式。 1.执行默认操作。Linux 对每种信号都规定了默认操作，例如，上面列表中的 Term，就是终止进程的意思。Core 的意思是 Core Dump，也即终止进程后，通过 Core Dump 将当前进程的运行状态保存在文件里面…

阅读更多...

day1| 704. 二分查找、27. 移除元素

day1| 704. 二分查找、27. 移除元素

704. 二分查找题目链接：https://leetcode.cn/problems/binary-search/ 文档讲解：https://programmercarl.com/0704.%E4%BA%8C%E5%88%86%E6%9F%A5%E6%89%BE.html 视频讲解：https://www.bilibili.com/video/BV1fA4y1o715 1、二分法的前提这道…

阅读更多...

SpringSecurity---内存认证和数据库认证

SpringSecurity---内存认证和数据库认证

目录一、内存认证二、认证逻辑三、数据库认证（也就是用户名和密码在数据库中寻找） （1）mapper层 （2）启动类添加扫描注解 （3）编写UserDetailsService实现类一、内存认证 Co…

阅读更多...

GLSL-WebGL着色器语言语法详解

GLSL-WebGL着色器语言语法详解

GLSL语法 GLSL它是强类型语言，每一句都必须有分号。它的语法和 typescript 挺像。 GLSL的注释语法和 JS 一样，变量名规则也和 JS 一样，不能使用关键字，保留字，不能以 gl_、webgl_ 或 webgl 开头。运算符基本也和 JS 一…

阅读更多...

C++之std::holds_alternative、std::get、std::variant应用实例(二百一十九)

C++之std::holds_alternative、std::get、std::variant应用实例(二百一十九)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…

阅读更多...

AVLoadingIndicatorView - 一个很好的Android加载动画集合

AVLoadingIndicatorView - 一个很好的Android加载动画集合

官网 GitHub - HarlonWang/AVLoadingIndicatorView: DEPRECATED 项目简介 AVLoadingIndicatorView is a collection of nice loading animations for Android. You can also find iOS version of this here. Now AVLoadingIndicatorView was updated version to 2.X , If …

阅读更多...

git的使用——结合具体问题记录git的使用代码提交从入门到熟练

git的使用——结合具体问题记录git的使用代码提交从入门到熟练

前言 git作为开发人员必备的技能，需要熟练掌握，本篇博客记录一些git使用的场景，结合具体问题进行git使用的记录。以gitee的使用为例。文章目录前言引出已有项目推送gitee1.gitee中新建项目仓库2.本地项目的初始化提交3.比较好玩的commit图…

阅读更多...

【EI会议征稿】2023年工业设计与环境工程国际学术会议

【EI会议征稿】2023年工业设计与环境工程国际学术会议

2023 International Conference on Industrial Design and Environmental Engineering 2023年工业设计与环境工程国际学术会议 2023年工业设计与环境工程国际学术会议（IDEE 2023）将于2023年11月24-26日于郑州召开。本次会议主要围绕工业设计与环境工程…

阅读更多...

Django（18）：中间件原理和使用

Django（18）：中间件原理和使用

目录概述Django自带中间件Django的中间件执行顺序自定义中间件函数使用类其它中间件钩子函数process_viewprocess_exceptionprocess_template_response如何使用这3个钩子函数？ 全局异常处理小结概述中间件(middleware)是一个镶嵌到Django的request(请求)/respo…

阅读更多...

Zero-Shot、One-shot、Few-Shot 的简介

Zero-Shot、One-shot、Few-Shot 的简介

本文将介绍以下内容： Zero-Shot Learning 的提出ZSL 的通俗理解GPT 之 Zero-ShotZero-Shot、One-shot、Few-Shot 的通俗理解一、Zero-Shot Learning 的提出零样本学习 Zero-Shot Learning，简称 ZSL，是由 Lampert 等人在 2009 年提出的。…

阅读更多...

Powerbi-矩阵日期表矩阵列数据表头排序

Powerbi-矩阵日期表矩阵列数据表头排序

首先做一个DAX日期表，Powerbi中新建表输入如下代码即可日期表 VAR YearStart 2023 //起始年度 VAR YearEnd 2024 //结束年度VAR WeekNumberType 2 VAR WeekDayType 2RETURN GENERATE (CALENDAR( DATE( YearStart , 1 , 1 ) , DATE( YearEnd , 12 , 31…

阅读更多...

什么是内存碎片？

什么是内存碎片？

在嵌入式系统中，内存是十分有限而且是十分珍贵的，用一块内存就少了一块内存，而在分配中随着内存不断被分配和释放，整个系统内存区域会产生越来越多的碎片。因为在使用过程中，申请了一些内存，其中一些释放…

阅读更多...

软件定义世界，工程引领未来——中山大学软件工程学院软件工程导论大作业

软件定义世界，工程引领未来——中山大学软件工程学院软件工程导论大作业

目录软件工程，理解加深个人困惑软件与软件工程的定义学习思路的启发软件危机的认识及思考软件测试的初步认识科技前沿，守正创新代码有智能，教育有情怀深入浅出，引人入胜再接再厉，未来可期 “软件…

阅读更多...

AI数字人虚拟主播，跟传统主播相比有哪些优势，究竟谁更胜一筹？

AI数字人虚拟主播，跟传统主播相比有哪些优势，究竟谁更胜一筹？

在今年，AI人工智能技术得到了快速发展，AI数字人开始大面积进入我们的生活，我们经常可以在各大直播间刷到AI数字人虚拟主播。这些主播光从表面上来看，完全跟真人一模一样，一样的容貌、一样的身形、一样的声音&#xf…

阅读更多...

推荐文章

最新文章