空间域注意力机制(Spatial Attention)

news2025/1/15 6:42:39

空间域注意力机制(Spatial Attention)是深度学习中一种重要的注意力机制,用于在处理如图像或视频数据时聚焦于特定区域,以提高模型的性能和效率。举例来说,首先,卷积神经网络处理一张图像,经过特征提取后得到特征图。然后,空间域注意力机制就可以通过计算每个像素点的注意力权重,集中模型的注意力在图像中最重要的区域,例如目标的周围或者有信息丰富的区域。这种机制使得模型能够更有效地处理复杂的视觉任务,提高其性能和泛化能力。

一般来说,空间注意力机制通过得到每个空间位置的注意力权重,从而达到增强有用的空间位置特征表示,抑制无效的空间位置特征表示。如图1所示,空间域注意力机制可以通过以下步骤实现:

图1

1. 输入:假设输入特征图的尺寸为C×H×W,其中C是通道数,H和W分别是高度和宽度。

2. 特征映射:将每个特征图中的位置映射到一个注意力分数空间。这个过程通常使用一个小型的卷积核或者全连接层来实现,其目的是为每个空间位置生成一个对应的注意力权重。

3. 权重计算:计算每个位置的注意力权重,然后再使用激活函数(如softmax)将这些注意力分数归一化为概率分布,以确保每个位置的注意力权重总和为1。这样做可以使得模型能够集中精力处理最重要的部分,而忽略不太重要的部分。

4. 特征加权融合:将这些权重应用于原始的特征图,得到加权后的特征图,这样就实现了增强注意力权重高的地方的特征表示,而抑制了注意力权重低的地方的特征表示。

下面分享几篇经典的空间域注意力机制的论文。

1.Spatial Transformer Networks(STN)

论文地址:https://arxiv.org/abs/1506.02025

本文提出了一个空间转换器模块(ST)。与池化层不同的是,空间转换模块是根据不同的输入样本去学习恰当的转换方式。也就是说,空间转换模块是动态的对图像(或特征图)进行空间转换。这使得空间转换器不仅可以选择图像中最重要的区域,还可以将这些区域转换为预期的形式,以简化后续层的识别。

图2

如图2所示,空间转换模块包含了三个部分。一是Localisation Network,二是Grid generator,三是Sampler。具体来说,Localisation Network由卷积网络组成,主要是去学习仿射变换矩阵\theta。Grid generator对输入特征和输出特征进行空间位置的转换(如图3所示),其中,(x_i^sy_i^s)代表输入特征位置,(x_t^sy_t^s)代表输出特征位置,(其中输出特征位置是确定的)。由于上一步中通过空间转换后(x_i^sy_i^s)值不一定是整数,比如说转换后为(2.3,3.4),这会导致输出特征位置的像素值不能确定。所以,Sampler主要是对上一步中转换后不为整数的位置做进一步的采样来确定其对应输出特征的像素值。这个采样方法有很多,一般来说,就是通过距离(x_i^sy_i^s)值周围最近的几个点的像素值来确定对应输出特征的像素值。

图3

此外,文章中还提到多个ST块并行的方式可以关注到图像的不同区域。如图4所示,每个框代表一个ST块关注的区域,我们可以看到不同的框关注图像的区域都是不同的。

图4

2.Non-local Neural Networks

论文地址:https://arxiv.org/abs/1711.07971

文章中提出捕获远程依赖关系在深度神经网络中是非常重要的。然而,由于卷积运算和循环运算都处理空间或时间上的局部邻域,要通过反复运用这些操作(比如说多次卷积)才能够捕获远程依赖关系,但是这也会造成很多的问题(比如计算效率低,距离太远也不能够很好地捕获)。所以,文章中提出了一个non-local block(如图5所示)用于更好地去捕获远程依赖关系。下面就来分析non-local block的实现过程,。

图5

以图像来说,假设输入特征XC\times H \times W(其中,C为通道数,H为高,W为宽)。

1. 首先使用3个线性层来分别对X的通道数进行降维(1024 -> 512)分别记为X_1X_2X_3

2. 然后,将除通道数外的维度拉成一条向量(HW \times C),并对X_1X_2的转置使用矩阵乘法得到注意力分数矩阵\omegaHW \times HW),再对\omega的每一行使用softmax操作得到每个像素点对于其他像素点的相关性。

3. 最后,将注意力分数矩阵\omegaX_3做矩阵乘法,然后再用卷积操作对通道进行升维, 再与输入特征X相加,即得到最终的输出特征。

总之,空间域注意力机制可以应用在各种计算机视觉任务中,例如目标检测,图像分割等。它不仅使模型能够专注于图像中最关键的部分,还能够提升模型的表达能力和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1968362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Docker】认识 Docker(版本、官方网站、架构、生态)

一、Docker 版本 Docker 发展过程中衍生了以下版本,目前我学习和使用提到的版本是 docker-ce。 1、lxc lxc 是最早的 linux 容器技术,早期版本的 docker 直接使用 lxc 来实现容器的底层功能。虽然使用者相对较少,但 lxc 项目仍在持续开发演…

理想发周榜,不是新能源市场的原罪

余华在他的小说《在细雨中呼喊》曾写过这么一段话: “仓廪实而知礼节,衣食足而知荣辱”,在物质需求得到满足以前,精神文明的发展难免会有所滞后。所以,贫穷,不是原罪。 同样的,在如今的新能源…

常见API(一)

API(Application Programming interface):应用程序编程接口,别人写好的程序,直接拿来调用。主要是为了灵活解决需求。这次只先简单学习了一下String和ArrayList两个。 1.包 包是分门别类管理程序的,类似于文件夹。别人写好的包通常都在别人的…

Android Studio2024安装教程

软件介绍 Android Studio 是谷歌推出的一个Android集成开发工具。 基于IntelliJ IDEA. 类似 Eclipse ADT,Android Studio 提供了集成的 Android 开发工具用于开发和调试。 软件下载 https://docs.qq.com/doc/DR0hWZ0l4aGtVTmVr软件安装 1、双击运行安装文件 2、…

双模幂运算Java

题目: 给你一个下标从 0 开始的二维数组 variables ,其中 variables[i] [ai, bi, ci, mi],以及一个整数 target 。 如果满足以下公式,则下标 i 是 好下标: 返回一个由 好下标 组成的数组,顺序不限 。 …

RK3568平台(触摸篇)双屏异触调试

一.现象 现象:准备两块主屏都接触摸框,A屏的HDMIOUT外接B屏的HDMIIN,用手触摸A屏,发现A屏没有触摸,A屏幕的触摸现象在B屏那边。 现要求:用手触摸A屏,A屏要有现象,不能现象在B屏那边…

《Transformer Scale Gate for Semantic Segmentation》CVPR2023

摘要 论文提出了一种名为Transformer Scale Gate(TSG)的模块,用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择,这可能导致次优尺度的特征降低分割的准确性…

【网络】UDP协议——传输层、端口号、UDP协议、UDP协议端格式、UDP的特点、UDP的缓冲区、UDP使用注意事项

文章目录 Linux网络1. 传输层1.1 端口号1.2 UDP协议1.2.1 UDP协议端格式1.2.2 UDP的特点1.2.3 UDP的缓冲区1.2.3 UDP使用注意事项1.2.5 基于UDP的应用层协议 Linux网络 1. 传输层 传输层:是 OSI 模型和 TCP/IP 模型中的重要层次,位于网络层之上、应用层…

推荐一个gpt镜像网站

包含现在主流的大语言模型 一个网站,各种模型随意切换和体验 集成多种功能 不止于对话,更有文生图,思维导图等多种功能 支持多个平台 除了网页版,更有安卓, mac os, ipad os等多个平台,随时随地方便同步和使用 …

【大模型】【智能体】agent导论

基本的图像 react: prompt:

营收保持增长,汽车之家掌握了什么“流量密码”?

从汽车之家新鲜出炉的“成绩单”来看,汽车行业的流量生意依然红火。 财报显示,2024年第二季度,汽车之家实现总营收18.7亿元,同比增长2.2%;经调整净利润5.72亿元,经调整净利润率达30.6%。其中,在…

MySQL:管理和操作数据表

数据表是数据库的重要组成部分,每一个数据库都是由若干个数据表组成的。没有数据表就无法在数据库中存放数据。MySQL数据表的管理和操作是数据库管理员和开发人员日常工作中不可或缺的一部分。 创建数据表 CREATE 创建数据表的过程是规定数据列的属性的过程&#…

数字图像处理 --- 图像的离散余弦变换(python实战)

图像的离散余弦变换(python实战) 这篇文章是我上两篇文章的延续,主要是觉得前面的文章太长了,所以把关于图像的DCT变换部分单独拎出来放到这里,这两篇文章分别是: 1,一维DCT 数字信号处理 --- 一维离散余弦变换(pyth…

搜维尔科技:【研究】Haption的自动识别技术

Real-Time Interaction for Delmia Human RTID Human “Real-Time Interaction for Delmia Human” 是个附加在Delmia V5™上的软件,它能让使用者使用数字人体模型在虚拟环境中进行实时互动仿真 在Delmia 中使用RTI ,使用者可以模拟进行以下研究: 1. 可…

table car vs. table cars:数据库命名用单数还是复数?

数据库的命名方式已经形成了许多共识,比如全部小写、下划线分隔、使用标准缩写等;其中就包括「使用单数名词」。 用户 jonr 在 reddit 网的程序员笑话(ProgrammerHumor)社区发了一篇帖子,调侃这些数据库命名方式的共识…

突破csdn每日15篇文章限制的方法

买一个vip年会员248元,就可以了.......

Linux-3:Shell编程——基础语法(0-50%)

目录 前言 一、变量 1.定义变量 2.使用变量 3.修改变量 4.将命令的结果赋值给变量 5.只读变量 6.删除变量 二、传递参数 三、字符串 1.字符串举例 2.统计字符串长度 3.字符串拼接 4.截取字符串 总结 前言 Shell是一种程序设计语言。作为命令语言,它…

算法学习day26

滑动窗口系列题 一、替换后的最长重复子串 给你一个字符串 s 和一个整数 k 。你可以选择字符串中的任一字符,并将其更改为任何其他大写英文字符。该操作最多可执行 k 次。 在执行上述操作后,返回 包含相同字母的最长子字符串的长度。 输入&#xff1a…

MySQL--MySQL函数

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 MySQL函数 一、MySQL函数简介 函数表示对输入参数值返回一个具有特定关系的值,MSOL提供了大量丰富的函数,在进行数据库管理以…

CTFHub——XSS全系列

1、反射型: 发现为表单式,猜测哪个可能存在注入漏洞,分别做测试注入发现name框存在xss漏洞 输入发现有回显但不是对方cookie,参考wp发现要用xss线上平台 将xss平台测试语句注入,将得到的url编码地址填入url框&#xf…