混合域注意力机制(空间+通道)

news2024/12/25 9:31:22

在计算机视觉任务中,空间域注意力通常关注图像中不同位置的重要性,例如突出图像中的关键对象或区域。而通道域注意力则侧重于不同通道(特征图)的重要性,决定哪些特征对于任务更具判别力。混合域注意力机制结合了空间域注意力机制与通道注意力机制。它同时考虑空间和通道维度的重要性,通过学习每个空间位置和通道的权重,动态调整特征图中不同位置和通道的重要性,以增强模型对视觉任务的表达能力和性能。
具体来说,它通常会经过以下步骤实现:
1. 输入:假设输入特征图的尺寸为C×H×W,其中C是通道数,H和W分别是高度和宽度。
2. 计算空间域注意力:空间注意力权重通过对特征图的空间位置进行分析得到。
3.计算通道注意力: 通道注意力权重则通过对特征图的通道进行分析,例如使用全局平均池化或全局最大池化来汇总通道信息,然后经过全连接层等操作生成权重。
4. 特征加权融合:将得到的空间和通道注意力权重与原始特征图相乘,实现对特征的重新加权和聚焦。


下面分享几篇经典的混合域注意力机制论文。

1.CBAM: Convolutional Block Attention Module

论文地址:https://arxiv.org/abs/1807.06521

文章中提出注意力机制不仅能够提示网络应该关注那些区域,还能够增强这些区域的重要性。所以,本文结合注意力机制提出了一个新的网络模块(CBAM),通过关注通道和空间信息,来达到增强有效的特征,抑制不太有效的特征。

图1

如图1所示,CBAM的结构由两部分组成。一是通道注意力模块(Channel attention module),二是空间注意力模块(Spatial attention module)。下面就来看看这两部分的结构。

1.通道注意力模块(Channel attention module)

图2

如图2所示,通道空间注意力模块由三个操作组成。具体来说,首先分别使用全局平均池化和全局最大池化生成两个不同的空间描述符F_{avg}^CF_{max}^C,用来代表空间信息。然后,将F_{avg}^CF_{max}^C送入到一个共享的MLP当中去生成不同的通道注意力分数。最后,将MLP输出的两个不同的注意力分数相加,并通过Sigmoid函数激活便得到了最终的通道注意力权重。

2.空间注意力模块(Spatial attention module)

图3

如图3所示,空间空间注意力模块由三个操作组成。与通道注意力模块不同的是,空间注意力模块首先分别使用全局平均池化和全局最大池化沿通道轴生成两个不同的特征图F_{avg}^s \in R^{1 \times H \times W}F_{max}^s \in R^{1 \times H \times W}。然后,将F_{avg}^sF_{max}^s沿通道拼接在一起,并通过一个7 \times 7的卷积去生成通空间注意力图。最后,通过Sigmoid函数激活便得到了最终的空间注意力权重。

此外,文章中还在ResBlock(ResNet)中集成了CBAM,结构如下图4所示。

图4

2.Dual Attention Network for Scene Segmentation

论文地址:https://arxiv.org/abs/1809.02983

文章中提出了一种双注意网络(Dual Attention Network, DANet,网络结构如下图5所示)来自适应地整合局部特征及其全局依赖关系。具体来说,它结合了自注意力机制(transformer)设计了两个模块(Position Attention Module和Channel Attention Module),用来捕获空间和通道维度上的特征依赖关系,然后将这两个模块的输出进行融合,进一步增强特征的表达。下面就来看看这两个模块的结构。

图5

1.Position Attention Module(PAM)

图6

PAM的结构如图6所示,它通过以下步骤来实现。

1. 输入特征图A \in R^{C \times H \times W},其中C是通道数,H和W分别是高度和宽度。

2. 将A用不同卷积层生成新的特征图B和C,其中B和C都\in R^{C \times H \times W}。然后将B和C除通道外拉成一条向量变形成R^{C \times HW}

3. 将C和B的转置进行矩阵乘法,再使用softmax操作即得到空间注意力图S\in R^{HW \times HW}

4.将A用卷积层生成特征图D,并将D拉成一条向量变形成R^{C \times HW}。然后,再将D与上一步得到的空间注意力图S的转置执行矩阵乘法,并将结果重塑成R^{C \times H \times W}

5. 最后,对上一步得到的结果乘以尺度参数\alpha,并与原始输入特征执行元素加法,便得到最终的输出特征。输出特征实现了有选择性的聚合上下文信息。

2.Channel Attention Module(CAM)

图7

CAM的结构如图6所示,它通过以下步骤来实现。

1. 输入特征图A \in R^{C \times H \times W},其中C是通道数,H和W分别是高度和宽度。

2. 将A变形成R^{C \times HW},与A的转置执行矩阵乘法,然后通过softmax操作得到通道注意力图X\in R^{C \times C}

4.将A的转置与上一步得到的通道注意力图X执行矩阵乘法,并将结果重塑成R^{C \times H \times W}

5. 最后,对上一步得到的结果乘以尺度参数\beta,并与原始输入特征执行元素加法,便得到最终的输出特征。


混合域注意力机制能够有效地提升模型的性能,增强模型对关键信息的捕捉能力,从而在图像分类、目标检测、语义分割等计算机视觉任务中取得更好的效果。

最后,欢迎关注公众号“AI小家”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FIR低通滤波器

FIR低通滤波器 FIR(Finite Impulse Response)滤波器:有限长单位冲激响应滤波器,又称为非递归型滤波器,是数字信号处理系统中最基本的元件,它可以在保证任意幅频特性的同时具有严格的线性相频特性,同时其单位抽样响应是有限长的,因而滤波器是稳定的系统。 MATLAB实现…

详细了解架构师

架构师的核心职责是消除不确定性和降低复杂性! 架构师画像 架构师的定位 架构设计环 澄清和技术相关的,比如支持百万级别的,架构师需要澄清,可能只有十万级。 架构师的三个核心能力 架构师的三个关键思维 架构设计流程和架构师…

初识MQ——学习MQ之前需要了解的知识点

目录 前言 1. 同步和异步通讯 1.1 同步通讯 1.2 异步通讯 2. MQ技术对比 前言 在现在的大数据时代,高并发的情况越来越普遍,系统一个不注意,就可能崩溃无法访问了。这是开发最不想看到的情况,如果是上班还好,可以…

【C++】—— 类与对象(二)

【C】—— 类与对象(二) 1、类的默认成员函数2、构造函数2.1、初见构造2.2、深入构造2.3、初始化列表2.3.1、什么是初始化列表2.3.2、初始化列表和函数体关系2.3.3、必须使用初始化列表的情况2.3.3.1、 c o n s t const const 成员变量2.3.3.2、引用成员…

AS400==tutorial for Beginners

系统AS400 语言RPGLE 参考视频: https://www.youtube.com/watch?vFqgwYsp7mjk&listPL3W4xRdnQJHVWWmYX1Klji7QUk_PQhq0t&index5 Lesson 1 | Introduction to As-400 and setting up As-400 Environment. 客户端软件TN5250 Terminal Emulation for Window…

MyBatis全方位指南:从注解到XML文件的数据库操作

目录 一.什么是MyBatis 入门程序初体验 二.MyBatis基本操作CRUD ▐ 增(Insert) 返回主键 ▐ 删(Delete) ▐ 改(Update) ▐ 查(Select) 起别名 结果映射 开启驼峰命名(推荐) 三.MyBatis XML配置文件 ▐ 增(Insert) ▐ 删(Delete) ▐ 改(Update) ▐ 查(Select) …

PostgreSQL(二十三)TOAST技术

目录 一、TOAST简介 二、TOAST的存储方式 1、存储方式概述 2、实验:创建TOAST表 三、TOAST的4种压缩策略 1、策略说明 2、TOAST表额外的三个字段 四、TOAST表的计算方式 1、说明 2、实验:计算表大小 五、TOAST表的特点 1、优点 2、缺点 3、…

【KAN】【API教程】get_fun

抽取某个激活函数的样子 from kan import * import matplotlib.pyplot as plt # create a KAN: 2D inputs, 1D output, and 5 hidden neurons. cubic spline (k3), 5 grid intervals (grid5). model KAN(width[2,5,1], grid5, k3, seed0) x torch.normal(0,1,size(100,2)) m…

给虚拟机Ubuntu扩展硬盘且不丢数据

1.Ubuntu关机状态下先扩展,如扩展20GB 2.进入ubuntu,切换root登录,必须是root全选,否则启动不了分区工具gparted 将新的20GB创建好后,选择ext4,primary; 3.永久挂载 我的主目录在/并挂载到/dev/sda1 从图…

C++解决:早餐组合

前言 应该都知道我之前沉默了很长一段时间,现在慢慢想明白了,会继续创作,真的非常感谢大家对我这个幼稚小孩的支持与鼓励。 有朋友私信问我退的原因,在这里和大家简要说一下【狗头】 我认识一位开学初三的学长,他和…

H81002S 1.7mm网络变压器:BMS汽车蓝牙接收器中的超薄共模电感科技

华强盛导读:在当今这个日新月异的汽车科技领域,每一处细节都蕴含着创新与突破。作为电动汽车心脏的电池管理系统(BMS),其高效稳定的运行不仅关乎续航与安全,更是智能化驾驶体验的基石。而在这背后&#xff…

有那些AI数字人制作软件?

AI视频生成:小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频百万播放量https://aitools.jurilu.com/ 之前由于工作需要,要录制1 个真人讲PPT的视频,作为典型I人,本人露面是不可能的。 于是打起了数字人…

二维码门楼牌管理应用平台建设:打造高效运维新生态

文章目录 前言一、系统运维概述二、菜单管理:个性化服务的关键三、参数管理:优化系统性能的关键四、字典管理:数据标准化的基石五、邮件管理:沟通协作的桥梁六、任务调度:自动化工作的核心七、短信管理:及时…

头发健康知识一

头发重要性: 头发是人第二张脸,影响人容貌 形象和气质.头皮基本结构 角质层,颗粒层,有挤层,基底层4个细胞层组成,含有大量毛囊和皮脂腺和汗腺.头屑是什么? 头屑为角质细胞的新陈代谢脱落的死细胞,每天都会有十几万角质细胞脱落 (正常的代谢周期为28天). 当基底层细胞受损时…

32.x86游戏实战-使用物品call

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

MySql审计平台

安装方式: cookieY/Yearning: 🐳 A most popular sql audit platform for mysql (github.com) 对数据库的一系列后台操作 AI助手 - AI助手提供SQL优化建议,帮助用户优化SQL语句,以获得更好的性能。同时AI助手还提供文本到SQL的…

手把手教你OpenCV常见滤波(高斯,中值,均值)C++

目录 1 图像处理中的高斯函数 1.1一维高斯函数 1.2二维高斯函数 1.3 代码 1.4 结果 2 低通滤波之均值滤波器 2.1、空间滤波基础 2.1.1线性空间滤波原理 2.1.2 相关与卷积 2.2、平滑滤波之均值滤波器 2.2.1原理 2.2.2 c opencv代码 2.2.3 结果 3 中值滤波 3.1 c …

LC 42.接雨水

42.接雨水 给定n个非负整数表示每个宽度为1的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入: height [0,1,0,2,1,0,1,3,2,1,2,1] 输出: 6 解释: 上面是由数组 [0,1,0,2,1,0,1,3…

临床随机对照试验中的分层问题及其解决方法

在临床随机对照试验(Randomized Controlled Trials, RCTs)中,分层问题(Stratification Issues)是影响研究结果有效性的重要因素之一。RCTs是评估医疗干预效果的金标准,旨在通过随机分组和对照来消除干扰因素…

PPP 协议分析(实验报告)

实验设备及软件 (1)硬件设备:PC 机或笔记本电脑;(2)软件:H3C Cloud Lab 实验环境配置 (1)实验拓扑图 (2)网络配置参数 Device Interface IP/…