【CBAM||目标识别||注意力机制||gated卷积】Convolutional Block Attention Module

news2025/4/7 6:40:34
  • 这篇是2018年的paper,已经有很多中文资料可以学习,因而不做重复工作~
  • 记录一下核心要点,后续可阅。
  • 【学习资源】CBAM:卷积注意力机制模块 
  • 【学习资源】论文阅读-CBAM: Convolutional Block Attention Module 

CBMA:卷积注意力机制模块- 结合了空间(spatial)和通道(channel)的注意力机制模块。

给定一个中间特征图,CBAM模块会沿着两个独立的维度(通道和空间)以此推断注意力图,然后将注意力与输入特征图相乘以进行自适应特征优化。由于CBAM是轻量级的通用模块,因此可以忽略的该模块的开销而将其无缝集成到任何CNN架构中,并且可以与基础CNN一起进行端到端训练。

1.整体结构:

卷积层输出的结果,会先通过一个通道注意力模块,得到加权结果之后,会再经过一个空间注意力模块,最终进行加权得到结果。

2.通道注意力模块:

通道注意力图主要是由通道之间的关系得到,过去人们常用平均池化来聚合空间信息,但论文认为最大池化或许能捕获到另外一些重要的特征,所以论文同时使用了平均池化与最大池化。

输入的特征图

  • 分别经过基于width和height的global max pooling 和global average pooling;
  • 分别经过MLP;
  • 将MLP输出的特征进行基于element-wise的add操作;
  • 经过sigmoid激活操作,生成最终的channel attention featuremap;
  • 将该channel attention featuremap和input featuremap做element wise乘法操作;
  • 生成Spatial attention模块需要的输入特征。

通道注意力机制(Channel Attention Module)是将特征图在空间维度上进行压缩,得到一个一维矢量后再进行操作。

在空间维度上进行压缩时,不仅考虑到了平均值池化(Average Pooling)还考虑了最大值池化(Max Pooling)。平均池化和最大池化可用来聚合特征映射的空间信息,送到一个共享网络,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图。

单就一张图来说,通道注意力,关注的是这张图上哪些内容是有重要作用的。

  • 平均值池化对特征图上的每一个像素点都有反馈,
  • 最大值池化在进行梯度反向传播计算时,只有特征图中响应最大的地方有梯度的反馈。 

3.空间注意力模块:

设问:通道注意力关注的是什么,而空间注意力则关注的是什么?二者可以相互补充?

将Channel attention模块输出的特征图作为本模块的输入特征图

  • 首先做一个基于channel的global max pooling 和global average pooling;
  • 然后将这2个结果基于channel 做concat操作;
  • 然后经过一个卷积操作,降维为1个channel;
  • 再经过sigmoid生成spatial attention feature
  • 最后将该feature和该模块的输入feature做乘法;
  • 得到最终生成的特征。

空间注意力机制(Spatial Attention Module)是对通道进行压缩,在通道维度分别进行了平均值池化和最大值池化。

  • 最大池化的操作就是在通道上提取最大值,提取的次数是高乘以宽;
  • 平均的操作就是在通道上提取平均值,提取的次数也是是高乘以宽;

接着将前面所提取到的特征图(通道数都为1)合并得到一个2通道的特征图。

 

 4.注意力注意到了什么?【可视化】

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/68206.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10K起步的软件测试岗到底需要学什么?零基础进阶自动化测试需要哪些技术...

软件测试的正确路线 1、软件测试基础: 对软件测试整理的测试流程有清晰的概念,了解软件测试到底是做什么的,软件测试的各种专业术语是什么意思,以及多种不同的软件测试类型区分,测试用例的作用、本质以及如何撰写&…

开关电源环路稳定性分析(2)-从开环到闭环

大家好,这里是大话硬件。 在上一节中,基于欧姆定律,基尔霍夫定律,伏秒平衡这些已知的知识点,可以推导出Buck变换器的输入输出关系。 今天这一节,我们还是从全局的概念来解析开关电源。 1. 运放和开关电源…

盘点世界杯有趣小知识!带你感受体育赛事数据可视化的快乐!

2022年卡塔尔世界杯是第二十二届世界杯足球赛,是历史上首次在卡塔尔和中东国家境内举行、也是第二次在亚洲举行的世界杯足球赛。 今年卡塔尔世界杯可谓精彩纷呈,花2000个亿在沙漠里打造出的空调球场、洗脑又魔性的“母鸡生蛋”主题曲《Tukoh Taka》、世界…

角逐「视觉感知」万亿市场,这家国内领跑者如何挑战性能天花板?

随着智能汽车渗透率快速提升,车用视觉感知摄像头装配量大幅增长。以前向ADAS摄像头为例,今年1-8月中国市场(不含进出口)乘用车新车标配交付为639.10万颗,同比增长29.54%;而这个数字在2021年同期为55.67%。 …

ppt 的基本操作1

一 基本操作 1.1 隐藏和显示功能区 1.点击有上角,小箭头标志 2.显示 1.2 工作区 和编辑区的比例拖放 1.1 箭头放到红色标注的部分,当鼠标变为箭头形状,可以动态拖动 2.可以看到二者之间的比例,发生变化 1.3 编辑区设置网格线…

Minianaconda安装jupyter notebook遇到的问题及解决

文章目录前言一、如何安装jupyter notebook二、其他问题解决1、安装时报错2、安装之后不能打开3、Verifying transaction: failedRemoveError注意:使用时命令提示符窗口不可以关闭前言 提示:这里可以总结遇到的各种问题: 1、如何安装jupyte…

Excel 可视化教程之可视化的科学与艺术

我们经常对表示数据的方式感到不知所措,所以这里是关于为什么要进行可视化以及在进行可视化时的基本思考过程。 探索性与解释性 原始格式的数据既不美观也不具有洞察力。为了掌握潜在的分布、异常和洞察力,我们需要进行探索性数据分析,通常称为 EDA。因此,数据的探索部分…

MySQL表的操作

文章目录MySQL表的操作创建表创建表案例查看表结构修改表删除表MySQL表的操作 表操作至少会涉及如下两类SQL语句: DDL(Data Definition Language)数据定义语言:比如建表、删表、该表、新增列、删除列等。DML(Data Ma…

电容笔有什么用?电容笔10大品牌排行榜

当电容笔与ipad配合使用时,将会极大地提高我们的工作以及学习效率,同时增加更多的乐趣,而不会让人觉得枯燥。在画画方面,电容笔的重要作用不可忽略。我对电容笔还是很了解的,很多电容笔都是适用于我们的ipad的&#xf…

故障分析 | OceanBase Proxy 无法连接 OBserver 集群

作者:贲绍华 爱可生研发中心工程师,负责项目的需求与维护工作。其他身份:柯基铲屎官。 本文来源:原创投稿 *爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。 一、问题现象&am…

前端一面经典vue面试题(持续更新中)

vuex是什么?怎么使用?哪种功能场景使用它? Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式。vuex 就是一个仓库,仓库里放了很多对象。其中 state 就是数据源存放地,对应于一般 vue 对象里面的 data 里面存放的数据…

CAS:2590863-00-4;DPPD的理化性质

中文名 4,4-(2,2-二苯基乙烯-1,1-二基)双([1,1-联苯]-4-羧酸) 英文名 4,4-(2,2-Diphenylethene-1,1-diyl)bis([1,1-biphenyl]-4-carboxylic acid) 物理化学性质 分子式 C40H28O4 分子量 572.65 AIE聚集诱导发光材料的特点: 1.在固态下有强发光特性(粉末…

Wordhero AI智能写作工具:购买、攻略、资源 -揭秘如何根据关键词和标题生成段落

Wordhero AI是我经过仔细对比,实际应用之后获得相应效果之后,坚持使用的AI写作工具。为了持续获得这方面的提升和反馈,我建立了两个渠道去让自己不断获得国内外同样工具使用者的反馈和建议: AI Content Hacker - AI Writing Guid…

[附源码]Python计算机毕业设计Django医学图像管理平台

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

持续跟踪九大行业营销应用,神策《2022 营销自动化应用基准报告》正式发布...

以人为本的时代为营销人员带来了新的机会:与客户建立更紧密的连接,更多地基于品牌与客户的双向参与,以创造更好的产品和体验,而不仅仅是基于大众传播渠道的推广策略传递品牌信息。后疫情时代,市场充满不确定性&#xf…

公益校园网页制作 大学生网页设计作业 HTML CSS公益网页模板 大学生校园介绍网站毕业设计

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

【C++】STL——string的使用

大家好我是沐曦希💕 文章目录一、STL简介1.STL版本2.STL的组成3.如何学习STL二、编码三、string类四、常见构造五、operator[]六、iterator迭代器1.正向迭代器2.反向迭代器3.const迭代器七、Capacity容量操作1.接口2.扩容八、Modifiers修改操作九、非成员函数重载一…

前端Nodejs框架koa/egg和es6入门

故事从一个小需求开始,有一天我们美丽可爱的运营MM拿出来了一份Excel表格,希望在一些特定场景能让小蜜按照她定制的样子来交互,并且每一条问题或答案都带一些值来影响处理过程最终能对用户看到的结果起到一定作用。Excel里包含两个sheet页&am…

【C++类型转换】4种类型转换:static_cast、reinterpret_cast、const_cast、dynamic_cast

目录 1. C语言中的类型转换 2.1.类型转换:static_cast 2.2.类型转换:reinterpret_cast 2.3.类型转换:const_cast 2.4.类型转换:dynamic_cast 1. C语言中的类型转换 隐式类型转换:编译器在编译阶段自动进行&#x…

第9章 无监督学习

系列文章目录 第1章 绪论 第2章 机器学习概述 第3章 线性模型 第4章 前馈神经网络 第5章 卷积神经网络 第6章 循环神经网络 第7章 网络优化与正则化 第8章 注意力机制与外部记忆 第9章 无监督学习 第10章 模型独立的学习方式 第11章 概率图模型 第12章 深度信念网络 第13章 深…