计算机视觉注意力机制小盘一波 (学习笔记)

news2024/11/26 2:46:18

将注意力的阶段大改分成了4个阶段

1.将深度神经网络与注意力机制相结合,代表性方法为RAM

⒉.明确预测判别性输入特征,代表性方法为STN

3.隐性且自适应地预测潜在的关键特征,代表方法为SENet

4.自注意力机制

通道注意力

在深度神经网络中,每个卷积层通常包含多个通道,每个通道对应一个特定的特征。

通道注意力的目标是根据每个通道的重要性,动态地调整通道的权重,

以便在网络中更好地捕捉和利用重要的特征。
 

通过显示建模通道之间的相互依赖性,重新校准通道方面的特征响应

在squeeze阶段,通过全局平均池化操作,将卷积层的输出特征图压缩成一个特征向量

然后再excitation阶段,通过使用全连接层和非线性激活函数

学习生成一个通道的权重向量(被应用于原始特征图的每个通道),已对不同通道的特征进行加权

空间注意力

空间注意力可以被看作是一种自适应的空间区域选择机制

空间注意机制允许神经网络在处理输入数据时,有选择性地关注特定的空间位置或区域,

以便更好地提取有用的特征。

可以帮助网络集中注意力在重要的区域上,忽略或减少对不相关区域的处理。
其应用范围比通道注意力多出了精细分类(FGCls)和图像字幕(ICap)


它通过 策略梯度 以 端到端的方式循环预测重要区域, 并更新整个网络

明确预测 相关区域

引入空间变换器模块的方法

该模块可以对输入数据进行几何变换 平移旋转缩放

核心思想 是通过一个空间变换器  使得网络可以自动学习 对输入数据进行合适的几何变换

从而提升网络的鲁棒性和泛化能力

隐式的进行softmask的预测

该篇paper 提出了一种新的特征上下文利用方法

gather excite 通过在卷积神经网络的不同层之间收集特征信息,

并在每个层中激活重要的特征,从而提升网络的性能

传统的卷积神经网络在处理图像时,通常只考虑局部的特征

然而在某些任务重,全局上下文信息对于准确的预测非常重要

Non-local Neural Networks 非局部神经网络 通过 引入非局部操作

使得网络能够在任意位置上对全局信息进行交互

时间注意力

时间注意力可以被看作是一种动态的时间选择机制,决定了何时进行注意,因此通常用于视频处理。
 

本文提出了全局局部时间表示  来利用视频序列中的多尺度时间线索

进行视频人物重新识别

本篇Method 为 首先对相邻帧之间的短期时间线索,进行建模

然后捕获 不连续帧之间的长期关系

tam模块的核心思想是 引入一个自适应的时间注意力模块

他通过 学习得到每个时间步骤的注意力权重 从而决定那些时间步骤对于当前任务更加重要

这样模型在不同视频中 动态选择时间窗口的长度 以适应不同的时间尺度

分支注意力

分支注意力通常用于多分支的神经网络中,其中每个分支都专注于不同的特征子集
这些分支可以是不同层级的特征提取器,也可以是不同任务的子模型。

通过引入分支注意力,模型可以自动学习每个分支的权重, 以便更好地利用不同分支的特征。
 

提出了全新的高速网络架构 用于优化深度神经网络 由于梯度爆炸和梯度消失而导致的训练苦难的问题

引入门控机制来控制 信息的流动 从而允许网络更好地学习输入数据中的非线性关系

提出一种条件参数卷积

他可以为每个样例学习一个特定的卷积kernel参数 通过替换标准卷积

通道空间注意力

CBAM小陈读paper系列-CSDN博客

channel attention 学习通道间的依赖关系 来调整通道的重要性 以增强网络对不同通道的感知能力

spatial attention           空间上                              空间 

时空注意力

结合了空间注意力和时间注意力的优点,能够自适应地选择重要区域和关键帧。

1.Attention Mechanisms in Computer Vision: A Survey(https://arxiv.org/abs/2111.07624)

2.Squeeze-and-Excitation Networks(https://arxiv.org/abs/1709.01507)

3.Recurrent Models of Visual Attention(https://arxiv.org/abs/1406.6247)

4.Spatial Transformer Networks(https://arxiv.org/abs/1506.02025)

5.Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks(https://arxiv.org/abs/1810.12348)

6.Non-local Neural Networks(https://arxiv.org/abs/1711.07971)

7.Global-Local Temporal Representations For Video Person Re-Identification(https://arxiv.org/abs/1908.10049)

8.TAM: Temporal Adaptive Module for Video Recognition(https://arxiv.org/abs/2005.06803) 9.Training Very Deep Networks(https://arxiv.org/abs/1507.06228)

10.CondConv: Conditionally Parameterized Convolutions for Efficient Inference(https://arxiv.org/abs/1904.04971)

11.CBAM: Convolutional Block Attention Module(https://arxiv.org/abs/1807.06521) 12.Residual Attention Network for Image Classification(https://arxiv.org/abs/1704.06904)

13.Recurrent Spatial-Temporal Attention Network for Action Recognition in Videos(https://ieeexplore.ieee.org/document/8123939)

14.STA: Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identification(https://arxiv.org/abs/1811.04129)

15.Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification

本期内容 为b站学习笔记

计算机视觉注意力机制大盘点!Attention is all you need!_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1147053.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ARPG----C++学习记录01日志和调试

多人射击有点难,发现这个更加基础,先学习这个 显示日志 可以在代码中插入这样一行来打印日志,蓝图里的printstring会在屏幕和日志里都显示。可以使用%f,d等来获取后边的输入值。对于打映字符串变量,传入需要* UE_LOG…

基于 matplotlib 实现的基本排序算法的动态可视化项目源码,通过 pyaudio 增加音效,冒泡、选择、插入、快速等排序

基本排序算法动态可视化 依托 matplotlib 实现的基本排序算法的动态可视化,并通过 pyaudio 增加音效。 安装 在使用之前请先检查本地是否存在以下库: matplotlibpyaudiofire requirements.txt 中包含了上述的库 使用 目前本项目仅提供了以下排序算…

最新基于机器学习模型单图换脸离线版软件包及使用方法,本地离线版本模型一键运行(免费下载)

最新基于机器学习模型单图换脸离线版软件包及使用方法,本地离线版本模型一键运行(免费下载)。 “单图换脸”离线一键运行版来了。Roop发布几十个小时后,马不停蹄地搞了Colab在线版。其实这东西都挺好的,又快又方便,几乎没有任何硬件要求,点一点就可以搞定了。但是它有…

案例分析真题-数据库

案例分析真题-数据库 2010年真题 【问题1】 【问题2】 【问题3】 2011 年真题 【问题1】 【问题2】 【问题3】 骚戴理解:这里主要是要学会分析出题目中哪里用到了反规范化技术,主打的就是一个会分析! 2012年真题 【问题1】 【问题2】 【问题…

2022年上半年上午易错题(软件设计师考试)

1.以下关于冯诺依曼计算机的叙述中,不正确的是( )。 A.程序指令和数据都采用二进制表示 B.程序指令总是存储在主存中,而数据则存储在高速缓存中 C.程序的功能都由中央处理器(CPU)执行指令来实现 D.程序的执行过程由指令进行自动控制 程序指令和数据…

目标检测算法改进系列之嵌入Deformable ConvNets v2 (DCNv2)

Deformable ConvNets v2 简介:由于构造卷积神经网络所用的模块中几何结构是固定的,其几何变换建模的能力本质上是有限的。在DCN v1中引入了两种新的模块来提高卷积神经网络对变换的建模能力,即可变形卷积 (deformable convolution) 和可变形…

提高网站速度与用户体验:CDN加速的解决方案

对于网站运营者而言,维持高速和稳定的网站速度对于提升用户体验和提高搜索引擎排名至关重要。为了达到这一目标,内容交付网络(CDN)加速服务提供了一个强大的解决方案。然而,传统的CDN加速服务需要备案手续,…

『阿里云盘 AList Kodi』家庭影院搭建指南

文章目录 前言AList简介安装相关命令获取密码 阿里云盘Kodi安装 参考链接 前言 之前我们使用简易 Python 框架搭建部署了私人影院,但是部分小伙伴们表示对于个人使用来说比较复杂,这次将会带来更加适合个人使用,并且部署更加简单的 阿里云盘…

合并两个有序链表(C++)

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 2: 输入:l1 [], l2 [] 输出&#xff1…

案例分析大汇总

案例分析心得 2018-2022年的案例分析考试内容汇总(近五年) 架构设计题型 软件系统建模 数据库 Web 系统设计 2018年 胖/瘦客户端 C/S 架构非功能性需求 数据流图DFDE-R图Essential Use Cases(抽象用例),Real Use Cases(基础用例)信息工…

Prometheus接入AlterManager配置钉钉告警(基于K8S环境部署)

文章目录 一、钉钉群创建报警机器人二、安装Webhook-dingtalk插件三、配置Webhook-dingtalk插件对接钉钉群四、配置AlterManager告警发送至Webhook-dingtalk五、Prometheus接入AlterManager配置六、部署PrometheusAlterManager(放到一个Pod中)七、测试告警 注意:请基…

Xubuntu16.04系统中create_ap开启5G网络的踩坑记录

Xubuntu16.04系统中安装create_ap创建无线AP: https://blog.csdn.net/qq_45445740/article/details/133972642?spm1001.2014.3001.5501 目录 1.create_ap.conf 配置文件解析2.关于信号强度和延时2.1 信号强度2.2 信号延时2.3 网络延时测试工具推荐——PingPlotter …

Linux | 程序替换

前言 本文主要记录小编学习程序替换中遇到的一些问题,并分享记录下来,希望可以给大家带来帮助; 一、初始程序替换 所谓程序替换,就是将本进程的代码和数据进行替换,运行新程序的代码;我们之前在讲解进程地址…

CDN技术:提升网络效能与用户满意度

网络的持续增长和数字内容的快速传播已经引发了对网络性能和用户体验的不断挑战。内容交付网络(CDN)技术应运而生,以应对这些挑战,实现内容高效分发,提升了整体网络质量。 CDN的核心原理在于通过在全球范围内部署多个服…

【C++初阶】类和对象——操作符重载const成员函数取地址重载日期类的实现

个人主页点击直达:小白不是程序媛 C系列专栏:C头疼记 目录 前言: 运算符重载 运算符重载 赋值运算符重载 前置和后置重载 const成员 取地址及const取地址操作符重载 使用函数操作符重载完成日期类的实现 前言: 上篇文…

YOLO v1(2016.5)

文章目录 AbstractIntroduction过去方法存在的问题我们提出的方法解决了... Unified DetectionNetwork DesignTrainingInference Comparison to Other Detection SystemsDeformable parts modelsR-CNNOther Fast DetectorsDeep MultiBoxOverFeatMultiGrasp ExperimentsConclusi…

java项目之机房预约系统(ssm框架)

项目简介 机房预约系统实现了以下功能: 管理员:个人中心、学生管理、教师管理、机房号管理、机房信息管理、申请预约管理、取消预约管理、留言板管理、论坛管理、系统管理。学生:个人中心、机房信息管理、申请预约管理、取消预约管理、留言…

Elasticsearch:使用 E5 嵌入模型进行多语言向量搜索

作者:JOSH DEVINS 在这篇文章中,我们将介绍多语言向量搜索。 我们将使用 Microsoft E5 多语言嵌入模型,该模型在零样本和多语言设置中具有最先进的性能。 我们将介绍多语言嵌入的一般工作原理,以及如何在 Elasticsearch 中使用 E…

蓝桥杯每日一题2023.10.29

螺旋折线 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 在图中我们可以观察到四个对角线的值均为特殊点&#xff0c;其他的点可以根据这几个 进行偏移量的计算从而进行表示&#xff0c;此题主要是找到规律即可 #include<bits/stdc.h> using namespace std; typedef long…