9种卷积注意力机制创新方法汇总,含2024最新

news2025/1/23 6:18:30

今天咱们来聊聊卷积注意力机制

相信各位在写论文的时候都苦恼过怎么更好地改模型,怎么更高效地提高模型的性能和泛化能力吧?我的建议是,不妨考虑考虑卷积+注意力

卷积注意力机制是一种通过关注输入数据中的不同部分来改进模型性能的方法,结合了卷积网络和Transformer各自的优势,以同时获得更好的泛化能力和更大的模型容量。因此,通过将二者有效结合,卷积注意力机制就能帮助我们在准确性和效率之间实现更好的平衡。

今天我就帮同学们整理了卷积注意力机制3种创新思路,帮助想发论文的同学更高效地改模型涨点,早点发出自己的顶会。另外,每种思路我都整理了对应的论文和代码,方便同学们更好地理解这些创新思路是如何落地的。

论文和代码看文末

融合卷积与自注意力机制的新架构

DAS: A Deformable Attention to Capture Salient Information in CNNs

一种可变形的注意力机制,用于捕捉CNN中的显著信息

「简述:」CNN在图像识别中擅长处理局部空间模式,但有些重要的信息可能超出了CNN的识别范围。传统的自我注意力机制虽然能处理全局信息,但计算量大。论文提出了一种名为DAS的新方法。这种方法不仅简单、快速,而且能有效地捕捉相关图像区域的信息。与传统的注意力机制相比,DAS的计算量更小。实验表明,DAS可以显著提高CNN的性能,尤其是在图像分类和目标检测任务上。

X-volution: On the Unification of Convolution and Self-attention

关于卷积和自注意力的统一

「简述:」论文介绍了一种名为X-volution的方法,用于将卷积和自注意力统一起来。作者认为卷积和自注意力是深度神经网络中两个重要的构建块,但现有的架构缺乏一种方法来同时应用这两种操作。因此,作者提出了一个多分支基本模块,由卷积和自注意力操作组成,能够统一局部和非局部特征交互。经过训练后,这个多分支模块可以转换为单个标准卷积操作,称为X-volution,可以作为原子操作插入到任何现代网络中。

CoAtNet: Marrying Convolution and Attention for All Data Sizes

结合卷积和注意力处理各种数据规模

「简述:」论文介绍了一种名为CoAtNet的混合模型,用于结合卷积和注意力的优势。作者认为Transformers具有更大的模型容量,但由于缺乏正确的归纳偏置,其泛化能力可能不如卷积神经网络。为了有效地结合两种架构的优点,作者提出了CoAtNets,这是一类基于两个关键见解构建的混合模型:(1)深度卷积和自注意力可以通过简单的相对注意力自然地统一起来;(2)以合理的方式垂直堆叠卷积层和注意力层可以显著提高泛化能力、容量和效率。

UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning

用于高效时空表示学习的统一的Transformer

「简述:」论文介绍了一种名为UniFormer的模型,用于从高维视频中学习丰富的多尺度时空语义。作者提出了一种新的方法,将3D卷积和视觉Transformer结合起来,以解决视频帧之间的局部冗余和全局依赖关系问题。通过在浅层和深层分别学习局部和全局令牌亲和力,UniFormer能够有效地捕获长距离依赖并减少局部冗余。实验表明,UniFormer在流行的视频基准上取得了最先进的性能,同时需要更少的计算资源。

开发动态和自适应的注意力卷积方法

Dynamic Convolution: Attention over Convolution Kernels

卷积核上的注意力机制

「简述:」动态卷积是一种轻量级的卷积神经网络设计,通过动态聚合多个并行卷积核来增加模型复杂度,从而提高性能。它不需要增加网络深度或宽度,同时具有计算效率高和表示能力强等优点。在ImageNet分类任务上,使用动态卷积可以将MobileNetV3-Small的top-1准确率提高2.9%,同时仅增加了4%的额外FLOPs。

Omni-Dimensional Dynamic Convolution

全维动态卷积

「简述:」全维动态卷积(ODConv)是一种轻量级的卷积神经网络设计,通过学习多个并行卷积核的线性组合来提高性能。与现有的研究不同,ODConv关注所有四个维度(即每个卷积核的空间大小、输入通道数和输出通道数)的卷积核空间,并利用一种新的多维注意力机制和并行策略来学习互补的注意力。作为常规卷积的替代品,ODConv可以插入到许多CNN架构中。在ImageNet和MS-COCO数据集上的实验表明,ODConv为各种流行的CNN骨干网络带来了可靠的准确率提升,同时减少了额外参数。

多尺度注意力卷积网络

EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network

一种高效的金字塔压缩注意力块卷积神经网络

「简述:」论文提出了一种名为金字塔挤压注意力(PSA)的轻量级有效注意力方法,并将其嵌入深度卷积神经网络中以提高性能。通过在ResNet的瓶颈块中使用PSA模块替换3x3卷积,得到了一种新的表示性块,称为高效金字塔挤压注意力(EPSA)块。EPSA块可以很容易地作为一个即插即用组件添加到成熟的骨干网络中,并显著提高模型性能。因此,作者通过堆叠这些ResNet风格的EPSA块开发了一种简单而高效的骨干架构,称为EPSANet。所提出的EPSANet可以为各种计算机视觉任务提供更强的多尺度表示能力,包括但不限于图像分类、目标检测、实例分割等。

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

重新思考用于语义分割的卷积注意力设计

「简述:」SegNeXt是一个用于语义分割的简单卷积网络架构。它重新审视了成功分割模型的特征,发现了一些关键组件,这些组件有助于提高分割模型的性能。这些关键组件包括卷积注意力和廉价的卷积操作。基于这些发现,作者设计了一种新型的卷积注意力网络,称为SegNeXt。SegNeXt在流行的基准测试中显著提高了分割模型的性能,并使用更少的参数达到了与EfficientNet-L2 w/ NAS-FPN相当的性能。

DMSANet: Dual Multi Scale Attention Network

双重多尺度注意力网络

「简述:」论文提出了一种新的轻量级注意力模块,可以很容易地集成到其他卷积神经网络中。所提出的DMSANet网络由两部分构成:一部分用于提取不同尺度的特征并聚合它们,另一部分使用空间和通道注意力模块来自适应地将局部特征与其全局依赖关系整合在一起。在ImageNet数据集上进行图像分类基准测试,并在MS COCO数据集上进行目标检测和实例分割。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“卷积注意力”获取论文+代码合集

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1344128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构之树 --- 二叉树

目录 定义二叉树的结构体 二叉树的遍历 递归遍历 非递归遍历 链式二叉树的实现 二叉树的功能接口 先序遍历创建二叉树 后序遍历销毁二叉树 先序遍历查找树中值为x的节点 层序遍历 上篇我们对二叉树的顺序存储堆进行了讲述,本文我们来看链式二叉树。 定…

台式电源质量如何检测?纳米软件为您科普

一、外观检测 观察台式机电脑电源外观是否有损伤、烧焦,电源线是否有破损、短线的情况。观察电源的电压、电流、功率等参数,是否符合台式机电脑。 二、直观检测 开通电源,如果所有指示灯不亮,风扇没有声音,电源损坏的可…

yolov5 主要流程

1.介绍 本文包含了有关yolov5目标检测的基本流程,包括模型训练与模型部署,旨在帮助小伙伴们建立系统的认知💖💖 YOLO是 "You only look once "的首字母缩写,是一个开源软件工具,它具有实时检测…

Mysql高阶语句及存储过程

目录 空值(NULL) 和 无值() 的区别: 正则表达式: 存储过程: 创建存储过程: 存储过程的参数: 存储过程的控制语句: mysql高阶语句 case是 SQL 用来做为if,then,else 之类逻辑的…

php-fpm运行一段时间,内存不足

目录 一:原因分析 二:解决 三:观察系统情况 php-fpm运行一段时间,内存不足,是什么原因呢。 一:原因分析 1:首先php-fpm的配置 (1)启动的进程数 启动的进程数越多,占用内存越高; 2:其次…

Android studio CMakeLists.txt 打印的内容位置

最近在学习 cmake 就是在安卓中 , 麻烦的要死 , 看了很多的教程 , 发现没有 多少说对打印位置在哪里 , 先说一下版本信息 , 可能你们也不一样 gradle 配置 apply plugin: com.android.applicationandroid {compileSdkVersion 29buildToolsVersion "29.0.3"defau…

2023开发原子开放者大会:AI时代的前端开发,挑战与机遇并存

前言 12月16日,以“一切为了开发者”为主题的开放原子开发者大会在江苏省无锡市开幕。江苏省工业和信息化厅厅长朱爱勋、中国开源软件推进联盟主席陆首群等领导和专家参加开幕式,工业和信息化部信息技术发展司副司长王威伟、江苏省工业和信息化厅副厅长…

视频流媒体直播云服务管理平台EasyNVS长时间运行出现崩溃情况是什么原因?该如何解决?

EasyNVS云管理平台具备汇聚与管理EasyGBS、EasyNVR等平台的能力,可以将接入的视频资源实现统一的视频能力输出,支持远程可视化运维等管理功能,还能解决设备现场没有固定公网IP却需要在公网直播的需求。 有用户反馈,在长时间不间断…

虚拟机和电脑如何传送文件

一.桥接 (实现电脑和虚拟机在同一网段) 虚拟机上网盘设置 二.属性---文件共享设置 1打开属性,点击共享 2.添加共享人为全部人,并修改权限为读写模式 3.点击高级共享,选定此文件夹 4.点击网络和共享中心,划…

js实现前端下载图片和文件资料

说明:下载图片和文档资料是两种不同的方式,所以需要先判断下载的是图片还是word,excel等文件资料 目录 1.文件资料下载: 2.图片资源下载 1.文件资料下载: window.location.href 文件路径; handleClick(item) {let…

S32K312程序快速集成软件看门狗的方法

S32K312的软件看门狗配置比较复杂,如果靠纯手工在外设中进行配置,非常费时间,还不一定好用。 想要快速使用S32K312的软件看门狗,我探索一翻后做了总结: 1、先创建一个官方的示例代码工程(Wdg_Example_S32K…

世界经济论坛制定了五项指导原则,实现跨OT环境的网络安全。

内容概述: 世界经济论坛在其题为“解锁工业环境中的网络弹性:五项原则”的报告中列出:原则一:执行全面风险管理OT 环境、原则二:确保OT工程师和安装操作员对OT网络安全负责、原则三:与高层组织领导、战略规…

一文了解无线通信 - NB-IOT、LoRa

NB-IOT、LoRa 目录概述需求: 设计思路实现思路分析 NB-IOT1.LoRa2.区别 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,chall…

main 函数参数!它们有什么作用?

文章目录 1 主函数定义的标准方式2 为什么main函数需要参数?3 不写参数是否可以?4 两个参数有什么用?5 怎么用?6 总结 1 主函数定义的标准方式 int main (void) { body } //第一种 int main (int argc, char *argv[]) { body …

矩阵微分笔记(2)

目录 前言基本求导规则1. 向量变元的实值标量函数1.1 4个法则1.2 常用公式 2. 矩阵变元的实值标量函数2.1 4个法则2.2 常用公式 参考 前言 这篇笔记的内容是基于参考的文章写出的,公式部分可以会沿用文章本来的式,但会加入我自己的一些思考以及注释&…

Spring-6-事务管理

事务是构建可靠企业级应用程序的最关键部分之一。 最常见的事务类型是数据库操作。 在典型的数据库更新操作中,首先数据库事务开始,然后数据被更新,最后提交或回滚事务(根据数据库操作的结果而定)。但是,在很多情况下&#xff0…

【目标检测】yolov8结构及代码分析

yolov8代码:https://github.com/ultralytics/ultralytics yolov8的整体结构如下图(来自mmyolo): yolov8的配置文件: # Ultralytics YOLO 🚀, AGPL-3.0 license # YOLOv8 object detection model with P3-P5 outputs.…

main参数传递、反汇编、汇编混合编程

week03 一、main参数传递二、反汇编三、汇编混合编程 一、main参数传递 参考 http://www.cnblogs.com/rocedu/p/6766748.html#SECCLA 在Linux下完成“求命令行传入整数参数的和” 注意C中main: int main(int argc, char *argv[]), 字符串“12” 转为12,可以调用atoi…

简单了解SQL宽字节注入与httpXFF头注入(基于sqllabs演示)

1、宽字节注入 sqllabs-less-32为例 使用单引号进行测试 提示我们输入的单引号被转义符 \ 进行了转义,即转义符自动的出现在输入的特殊字符前面,这是防止sql注入的一种方法,导致无法产生报错。 这种情况我们就可以尝试宽字节注入&#xff…

R503S指纹识别模块的指令系统(二)

18 获取随机数 GetRandomCode(0x14) 功能说明:令模块生成一个随机数返回给上位机 输入参数:无 返回参数:确认码 RandomCode(随机数) 指令代码:0x14 确认码0x00 表示获取成功&…