通用创新点:坐标注意力机制!低成本下表现依旧SOTA

news2024/11/13 4:24:00

同学们,今天我们来聊聊坐标注意力。

坐标注意力是一种非常高效的注意力机制,它通过将位置信息嵌入到通道注意力中,轻轻松松就能提高轻量级网络的性能。

这一机制的核心在于其创新的结构和对位置信息的精确捕捉能力,允许模型在强调特定通道的同时维持对空间位置的敏感度。且由于简单灵活,它还可以轻松嵌入到各种移动网络中,并在各种计算机视觉任务中取得很好的性能。

因此如果我们想在不增加太多计算成本的情况下提升模型表现,坐标注意力是个非常好的选择。当然,为方便有需求的同学们实践,我已经整理好的12个最新的坐标注意力创新方案分享给大家:

论文原文以及开源代码需要的同学看文末

Expression Recognition Based on Multi-Regional Coordinate Attention Residuals

方法:本文介绍了一种基于多区域坐标注意力残差的面部表情识别模型(MrCAR),通过多区域输入、坐标注意力残差网络和Arcface Loss分类器,提高了面部表情的识别准确率。

创新点:

  • 提出了多区域输入方法,通过MTCNN进行面部检测和对齐处理,并进一步裁剪眼睛和嘴巴部分,以获得多区域图片。通过多区域输入,更容易获取局部细节和全局特征,减少复杂环境噪声的影响,突出面部特征。

  • 在特征提取模块中引入了坐标注意力残差网络,通过添加CA-Net和多尺度卷积,提取关键特征,并提高了模型对表情细微变化的区分能力和关键特征的利用率。

  • 使用Arcface Loss作为分类器,同时增强类内紧密度和类间差异,从而减少模型对负面表情的错误分类。

Large coordinate kernel attention network for lightweight image super-resolution

方法:本论文的研究目标是设计一种高效的单图像超分辨率网络,通过引入多尺度蓝图可分离卷积(MBSConv)和局部坐标核注意力(LCKA)来提高模型的性能和效率,填补现有轻量级超分辨率方法在多尺度信息提取方面的研究空白。

创新点:

  • 提出了大型坐标核注意力网络(LCAN),这是一种非常轻量级的SR模型,可以从低分辨率输入中恢复出高性能图像。LCAN比之前的轻量级SR网络更轻量级,同时实现了更优越的重建性能。

  • 提出了大型坐标核注意力(LCKA)模块,该模块将LKA的2D卷积核分解为水平和垂直1D卷积核,从而实现了局部信息和远距离依赖的邻近直接交互。

YOLOv5s-CA: A Modified YOLOv5s Network with Coordinate Attention for Underwater Target Detection

方法:研究通过对YOLOv5s模型进行改进,提出了YOLOv5s-CA模型,该模型添加了多个瓶颈层以提高浅层特征提取能力,并嵌入了CA注意力模块和SE注意力模块以提高模型对感兴趣区域的关注。

创新点:

  • 对YOLOv5s模型进行了改进:引入了CA和SE模块,命名为YOLOv5s-CA,以提高水下目标检测的准确性。

  • 修改了骨干网络:在YOLOv5s模型的合适位置嵌入了SE注意力模块,使模型能够根据卷积输入自适应调整通道权重,从而适应不同复杂特征图上的每个目标的特征提取。

A New Semantic Segmentation Method for Remote Sensing Images Integrating Coordinate Attention and SPD-Conv

方法:本文提出了一种新的遥感图像语义分割模型CAS-Net,该模型通过在特征提取网络中将逐步卷积替换为SPD-Conv卷积,并在网络中添加了池化层,以避免细节信息的丢失,从而有效改善了小目标的分割效果。模型还引入了坐标注意机制,将其应用于空洞空间金字塔池化(ASPP)模块中,从而提高了遥感图像中分类对象的识别能力和目标定位精度。

创新点:

  • 新的遥感图像语义分割网络CAS-Net的提出:
    • 在孔径空间金字塔池化(ASPP)模块中引入坐标注意力(CA),从而提高了遥感图像中分类对象的可识别性和目标定位精度。

    • 引入Dice系数到交叉熵损失函数中,最大化了模型的梯度优化,解决了图像分类不平衡问题。

  • 对小目标分割的新方法:
    • 充分利用地面对象的对称性,并通过对称量化来减少参数数量,实现轻量级模型,同时保持了模型的性能。

    • 引入了坐标注意力机制,使模型能够获取不同对象之间的关系,并避免了遥感图像中空间关系信息的丢失,从而提高了分割准确性。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“坐标12”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

缓存双写一致性(笔记)

缓存更新方案 旁路缓存模式 这是比较多的 旁路缓存模式:缓存有就返回,没有数据库查询,放入缓存返回。 还有些常用缓存策略 读穿透模式 读穿透和旁路很相似,程序不需要关注从哪里读取数据,它只需要从缓存查询数据。…

机器学习-保存模型并根据模型进行预测 python demo

文章目录 前言机器学习-保存模型,根据模型进行预测python demo1. 将我们创建的线性回归模型保存到本地2. 利用我们保存的模型进行房价预测 demo2. 利用我们保存的模型生成对应的预测线性图 demo 前言 如果您觉得有用的话,记得给博主点个赞,评…

LLM大语言模型-AI大模型全面介绍

简介: 大语言模型(LLM)是深度学习的产物,包含数十亿至数万亿参数,通过大规模数据训练,能处理多种自然语言任务。LLM基于Transformer架构,利用多头注意力机制处理长距离依赖,经过预训…

一个土木工程专业背景的开发者,讲述开源带给他的力量

在前段时间我们举办的“TDengine Open Day”第一季技术沙龙中,TDengine 应用研发高级工程师谭雪峰进行的“开源之路:程序员的成长与探索”主题分享获得了众多参会者的好评。谭雪峰从自身独特的职业发展经历出发,分享了自己在开源领域的种种收…

DM达梦数据库字符串函数整理

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

视觉理解与图片问答,学习如何使用 GPT-4o (GPT-4 Omni) 来理解图像

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、引言 OpenAI 最新发布的 GPT-4 Omni 模型,也被称为 GPT-4o,是一个多模态 AI 模型,旨在提供更加自然和全面的人机交互体验。 GPT-4o 与 GPT-4 Turbo 都具备视觉功…

3d中模型显示黑色给不了材质---模大狮模型网

如果3D模型显示黑色,而且无法给它添加材质,可能有以下几种原因: 一:模型没有UV贴图 UV贴图是3D模型表面纹理的一种方式,如果模型没有正确的UV贴图,渲染时可能会显示黑色。在大多数3D建模软件中&#xff0c…

Telnet远程登录(Cisco)

Telnet 基于TCP/IP协议族 远程终端协议 在Internet上远程登录 VTY(Virtual Teletype) 通过IP连接物理上的终端 实现在Internet上 登陆和配置远程目标终端 A Router>enable Router#config Router(config)#hostname A A(config)#interface gigabitEthernet 0/0 A(confi…

归并排序与快速排序总结-c++

一,归并排序 归并排序(Merge sort)是建立在归并操作上的一种有效的排序算法。该算法分治法(Divide and Conquer)的一个非常典型的应用。 作为一种典型的分而治之思想的算法应用,归并排序的实现由两种方法…

机器学习/pytorch笔记:time2vec

1 概念部分 对于给定的标量时间概念 t,Time2Vec 的表示 t2v(t)是一个大小为 k1的向量,定义如下: 其中,t2v(t)[i]是 t2v(t)的第 i 个元素,F是一个周期性激活函数,ω和 ϕ是可学习的参数。 以下是个人理解&am…

最热门的智能猫砂盆好不好用?这期统统告诉你!

身为上班族的我们,常常被工作和出差填满日程。忘记给猫咪铲屎也不是一次两次了。但我们必须意识到,不及时清理猫砂盆不仅会让猫咪感到不适,还可能引发泌尿系统感染、皮肤疾病等健康问题。为了解决这个问题,越来越多的铲屎官开始将…

JavaWeb——MySQL:navicate客户端工具简单使用

目录 1. 连接 2. 新建数据库 3. 使用数据库 4. 新建表 5.使用表 6. 导出数据库 我这里是英文版,没有进行汉化。 1. 连接 点击左上角Connection,选择MySQL,(我连接的是自己计算机上的数据库)连接名输入&#x…

Java面试题:聚簇索引和非聚簇索引

聚簇索引和非聚簇索引 聚簇索引(聚集索引) 将数据的存储和索引放在一块,索引结构的叶子节点保存了行数据 索引字段必须存在,且只能存在一个 非聚集索引(二级索引) 将数据和索引分开存储,索引结构的叶子节点关联的是对应的主键 索引字段可以存在多个 索引的选取规则 如果…

Unity2D - 碰撞检测及边界检测

1. 地面检测 1.1 地面检测的逻辑及代码 一般情况下,对于手人物进行事件处理或动作处理时,我们需要判定人物是否在地面上,这个时候最好的方式是设定地面碰撞器,只有角色在地面时才可以进行跳跃; 我们可以想象物体的重心向地面延伸…

Java的gui开发-Swing如何一键打包exe、dmg等

java的gui开发其实很方便,性能也不错,知名的idea开发工具也是java-swing开发,只是用的人少,看了我的例子3分钟就能学会,分分钟写桌面端,下面教你如何一键打包windows端exe Java-Swing-Template java的gui开…

解决SD卡被写保护问题

存储卡在使用过程中,有时会遇到写保护问题,导致无法写入或删除数据。这可能会对用户的正常使用造成困扰。MK米客方德将为您介绍几种常见的解决方法,帮助用户解除存储卡的写保护。 一、检查物理写保护开关 许多存储卡,如SD卡&…

深入剖析Tomcat(十二) 详解StandardContext

StandardContext是Context容器的一个标准实现,一般情况下,Tomcat都是使用StandardContext类来创建Context容器。前面讲过,Context容器代表了一个Web应用,Tomcat本身支持部署多个应用,相应的每个应用都会有一个Standard…

解锁小红书新玩法:中小企业出海营销的集成策略

随着全球数字化浪潮的推进,小红书作为生活方式分享平台的崛起,为中小企业提供了一个全新的营销舞台。NetFarmer,作为专注于企业数字化出海的服务商,深谙小红书的营销策略,并致力于通过HubSpot产品销售与实施&#xff0…

spring boot jar 启动报错 Zip64 archives are not supported

spring boot jar 启动报错 Zip64 archives are not supported 原因、解决方案问题为什么 spring boot 不支持 zip64zip、zip64 功能上的区别zip 的文件格式spring-boot-loader 是如何判断是否是 zip64 的? 参考 spring boot 版本是 2.1.8.RELEASE,引入以…

Chrome开发者工具学习

打开开发者工具: 可以通过在网页上点击右键并选择“检查”来打开。 或者使用快捷键Ctrl Shift I(在Windows/Linux上)或Command Option I(在Mac上)。 界面概览: 熟悉DevTools的基本面板,如“…