交叉注意力融合2024创新方案汇总,附配套模块和代码

news2025/1/13 13:28:26

多模态学习和注意力机制是当前深度学习研究的热点领域之一,而交叉注意力融合作为这两个领域的结合点,具有很大的发展空间和创新机会。

作为多模态融合的一个重要组成部分,交叉注意力融合通过注意力机制在不同模块之间建立联系,促进信息的交流和整合,从而提升了模型处理复杂任务的能力,展现出其在多模态学习和聚类分析等领域的强大优势。

本文盘点交叉注意力融合相关的13个技术成果,包含2024年最新的研究,这些模块的来源文章以及代码我都整理了,希望能给各位的论文添砖加瓦。

论文和模块代码需要的同学看文末

1.Rethinking Cross-Attention for Infrared and Visible Image Fusion

方法:本文提出了一种端到端的ATFuse网络,用于融合红外图像。通过在交叉注意机制的基础上引入差异信息注入模块(DIIM),可以分别探索源图像的独特特征。同时,作者还应用了交替公共信息注入模块(ACIIM),以充分保留最终结果中的公共信息。为了训练ATFuse,作者设计了一个由不同像素强度约束组成的分割像素损失函数,以在融合结果中达到纹理细节和亮度信息的良好平衡。

创新点:

  • 提出了一种端到端的ATFuse网络,用于融合IV图像。在多个数据集上进行的大量实验表明,我们提出的ATFuse方法具有良好的效果和泛化能力。

  • 基于交叉注意机制提出了一种差异信息注入模块(DIIM)。通过这个DIIM,可以分别探索源图像的独特特征。

  • 将交替公共信息注入模块(ACIIM)应用于所提出的框架中,其中公共信息在最终结果中得到充分保留。

  • 设计了由不同像素强度约束组成的分割像素损失函数,用于训练ATFuse,以便在融合结果中实现纹理细节和亮度信息的良好权衡。

2.ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

方法: 作者提出了一种新颖的双交叉注意力特征融合方法,用于多光谱目标检测,同时聚合了RGB和热红外图像的互补信息。 该方法包括三个阶段:单模态特征提取、双模态特征融合和检测。在单模态特征提取阶段,分别对RGB和热红外图像进行特征提取。在双模态特征融合阶段,通过交叉注意力机制聚合来自不同分支的特征。最后,将融合后的特征输入到检测器进行多尺度特征融合,并进行分类和回归。

创新点:

  • 提出了双交叉注意力变换器的特征融合框架,用于建模全局特征交互和同时捕捉多模态之间的互补信息。通过查询引导的交叉注意力机制增强了对象特征的可辨识性,从而提高了性能。

  • 提出了迭代交互机制,通过在块状多模态变换器之间共享参数来减少模型复杂性和计算成本。这种迭代学习策略在不增加可学习参数的情况下,进一步改善了模型性能。

3.2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

方法:本文提出了一种多模态交错注意力变换器(MIT),用于弱监督的点云分割。该方法包括两个编码器和一个解码器,分别用于提取3D点云和2D多视图图像的特征。解码器通过交叉注意力实现了2D和3D特征的隐式融合。作者交替切换查询和键值对的角色,使得2D和3D特征可以相互丰富。

创新点:

  • 通过使用多视角信息而无需额外的注释工作,作者提出的MIT有效地融合了2D和3D特征,并显著改善了3D点云分割。

  • 弱监督的点云分割。这个任务旨在使用弱标注数据(如稀疏标记点、包围盒级别标签、子云级别标签和场景级别标签)学习点云分割模型。在使用稀疏标记点的设置中取得了显著进展:最先进的方法与有监督的方法具有可比的性能。

  • 2D和3D融合用于点云应用。现有方法依赖于相机姿态和/或深度图像来建立2D和3D域之间的对应关系。相比之下,本文方法通过交错的2D-3D注意力学习了一个变换器,实现了2D和3D特征的隐式融合,而无需相机姿态或深度图像。

  • 查询和键值对交换。交叉注意力广泛应用于变换器解码器中,它捕捉查询和键值对之间的依赖关系。与他们的方法不同,本文方法将查询和键值对交换应用于跨域特征融合。

4.MMViT: Multiscale Multiview Vision Transformers

方法:本文介绍了一种新颖的多尺度多视图视觉Transformer(MMViT)模型,作为适用于多种模态的骨干模型。该模型将多尺度视觉Transformer(MViT)和多视图Transformer(MTV)的优势相结合,通过将多个视图输入到多尺度阶段层次模型中。在每个尺度阶段,使用交叉注意力层将不同分辨率的视图的信息进行融合,从而使网络能够捕捉复杂的高维特征。

创新点:

  • MMViT模型引入了交叉注意力层,使得模型能够在每个尺度阶段获取多视角的信息。通过并行处理不同分辨率的多个视角,MMViT模型能够在每个尺度阶段获取多分辨率的时间上下文。

  • MMViT模型使用了分层缩放系统,通过增加通道大小和降低空间分辨率,生成高维复杂特征。这种分层缩放系统使得网络能够在深度增加时获取更复杂的特征。

5.Multi-Modality Cross Attention Network for Image and Sentence Matching

方法:作者提出了一种新颖的图像和句子匹配方法,通过在统一的深度模型中联合建模跨模态和内部模态关系。作者首先提取显著的图像区域和句子标记。然后,应用所提出的自注意模块和交叉注意力模块来利用片段之间的复杂细粒度关系。最后,通过最小化基于困难负样本的三元组损失,将视觉和文本特征更新到一个公共嵌入空间中。

创新点:

  • 提出了一种新颖的图像和句子匹配方法,通过在统一的深度模型中联合建模跨模态和内模态关系。首先提取显著的图像区域和句子标记。然后,应用所提出的自注意模块和交叉注意模块来利用片段之间的复杂细粒度关系。最后,通过最小化基于困难负样本的三元组损失将视觉和文本特征更新到一个共同的嵌入空间中。

  • 提出了一种新颖的多模态交叉注意网络,通过在统一的深度模型中联合建模图像区域和句子单词的内模态关系和跨模态关系,用于图像和句子匹配。为了实现稳健的跨模态匹配,作者提出了一种新颖的交叉注意模块,能够利用每个模态内的内模态关系以及图像区域和句子单词之间的跨模态关系,相互补充和增强图像和句子匹配。

6.CCNet: Criss-Cross Attention for Semantic Segmentation

方法:本文提出了一种Criss-Cross网络(CCNet),用于以一种非常有效和高效的方式获取全图像的上下文信息。具体而言,对于每个像素,一种新颖的交叉关注模块收集其交叉路径上所有像素的上下文信息。通过进一步的循环操作,每个像素最终可以捕捉到全图像的依赖关系。此外,还提出了一种类别一致性损失,以强制交叉关注模块产生更具区分性的特征。

创新点:

  • 创新的Criss-Cross Attention模块:通过在每个像素上采用新颖的Criss-Cross Attention模块,可以收集其所在的十字路径上所有像素的上下文信息。通过进一步的循环操作,每个像素最终可以捕捉到全图像的依赖关系。

  • 引入的类别一致性损失:为了使Criss-Cross Attention模块产生更具辨别性的特征,作者提出了类别一致性损失。该损失函数使网络将图像中的每个像素映射到特征空间中的一个n维向量,使属于同一类别的像素的特征向量彼此靠近,而属于不同类别的像素的特征向量相距较远。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“交叉注意力”获取论文+模块代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1422926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【网络】:网络套接字(TCP)

网络套接字(TCP) 一.编写TCP服务器二.编写Tcp客户端三.多进程四.多线程版本五.线程池版完整源代码六.使用示例 一.编写TCP服务器 1.先搭一个架子 2.创建sockfd domain参数依然是AF_INET(因为是IPV4) type方式选择SOCK_STREAM(提供可靠的连接…

记一次某竞赛中的渗透测试(Windows Server 2003靶机漏洞)

靶机简介 Windows Server 2003是微软公司于2003年3月28日发布的服务器操作系统,它基于Windows XP/Windows NT 5.1进行开发,并在同年4月底上市。以下是关于Windows Server 2003的详细介绍: 系统名称与发布历程: 该产品最初被命名为…

Gaussian_Splatting 项目脚本指令

准备好一个稀疏重建的目录(如Colmap的sparse文件),高斯泼溅需要稀疏重建的点云结果来作为输入,进行进一步训练和渲染。 可以参考:gaussian-splatting原理 有一点需要注意:Gaussian_Splatting 需要稀疏重建…

力扣之2621.睡眠函数

/*** param {number} millis* return {Promise}*/ async function sleep(millis) {return new Promise(resolve > setTimeout(resolve, millis)); }/** * let t Date.now()* sleep(100).then(() > console.log(Date.now() - t)) // 100*/ 这样的异步休眠功能在实际应用…

vue中使用html2canvas配合jspdf导出pdf(以及在导出时遇到的导出样式问题)

指定页面中导出为pdf格式并打包,使用html2canvas先转为图片格式,在利用jspdf转为pdf,最后下载打包为本地压缩包 yarn add html2canvas yarn add jspdf1. 注册一个插件并挂载 import html2Canvas from html2canvas import JsPDF from jspdf …

【零基础学习CAPL】——CAN报文的发送(配合Panel面板单次发送)

🙋‍♂️【零基础学习CAPL】系列💁‍♂️点击跳转 文章目录 1.概述2.面板创建2.1.新建一个Panel2.2. 在Panel中调出控件窗口2.3.控件添加与配置 3.系统变量创建4.系统变量与Panel绑定5.CAPL脚本实现6.效果 1.概述 使用场景,按下面板按钮同时…

人工智能与机器学习——开启智能时代的里程碑

写在前面 前言人工智能与机器学习的概述监督学习、无监督学习和强化学习的基本原理监督学习:无监督学习:强化学习: 机器学习的算法和方法常见的机器学习算法和方法线性回归:决策树:支持向量机:神经网络&…

个人多域名SSL证书推荐

SSL数字证书和通配符SSL证书、多域名通配符SSL证书一样,可以同时保护多个域名站点,但是它们之间还是存在一些区别。其中,最明显的区别就是它们的保护域名网站的类型和适用场景。今天就随SSL盾小编来了解多域名SSL证书。 1.多域名SSL证书可以…

【C/C++】深入理解--函数重载(什么是函数重载?为什么要有函数重载?)

目录 一、前言 二、 函数重载 🍎什么是函数重载 🍐函数重载的条件 🍇函数重载的注意点 🍉为什么要有函数重载 🍓为何C语言不支持函数重载,反倒C可以? 💦 Linux环境下演示函数重…

云纱网签约百望云,联手打造数字化产业闭环

近日,百望云签约广东云纱数字科技有限公司,共建数字化发票管理系统,赋能产业链上下游供应商的协同交易与运营,助力企业实现数字化四流合一交易,打造数字化产业闭环。 云纱网是广东云纱数字科技有限公司依托于深厚的产业…

Halcon 几何测量

文章目录 算子Halcon 计算两点之间的距离案例Halcon 计算点到直线的距离Halcon 计算点到区域的距离Halcon 线到区域的距离Halcon 线到线的距离 算子 distance_pp 两点之间的距离算子 distance_pp( : : Row1, Column1, Row2, Column2 : Distance) Row1 点1的行坐标 Column1 点1的…

Django视图函数技巧,从入门到实战

文章目录 Django视图函数1.request对象的方法2.视图函数的常用的返回对象(1)response对象(2)JsonResponse对象(3)redirect() :给浏览器了一个30x的状态码 3.设置响应头和状态码(1&am…

【Vue】前端项目引入阿里图标

【Vue&React】前端项目引入阿里图标 方式11、登录自己的iconfont-阿里巴巴矢量图标库,把需要的图标加入到自己的项目中去;2、加入并进入到项目中去选择Font class 并下载到本地3、得到的文件夹如下4. 把红框中的部分粘贴到自己的项目中( …

2万块的郎酒,都是我们惯的

文 | 琥珀酒研社 作者 | 五画 当我看到郎酒拿出快2万一瓶纪念酒的时候,我就知道,这场高价酒的喧嚣和吵闹,又到了一个新的高度。 和别的行业有所不同,白酒很少谈智商税,再高的价格,总有个冠冕堂皇的理由。…

28个炫酷的纯CSS特效动画示例(含源代码)

CSS是网页的三驾马车之一,是对页面布局的总管家,2024年了,这里列出28个超级炫酷的纯CSS动画示例,让您的网站更加炫目多彩。 文章目录 1. 涌动的弹簧效果2. 超逼真的3D篮球弹跳,含挤压弹起模态3. 鼠标放div上&#xff0…

力扣hot100 数组中的第K个最大元素 堆 三路划分

Problem: 215. 数组中的第K个最大元素 文章目录 思路复杂度Code 思路 👨‍🏫 参考 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( log ⁡ n ) O(\log{n}) O(logn) Code class Solution {public int findKthLargest(int[] nums, int k…

【Django自学】Django入门:如何使用django开发一个web项目(非常详细)

测试机器:windows11 x64 python版本:3.11 一、安装Django 安装步骤非常简单,使用pip安装就行 pip install django安装完成之后,python的 Scripts 文件夹下,会多一个 django-admin.exe (管理创建django项目的工具)。…

Linux其实不难,做个四层板设计的终端设备就搞懂了!

前言 想掌握一个技能,还得靠实践。 作者想学习Linux,于是边学边做,成功开源出了一个——还不错的 四层板设计的 终端设备。 项目成本可压缩至100元以内,便于复刻与参考学习! 01 开源项目描述 做了一个基于V3S芯片的…

02-opencv简单实例效果和基本介绍-上

机器视觉概述 机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素…

聚类(Clustering)理论

一、无监督学习介绍 在这小节中,我将开始介绍聚类算法,这是我们学习的第一个非监督学习算法,我们将要让计算机学习无标签数据而不是此前的标签数据。那么什么是非监督学习呢?在学习机器学习知识的开始我曾简单地介绍过非监督学习&…