多模态融合16篇优质论文及代码合集,含2023最新

news2024/11/22 23:14:36

多模态融合是多模态学习领域的基础问题,也是多模态研究中非常关键的研究点。它旨在从多个模态(例如语音、图像、文本等)中提取有价值的信息和特征,并将这些信息融合在一起以提高系统的性能。这一领域的研究内容广泛,包括但不限于多模态算法的开发和优化、多模态数据的处理和分析、以及多模态产品的规划和设计。

目前有关多模态融合的研究工作已有了许多值得一看的成果,我简单整理了一下,今天就和大家分享16篇相关论文。项目源码以及论文原文需要的同学看文末

1、External multi-modal imaging sensor calibration for sensor fusion: A review

传感器融合的外部多模态成像传感器标定:综述

概览:本文综述了多模态成像传感器标定的研究现状,包括传统基于运动的标定和基于特征的标定。其中,目标基标定和无目标标定是两种常见的基于特征的标定方法。此外,系统标定是一个新兴研究方向。最后,本文总结了评估标定方法的关键因素,并讨论了其应用。未来的研究应该关注在线无目标标定和系统多模态传感器标定的能力。

2、Provable Dynamic Fusion for Low-Quality Multimodal Data

低质量多模态数据的可证明动态融合

概览:本文研究了多模态融合中的固有挑战,提出了动态多模态融合作为学习范式。通过理论分析,揭示了不确定性估计解决方案可以实现鲁棒的多模态融合。作者还提出了一种名为“质量感知多模态融合”的新型框架,可以提高分类准确性和模型鲁棒性。

3、SkipcrossNets: Adaptive Skip-cross Fusion for Road Detection

用于道路检测的自适应跳过交叉融合

概览:本文提出了一种新型融合架构SkipcrossNets,用于自适应地将LiDAR点云和相机图像进行融合,以进行自动驾驶任务。该网络通过前向方式连接每一层,并使用所有先前层的特征图作为输入,并将其自身的特征图作为输入传递给后续层的另一种模态,从而增强特征传播和多模态特征融合。该网络还被分成几个块,以减少特征融合的复杂性和模型参数的数量。

4、FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection

面向三维目标检测的多传感器融合与时间一致性Transformer

概览:本文提出了一种名为FusionFormer的新型端到端多模态融合框架,用于3D物体检测任务。该框架通过在融合编码模块中引入可变形注意力和残差结构来解决现有方法需要将特征转换为鸟瞰图空间并可能丢失Z轴上的某些信息的问题。具体而言,该方法通过开发统一的采样策略,可以自然地从2D图像和3D体素特征中进行采样,从而利用灵活的适应性,并在特征拼接过程中避免显式转换到鸟瞰图空间。

5、Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization

多模态语义映射用于物体检测和3D定位

概览:本文提出了一种基于多模态传感器融合的框架,用于在已知环境中自主检测和定位预定义对象。该框架结合了RGB-D相机和激光雷达的RGB和深度数据,并能够准确地检测到真实样本环境中98%的对象。与单传感器实验相比,传感器融合允许机器人准确地检测近和远距离障碍物。

6、DBCNet:Dynamic Bilateral Cross-Fusion Network for RGB-T Urban Scene Understanding in Intelligent Vehicles

用于智能车辆RGB-T城市场景理解的动态双边交叉融合网络

概览:本文提出了一种名为DBCNet的动态双边交叉融合网络,用于智能车辆中RGB-T城市场景的理解。作者利用了RGB-T图像中的多模态信息,通过引入DBCNet来进行RGB-T城市场景理解。实验表明,DBCNet能够有效地聚合多层次的深层特征,并优于最先进的深度学习场景理解方法。

7、Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

多模态相互关注和迭代交互用于参考图像分割

概览:本文提出了一种名为多模态相互关注和多模态相互解码器的方法来解决参考图像分割问题。该方法通过更好地融合语言和视觉信息来提高模型对多模态信息的理解能力,并引入了迭代多模态交互和语言特征重建来允许连续和深入的交互以及防止丢失或扭曲语言信息。实验表明,该方法显著改善了基线并始终优于最先进的参考图像分割方法。

8、Transfusion:Multi-modal Fusion Network for Semantic Segmentation

用于语义分割的多模态融合网络

概览:本文提出了一种名为TransFusion的新模型,用于语义分割,该模型直接将图像与点云融合,无需对点云进行有损预处理。相比于使用带有深度图的图像的基本层FCN模型,TransFusion在Vaihingen和Potsdam数据集上将mIoU提高了4%和2%。

9、DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

用于多模态3D对象检测的激光雷达-相机深度融合

概览:本文提出了一种通用多模态3D检测模型,用于自动驾驶中激光雷达和相机的深度融合。作者认为融合深层激光雷达特征和相机特征可以获得更好的性能。为了解决两种模态的特征对齐问题,作者提出了InverseAug和LearnableAlign两种新技巧。基于这些技巧,作者开发了一组名为DeepFusion的通用多模态3D检测模型,该模型比以前的方法更准确。

10、Multi-exposure image fusion via deep perceptual enhancement

通过深度感知增强的多曝光图像融合

概览:本文提出了一种名为DPE-MEF的深度感知增强网络,用于多曝光图像融合。通过整合不同曝光的多个镜头来解决这个问题,本质上是一个增强问题。在融合过程中,应同时关注两个感知因素,包括信息量和视觉真实性。所提出的DPE-MEF包含两个模块,其中一个模块负责从输入中收集内容细节,另一个模块则负责最终结果的颜色映射/校正。实验表明,该网络在数量和质量上优于其他最先进的替代方案,并且在提高单个图像曝光质量方面具有灵活性。

11、Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

一种基于傅里叶变换和对比学习的鲁棒框架

概览:本文提出了一种基于傅里叶变换和对比学习的鲁棒多曝光图像融合框架,可以处理具有极端和多样化曝光水平的图像。作者开发了一种基于傅里叶变换的像素强度转移策略来合成具有不同曝光水平的图像,并训练了一个编码器-解码器网络来重建原始自然图像。同时,作者还提出了一种对比正则化损失来进一步增强网络恢复正常曝光水平的能力。在三个基准数据集上进行广泛比较后,该方法在主观视觉效果和客观评价指标上都优于其他方法。

12、Bridging the View Disparity Between Radar and Camera Features for Multi-modal Fusion 3D ObjectDetection

基于multi-moda的雷达和相机特征之间的视差桥接

概览:本文提出了一种在鸟瞰图下实现雷达和相机特征融合的新方法,以用于3D目标检测。该方法使用多尺度图像2D特征和空间-时间编码器提取的雷达特征,通过视图变换将图像特征转换为BEV,并使用点融合和ROI融合模型进行多模态特征融合。实验结果表明,该方法在nuScenes数据集上实现了最先进的性能。

13、Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

半监督医学图像分割的多模态对比互学习与伪标签再学习

概览:本文提出了一种半监督对比互学习分割框架Semi-CML,该框架利用跨模态信息和不同模态之间的预测一致性进行对比互学习。虽然Semi-CML可以同时提高两种模态的分割性能,但两种模态之间存在性能差距,即存在一种模态的分割性能通常优于另一种模态的情况。因此,作者进一步开发了一种软伪标签再学习(PReL)方案来弥补这种差距。

14、Homogeneous Multi-modal Feature Fusion and Interaction 3D Object Detection

同质多模态特征融合和交互的三维物体检测

概览:本文提出了一种同质多模态特征融合和交互的三维物体检测方法(HMFI),用于自动驾驶中的多模态3D目标检测。该方法通过设计图像体素提升模块、查询融合机制和体素特征交互模块等技术,实现了点云和图像之间的跨模态特征融合和交互,避免了信息损失,提高了性能。

15、Multi-modal policy fusion for end-to-end autonomous driving

用于端到端自动驾驶的多模态策略融合

概览:本文探讨了如何将来自互补传感器的表示进行集成以实现自动驾驶。作者提出了一种名为TransFuser的新型多模态融合Transformer,使用注意力机制来集成图像和LiDAR表示。通过实验验证,该方法在复杂的场景中实现了最先进的驾驶性能,与基于几何的融合相比,碰撞减少了76%。

16、TransMEF:A Transformer-Based Multi-Exposure Image Fusion Framework using Self-Supervised Multi-Task Learning

基于Transformer的多曝光图像融合框架

概览:本文提出了一种基于Transformer的多曝光图像融合框架TransMEF,该框架使用自监督多任务学习。该框架通过三个自监督重建任务来学习多曝光图像的特征并提取更通用的特征。同时,为了弥补CNN架构在建立长期依赖关系方面的缺陷,设计了一个结合了CNN模块和Transformer模块的编码器。在多曝光图像融合基准数据集上,该方法在主观和客观评估中都取得了最佳性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态融合”领取论文原文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1259058.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入探索Maven:优雅构建Java项目的新方式(一)

Maven高级 1,分模块开发1.1 分模块开发设计1.2 分模块开发实现 2,依赖管理2.1 依赖传递与冲突问题2.2 可选依赖和排除依赖方案一:可选依赖方案二:排除依赖 3,聚合和继承3.1 聚合步骤1:创建一个空的maven项目步骤2:将项目的打包方式改为pom步骤…

CSGO搬砖还能做吗?CSGO饰品未来走势如何?

steam/csgo搬砖项目真能月入过万吗?到底真的假的? 如何看待CSGO饰品市场的整体走向? 从整体来说,CSGO的饰品市场与规模肯定会持续不断的上升,大盘不会发生特别大的波动,目前处于稳定期!&…

05_属性描述符

05_属性描述符 文章目录 05_属性描述符一、属性描述符是什么?二、属性描述符①:查看属性描述②:设置属性描述符③:案例01.代码实现02.代码实现(优化) 一、属性描述符是什么? 属性描述符的结构 在…

Transformer中的多头注意力机制-为什么需要多头?

Transformer为什么使用多头注意力机制呢? 多头可以学习到不同维度的特征和信息。为什么可以学习到不同维度的信息呢? 答案是:多头注意力机制的组成是有单个的self attention,由于self attention通过产生QKV矩阵来学习数据特征&a…

字符串入门算法题!

概述 字符串和数组一样算是比较简单的题目,正适合打算法基础,一定要认真对待!!! 字符串类型的算法问题可以分为简单、中等和困难的难度级别,基础类型一些基本的字符串处理问题,如字符串的拼接…

2023加拿大毕业典礼:共赴一场相遇 遥望未来可期

放眼国际金融,启幕璀璨时代。加拿大时间2023年11月14-16日,中国人民大学-加拿大女王大学金融硕士2023届行业高管班及国际班毕业生们携亲友,参加了为期3天的毕业庆祝活动,从加拿大女王大学史密斯商学院的多伦多教学区到女王大学的金…

随手写了个博客多平台发布脚本:Python自动发布文章到Wordpress

​ 引言 作为一名技术博主,提高博客发布效率是我们始终追求的目标。在这篇文章中,我将分享一个基于Python的脚本,能够实现博客多平台发布,具体来说,是自动发布文章到WordPress。通过这个简单而高效的脚本&#xff0c…

考试周刊杂志考试周刊杂志社考试周刊编辑部2023年第46期目录

教育教学研究 丰富作业形式 拓展课堂教学——“双减”下初中英语优化作业设计探析 王慧; 1-5 博学慎思明辨 撬动思维杠杆——论“思辨性阅读与表达”学习任务群范式构建 丁亚琴; 6-10《考试周刊》投稿邮箱:cn7kantougao163.com(注明投稿“《考试周刊》”) 崔…

折线图,样式调整background、serice、xAxis、yxAis等

效果展示: option参数: let option {backgroundColor: "rgba(48, 65, 90, 1)",title: {// text: obj.stnm,// subtext: obj.datasource,textStyle: {color: "#ffffff"},right: 10// left: center,// itemGap: 4},tooltip: {trigge…

JOSEF 综合继电器 HJZZ-32/2 AC220V 合闸延时整定0.02-9.99S

系列型号: HJZZ-91分闸、合闸、电源监视综合装置; HJZZ-92/1分闸、合闸、电源监视综合装置; HJZZ-92/2分闸、合闸、电源监视综合装置; HJZZ-92/2A分闸、合闸、电源监视综合装置; HJZZ-92/3分闸、合闸、电源监视综…

乐鑫推出 ESP ZeroCode ExL 模组

乐鑫推出 ESP ZeroCode ExL 模组,由 AWS IoT ExpressLink 提供支持,可简化用户构建兼容 Matter 的云连接设备。 为简化 Matter 设备的开发,乐鑫在年初发布了 ESP ZeroCode 模组和 ESP ZeroCode 控制台。ESP ZeroCode 模组非常适合一些简单设…

Gin框架如何使用并搭建一个后台管理系统 RBAC 权限管理(六)

一、RBAC 实现流程 1 、实现角色的增、删、改、查 2 、实现用户的增、删、改、查,增加修改用户的时候需要选择角色 3 、实现权限的增、删、改、查 (页面菜单) 4 、实现角色授权功能 5 、判断当前登录的用户是否有访问菜单的权限 6 、根据当前登录账户的角色信息动态显…

如何解决msvcp140.dll丢失问题,分享5个亲测有效的方法

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是“msvcp140.dll丢失”。这个错误通常会导致某些应用程序无法正常运行。msvcp140.dll是Microsoft Visual C 2015 Redistributable Package的一部分,它是由Microsoft公司提供的运行…

seata集成springboot的一些错误小计

1 seata依赖没找到 dependencies.dependency.version for com.alibaba.cloud:spring-cloud-starter-alibaba-seata:jar is missing. line 126, column 21错误原因:未指定具体的seata版本 解决 <!-- https://mvnrepository.com/artifact/com.alibaba.cloud/spring-cloud-st…

C语言:写一个函数,求字符串的长度,在main函数中输入字符串并输出其长度(指针)

分析&#xff1a; 在程序中&#xff0c;定义一个函数 fix&#xff0c;该函数使用指针变量来访问字符串中的每个字符&#xff0c;并计算出字符串的长度。fix 函数的参数为指向 char 类型的指针变量 p&#xff0c;表示需要计算长度的字符串。 在主函数 main 中&#xff0c;定义一…

全自动气象监测站天气预测的革新者

随着科技的不断进步&#xff0c;我们的生活变得越来越智能化。其中&#xff0c;WX-CQ12 全自动气象监测站以其精准的数据和实时的天气预报&#xff0c;成为了天气预测的革新者。本文将详细介绍全自动气象监测站的优势及其对人们生活的影响。 一、全自动气象监测站的优势 精准…

怎么把视频声音提取成MP3?一分钟解决!

有的时候&#xff0c;我们在看一些综艺访谈节目的时候&#xff0c;觉得里面干货满满&#xff0c;会忍不住想单独把音频下载出来单独听&#xff0c;还可以防止会员到期后不可以再播放&#xff0c;下面就向大家介绍三种好用的视频音乐提取成MP3的方法。 方法一&#xff1a;使用野…

HTTP 和 HTTPS 之间除了安全性区别外,还有哪些区别

HTTP 和 HTTPS 是两种常见的网络协议&#xff0c;它们都是用于在浏览器和服务器之间传输数据的。但是&#xff0c;它们之间也有一些重要的区别&#xff0c;这些区别涉及到数据的安全性、传输性能、使用成本和搜索排名等方面。本文将从以下几个方面来介绍 HTTP 和 HTTPS 的区别&…

loadrunner-导入Fiddler数据包方法

文章目录 一、Fiddler获取相关接口&#xff0c;保存为.saz格式二、在loadrunner12中新建脚本&#xff0c;选择协议为HTTP/HTML&#xff0c;然后在录制选项中录制模式选为捕获的流量文件分析&#xff0c;然后选择刚保存的saz文件三、生成完脚本后&#xff0c;点击“关联”可自动…

安防视频监控/磁盘阵列/集中云存储平台EasyCVR设备录像保活不生效原因是什么?该如何解决?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…