多模态机器学习81篇论文及源码合集(已分类整理)

news2025/1/12 6:00:03

多模态机器学习(MultiModal Machine Learning, MMML)是一种机器学习方法,它旨在解决复杂任务,如多模态情感分析、跨语言图像搜索等,这些任务需要同时考虑多种模态的数据并从中提取有用的信息。

得益于各种语言、视觉、视频、音频等大模型的性能不断提升,多模态机器学习也逐渐兴起,它可以帮助人工智能更全面、深入地理解周围环境,提高模型的泛化能力和鲁棒性,同时还可以促进各学科之间的交流和融合。

在发展过程中,多模态机器学习的研究也面临着许多方面的挑战,对于想要发论文的同学来说,了解这些挑战并掌握已有的解决方案十分重要,可以帮助我们在此基础上做出创新,快速找到自己的idea。

为了帮助同学们发出自己的paper,我这次又爆肝整理了多模态机器学习相关的81篇论文,包含表征、对齐、推理、生成、迁移、量化6个核心技术挑战分类,篇幅原因每个分类只做简单介绍。

需要论文及源码的同学看文末

表征(12篇)

1.Multiplicative Interactions and Where to Find Them

乘法交互作用及其来源

简述:论文探讨了乘法交互在神经网络设计中的作用,它是一种可以描述多种神经网络架构模式(如门控、注意力层、超网络和动态卷积等)的统一框架。作者认为,乘法交互层可以丰富神经网络的函数类,并且在融合多信息流或条件计算时提供强大的归纳偏差。通过在大型复杂强化学习和序列建模任务中的应用,作者证明了乘法交互的潜力和有效性,它可以提高神经网络的表现,并提供设计新神经网络体系结构的新思路。

  • 2.Tensor fusion network for multimodal sentiment analysis

  • 3.On the Benefits of Early Fusion in Multimodal Representation Learning

  • 4.Extending long short-term memory for multi-view structured learning

  • 5.Devise: A deep visual-semantic embedding model

  • 6.Learning transferable visual models from natural language supervision

  • 7.Order-embeddings of images and language

  • 8.Learning Concept Taxonomies from Multi-modal Data

  • 9.Does my multimodal model learn cross-modal interactions? It’s harder to tell than you might think!

  • 10.Learning factorized multimodal representations

  • 11.Multimodal clustering networks for self-supervised learning from unlabeled videos

  • 12.Deep multimodal subspace clustering networks

对齐(10篇)

1.Visual Referring Expression Recognition: What Do Systems Actually Learn?

视觉参照表达识别:系统实际学到了什么?

简述:论文对最先进的指称表达式识别系统进行了实证分析,发现这些系统可能会忽略语言结构,而依赖数据选择和注释过程中的浅层相关性。作者以一个在没有输入指称表达式的情况下在输入图像上训练和测试的系统为例,发现该系统可以在前两名预测中达到71.2%的精度。此外,只给定输入即可预测对象类别的系统在前两名预测中可以达到84.2%的精度。这些结果说明,在追求基于语言的实际任务上取得实质性进展时,仔细分析模型正在学习什么以及数据是如何构建的是至关重要的。

  • 2.Unsupervised multimodal representation learning across medical images and reports

  • 3.Clip-event: Connecting text and images with event structures

  • 4.Learning by aligning videos in time

  • 5.Multimodal adversarial network for cross-modal retrieval

  • 6.Videobert: A joint model for video and language representation learning

  • 7.Visualbert: A simple and performant baseline for vision and language

  • 8.Decoupling the role of data, attention, and losses in multimodal transformers

  • 9.Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks

  • 10.MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences

推理(18篇)

1.Neural module networks

神经模块网络

简述:论文描述了一种构建和学习神经模块网络的程序,该程序将联合训练的神经“模块”组合成用于问题回答的深度网络。作者的方法将问题分解为其语言子结构,并使用这些结构动态实例化模块网络(带有可重用的组件以识别狗、对颜色进行分类等)。所得的复合网络是联合训练的。作者在两个具有挑战性的视觉问题回答数据集上评估了该方法,在VQA自然图像数据集和关于抽象形状的复杂问题的新数据集上都取得了最佳结果。

  • 2.Dynamic memory networks for visual and textual question answering

  • 3.A Survey of Reinforcement Learning Informed by Natural Language

  • 4.Mfas: Multimodal fusion architecture search

  • 5.Multi-view intact space learning

  • 6.Neuro-Symbolic Visual Reasoning: Disentangling Visual from Reasoning

  • 7.Probabilistic neural symbolic models for interpretable visual question answering

  • 8.Learning by abstraction: The neural state machine

  • 9.Socratic models: Composing zero-shot multimodal reasoning with language

  • 10.Vqa-lol: Visual question answering under the lens of logic

  • 11.Multimodal logical inference system for visual-textual entailment

  • 12.Towards causal vqa: Revealing and reducing spurious correlations by invariant and covariant semantic editing

  • 13.Counterfactual vqa: A cause-effect look at language bias

  • 14.Exploring visual relationship for image captioning

  • 15.KAT: A Knowledge Augmented Transformer for Vision-and-Language

  • 16.Building a large-scale multimodal knowledge base system for answering visual queries

  • 17.Visualcomet: Reasoning about the dynamic context of a still image

  • 18.From Recognition to Cognition: Visual Commonsense Reasoning

生成(12篇)

1.Multimodal summarization of complex sentences

复杂句的多模态总结

简述:论文提出了将复杂句子自动说明为多模态总结的想法,这些总结结合了图片、结构和简化压缩文本。除了图片之外,多模态总结还提供了关于发生了什么、谁做的、对谁做和如何做的额外线索,这可能有助于阅读困难的人或希望快速浏览的人。作者提出了ROC-MMS,一个用于自动创建复杂句子的多模态总结(MMS)的系统,通过生成图片、文本摘要和结构,作者发现,仅凭图片不足以帮助人们理解大多数句子,尤其是对不熟悉该领域的读者而言。

  • 2.Extractive Text-Image Summarization Using Multi-Modal RNN

  • 3.Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video

  • 4.Multimodal abstractive summarization ` for how2 videos

  • 5.Deep fragment embeddings for bidirectional image sentence mapping

  • 6.Phrase-based image captioning

  • 7.Style transfer for co-speech gesture animation: A multi-speaker conditional-mixture approach

  • 8.You said that?: Synthesising talking faces from audio

  • 9.Zero-shot text-to-image generation

  • 10.Stochastic video generation with a learned prior

  • 11.Parallel wavenet: Fast high-fidelity speech synthesis

  • 12.Arbitrary talking face generation via attentional audio-visual coherence learning

迁移(13篇)

1.Integrating Multimodal Information in Large Pretrained Transformers

在大型预训练Transformer中集成多模态信息

简述:这篇论文提出了一个叫做Multimodal Adaptation Gate(MAG)的装置,可以附加到BERT和XLNet上,让它们在微调期间接受多模态非语言数据。这个装置通过生成对BERT和XLNet内部表示的转变来实现,而这个转变是有条件于视觉和声学模态的。实验表明,微调MAG-BERT和MAG-XLNet可以显著提高情感分析性能,超过了以前的基线和仅语言微调的BERT和XLNet。在CMU-MOSI数据集上,MAG-XLNet首次实现了人类级别的多模态情感分析性能。

  • 2.Multimodal few-shot learning with frozen language models

  • 3.HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning

  • 4.FLAVA: A Foundational Language And Vision Alignment Model

  • 5.Pretrained transformers as universal computation engines

  • 6.Scaling up visual and visual language representation learning with noisy text supervision

  • 7.Foundations of multimodal co-learning

  • 8.Found in translation: Learning robust joint representations by cyclic translations between modalities

  • 9.Vokenization: Improving Language Understanding with Contextualized, VisualGrounded Supervision

  • 10.Combining labeled and unlabeled data with co-training

  • 11.Cross-modal data programming enables rapid medical machine learning

  • 12.An information theoretic framework for multi-view learning

  • 13.Comprehensive Semi-Supervised Multi-Modal Learning

量化(16篇)

1.Perceptual Score: What Data Modalities Does Your Model Perceive?

你的模型感知到什么样的数据模式?

简述:这篇论文介绍了一种新的度量方法,称为感知分数,用于评估模型对输入特征的不同子集(即模态)的依赖程度。通过使用感知分数,作者发现四个流行数据集上的一种惊人一致趋势:最近更准确、最先进的视觉问题回答或多模态对话视觉模型往往不如其前辈对视觉数据的感知。这种趋势令人担忧,因为答案越来越多地从文本线索中推断出来。使用感知分数还可以通过将分数分解为数据子集的贡献来帮助分析模型偏差。作者希望就多模态模型的感知能力展开讨论,并鼓励从事多模态分类器工作的社区开始通过提出的感知分数来量化感知能力。

  • 2.Multimodal explanations: Justifying decisions and pointing to the evidence

  • 3.Women also snowboard: Overcoming bias in captioning models

  • 4.FairCVtest Demo: Understanding Bias in Multimodal Learning with a Testbed in Fair Automatic Recruitment

  • 5.Smil: Multimodal learning with severely missing modality

  • 6.VL-InterpreT: An Interactive Visualization Tool for Interpreting Vision-Language Transformers

  • 7.Behind the scene: Revealing the secrets of pre-trained vision-and-language models

  • 8.Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality

  • 9.Does my multimodal model learn cross-modal interactions? It’s harder to tell than you might think!

  • 10.MultiViz: Towards Visualizing and Understanding Multimodal Models

  • 11.M2Lens: Visualizing and explaining multimodal models for sentiment analysis

  • 12. HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning

  • 13.One model to learn them all

  • 14.What Makes Training Multi-Modal Classification Networks Hard?

  • 15.Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks

  • 16.MultiBench: Multiscale Benchmarks for Multimodal Representation Learning

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态ML”领取全部论文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1230456.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sql注入 [极客大挑战 2019]HardSQL1

打开题目 输入1或者1",页面均回显NO,Wrong username password!!! 那我们输入1 试试万能密码 1 or 11 # 输入1 and 12 # 输入1 union select 1,2,3 # 输入1 ununionion seselectlect 1,2,3 # 输入1 # 输入1# 页面依旧回…

损失函数总结(十五):MSLELoss、RMSLELoss

损失函数总结(十五):MSLELoss、RMSLELoss 1 引言2 损失函数2.1 MSLELoss2.2 RMSLELoss 3 总结 1 引言 在前面的文章中已经介绍了介绍了一系列损失函数 (L1Loss、MSELoss、BCELoss、CrossEntropyLoss、NLLLoss、CTCLoss、PoissonNLLLoss、Gau…

集成多元算法,打造高效字面文本相似度计算与匹配搜索解决方案,助力文本匹配冷启动[BM25、词向量、SimHash、Tfidf、SequenceMatcher]

搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术…

优卡特脸爱云一脸通智慧管理平台权限绕过漏洞复现【CVE-2023-6099】

优卡特脸爱云一脸通智慧管理平台权限绕过漏洞复现【CVE-2023-6099】 一、 产品简介二、 漏洞概述三、 影响范围四、 复现环境五、 漏洞复现手动复现自动化复现(小龙POC开源) 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信…

Java 解压文件

maven库&#xff1a; <!--FileUtil、ZipUtil 依赖--> <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.3.1</version> </dependency><!--IOUtils 依赖--> <depen…

vue3父组件提交校验多个子组件

实现功能&#xff1a;在父组件提交事件中校验多个子组件中的form 父组件&#xff1a; <script setup lang"ts">import {ref, reactive} from vueimport childForm from ./childForm.vueimport childForm2 from ./childForm2.vuelet approvalRef ref()let ap…

分形简单版

我的代码&#xff1a; #include<bits/stdc.h> using namespace std; const int N1000; int n; char s[N][N]; void work(int x) {if(x1) {s[0][0]*;return;}work(x-1);for(int i0;i<(1<<x-2);i)for(int j(1<<x-2);j<(1<<x-1);j) s[i][j]s[i][j-(…

火电安全事故vr模拟仿真培训强交互更真实

VR消防&#xff0c;利用VR虚拟现实技术&#xff0c;将VR和消防教育融合在一起达到寓教于乐的效果&#xff0c; VR消防教育是对于家中、校园内、大型商场、公司办公室等情景产品研发的消防安全培训类VR系统软件&#xff0c;根据互动体验、互动、视角实际操作、视听觉系统多度自然…

CV计算机视觉每日开源代码Paper with code速览-2023.11.16

点击CV计算机视觉&#xff0c;关注更多CV干货 论文已打包&#xff0c;点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【基础网络架构】ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy 论文地址&#xff1a;https://arxiv.org//pdf/23…

2023年亚太杯数学建模思路 - 案例:感知机原理剖析及实现

文章目录 1 感知机的直观理解2 感知机的数学角度3 代码实现 4 建模资料 # 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 感知机的直观理解 感知机应该属于机器学习算法中最简单的一种算法&#xff0c;其…

【报错记录】解决使用Kotlin写的SpringBoot项目使用Aspect切面无法生效的问题

前言 为了能在SpringBoot使用Kotlin&#xff0c;真的是各种坑都彩礼一遍&#xff0c;这次遇到的问题是Aspect无法对Kotlin代码生效。我这里的使用场景是使用切面切Controller中的方法&#xff0c;用来对接口进行一些初始化和收尾工作。 Aspect在Controller类还是Java代码的时…

Databend 开源周报第 120 期

Databend 是一款现代云数仓。专为弹性和高效设计&#xff0c;为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务&#xff1a;https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展&#xff0c;遇到更贴近你心意的 Databend 。 使用自定义 CON…

惠普打印机秋季新品震撼登场,以卓越品质赢得用户信赖,打造无限创新打印体验

北京&#xff0c;2023年11月20日 —— 今日&#xff0c; 2023惠普打印机秋季新品发布暨合作伙伴大会于北京举办。本次发布会以“品质 信赖&#xff0c;创新无界”为主题&#xff0c;惠普公司面向中国市场推出了四大系列、四十三款全新的打印产品&#xff0c;进一步丰富了其在细…

系统设计之通讯协议

一、通讯协议 架构风格定义了应用程序编程接口 (API) 的不同组件如何相互交互。因此&#xff0c;它们通过提供设计和构建 API 的标准方法来确保效率、可靠性以及与其他系统集成的便捷性。以下是最常用的样式&#xff1a; 1. SOAP 成熟、全面、基于XML 最适合于企业应用 可扩展…

开启AI高效办公时代,成为AI时代的先行者

文章目录 AI智能化办公&#xff1a;未来办公的新模式一、AI智能化办公的优势1. 提高工作效率2. 降低成本3. 提高决策质量4. 促进团队协作 二、AI智能化办公的应用场景1. 智能助手2. 智能会议3. 智能文档处理4. 智能数据分析 三、AI智能化办公的挑战与前景1. 数据安全与隐私保护…

LVGL 像文字一样,显示任意自定义符号

颜色可以在程序中设定,符号的C数组生成 这种应用非常适合类似汽车仪表盘中,有很多行业内特定符号需要显示的场景,而且符号需要根据情况改变颜色。网上这方面基本没有资料,本文是作者根据LVGL自定义字库的源代码修改来实现的。 使用工具: 设置:(根据液晶屏不同可能不同…

C++:哈希表的模拟实现

文章目录 哈希哈希冲突哈希函数 解决哈希冲突闭散列&#xff1a;开散列 哈希 在顺序结构和平衡树中&#xff0c;元素的Key和存储位置之间没有必然的联系&#xff0c;在进行查找的时候&#xff0c;要不断的进行比较&#xff0c;时间复杂度是O(N)或O(logN) 而有没有这样一种方案…

探索零信任架构的基础知识

根据普华永道 2023 年的一份报告&#xff0c;36% 的 CISO 已开始实施零信任组件。另外 25% 的人表示他们计划在未来几年内开始零信任之旅。 显然&#xff0c;“零信任”不仅仅是一个流行词&#xff1b;而是一个流行语。相反&#xff0c;它代表了世界对待网络安全方式的彻底转变…

Java-final

【1】修饰变量&#xff1b; 1.public class Test { 2. //这是一个main方法&#xff0c;是程序的入口&#xff1a; 3. public static void main(String[] args) { 4. //第1种情况&#xff1a; 5. //final修饰一个变量&#xff0c;变量的值不可以改变&#…