多模态最新经典论文合集,涵盖预训练、表征学习、多模态融合

news2024/11/24 0:51:22

最近多模态相关的论文好火,原因就不多说了(懂得都懂),因为有不少想发paper的同学来问了,我就火速整理了一部分来和你们分享。

这次整理了6篇最新的多模态论文,还有12篇经典的文章,主要涉及预训练、表征学习、多模态融合等热门细分方向,论文包大家可以看文末领取!

6篇最新论文

1.CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting Pseudo-Language Labels for Visual Grounding

作者提出了CLIP-VG,利用预训练模型CLIP和伪语言标签进行自定进度课程适应,实现无监督地理定位。另外,作者也设计了端到端网络,并提出单/多源课程适应算法。

CLIP-VG超过最新无监督方法6.78-14.87%,甚至超过弱监督方法。

2.ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps

作者系统阐述了关键组成部分和最新 LSF模型的发展,回答了如何构建适用于PHM任务的LSF模型,并概述了挑战和未来这种研究范式的发展路线图。

3.MiniGPT4: Enhancing Vision-Language Understanding with Advanced Large Language Models

作者提出MiniGPT-4,使用一个投影层将视觉编码器和语言模型Vicuna对齐,可以根据给定图像写故事和诗歌,为图像中显示的问题提供解决方案,以及根据食品照片教用户烹饪等。

4.InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

作者提出了交互视觉框架InternGPT,简称iGPT。该框架集成了具有计划和推理功能的聊天机器人功能,例如 ChatGPT,具有指向等非语言指令,使用户能够直接操作图像或视频的动作。

5.LLaVA: Visual Instruction Tuning

作者首次尝试使用仅语言的GPT-4生成多模态语言图像遵循指令的数据。

通过在这样生成的数据上进行指令调整,作者提出LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,它将视觉编码器和LLM连接起来,用于通用的视觉和语言理解。

6.MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

作者提出了多模态3D语义分割模型MSeg3D,通过联合模态特征和跨模态融合以解决多模态困难。

4篇预训练

1.Learning Transferable Visual Models From Natural Language Supervision

作者提出通过预测图像和文本配对来预训练视觉模型,达到SOTA性能,证明这种无监督预训练可以有效地学习视觉表示,并在30+下游任务上进行实验,表现出非平凡的泛化能力,有时甚至超过完全监督的模型。

2.Unifying Vision-and-Language Tasks via Text Generation

作者提出一个统一的框架,在单个架构中采用相同的语言建模目标来学习不同的任务,即多模态条件文本生成,其中该模型基于视觉和文本输入生成文本中的标签。

3.UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

作者提出了一个统一的模态预训练架构,即UNIMO,可以有效适应两种单一模式,以及多模态理解和生成任务。

通过利用大规模的自由文本语料库和图像集合,提高了视觉和文本理解的能力,并通过跨模态对比学习(CMCL)将文本和视觉信息对齐到一个统一的语义空间中。

4.ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

作者提出了一个最小的VLP模型Vision-and-Language Transformer (ViLT),在处理视觉输入方面极大地简化为与处理文本输入完全相同的无卷积方式。

2篇表征学习

  • Deep Multimodal Representation Learning: A Survey

  • Watching the World Go By: Representation Learning from Unlabeled Videos

6篇多模态融合

  • Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

  • DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars

  • Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal Sentiment Analysis

  • Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

  • P4Contrast: Contrastive Learning with Pairs of Point-Pixel Pairs for RGB-D Scene Understanding

  • SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态”获取全部论文合集

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1174243.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优先级队列(堆)的概念+模拟堆的实现

文章目录 优先级队列(堆)的概念模拟堆的实现一、概念1.优先级队列2.堆1.堆的性质2.堆的存储3.堆的创建3.1 向下调整3.2建堆的时间复杂度 O(N) 4.堆的插入4.1向上调整4.2向上调整建堆的时间复杂度:O(N * log N) 5.堆的删除 优先级队列&#xf…

【Java 进阶篇】Java Session 原理及快速入门

大家好,欢迎来到本篇博客。今天,我们将探讨Java Web开发中一个重要而令人兴奋的概念,即Session(会话)。Session是一种在Web应用程序中跟踪用户状态和数据的机制。我们将深入了解Session的原理,并通过示例来…

LangChain+LLM实战---LlamaIndex、正确使用索引

LlamaIndex简介 LlamaIndex(也称为GPT Index)是一个用户友好的界面,它将您的外部数据连接到大型语言模型(Large Language Models, llm)。它提供了一系列工具来简化流程,包括可以与各种现有数据源和格式(如api、pdf、文档和SQL)集成的数据连接器。此外&a…

Android Studio(对话框AlertDialog)

前言 前面介绍了常用控件的相关属性,那些控件的使用起来也很容易。在本节及后面的章节介绍的控件将是相比于前面使用起来较为复杂的(不过使用多了,也很容易上手)。 这些控件常常需要配合java代码来使用,比如说对话框、…

如何将PDF文件转换成翻页电子书?这个网站告诉你

​随着电子书的普及,越来越多的人开始将PDF文件转换成翻页电子书。翻页电子书不仅方便阅读,而且还可以在手机上轻松翻页。那么如何将PDF文件转换成翻页电子书呢?今天就为大家介绍一个网站,可以帮助你轻松完成这个任务。 1.首先&am…

Redis-使用java代码操作Redis->java连接上redis,java操作redis的常见类型数据存储,redis中的项目应用

java连接上redisjava操作redis的常见类型数据存储redis中的项目应用 1.java连接上redis package com.zlj.ssm.redis;import redis.clients.jedis.Jedis;/*** author zlj* create 2023-11-03 19:27*/ public class Demo1 {public static void main(String[] args) { // …

语言的新启程之Solidity

官方网站 WTF-Solidity官网 编译器 区块链的基础 Gas 一经创建,每笔交易都收取一定数量的 gas,目的是限制执行交易所需要的工作量和为交易支付手续费。EVM 执行交易时,gas 将按特定规则逐渐耗尽。 gas price 是交易发送者设置的一个值&…

深入理解计算机系统CS213 - Lecture 02

Bits, Bytes, and Integer 1.位运算与条件运算 &&#xff0c;|&#xff0c;^&#xff0c;~ 是做位运算。诸位01运算。 &&&#xff0c;||&#xff0c;&#xff01;是判断条件真假&#xff0c;而后返回0或1。 2. 位移 x << y&#xff1a;左移y位&#xff…

Excel·VBA工作表导出为图片

《Excel转图片别再截图啦&#xff01;用这4个方法&#xff0c;高清且无损&#xff01;》&#xff0c;excel转为图片一般方法较为简单&#xff0c;那么能否使用vba将excel转为图片 选中区域导出为图片 zoom设置为2&#xff0c;导出图片较为清晰 Sub 选中区域导出为图片()Dim …

【iOS】——知乎日报第三周总结

文章目录 一、获取新闻额外信息二、工具栏按钮的布局三、评论区文字高度四、评论区长评论和短评论的数目显示五、评论区的cell布局问题和评论消息的判断 一、获取新闻额外信息 新闻额外信息的URL需要通过当前新闻的id来获取&#xff0c;所以我将所有的新闻放到一个数组中&…

MySQL基础『数据库基础』

✨个人主页&#xff1a; 北 海 &#x1f389;所属专栏&#xff1a; MySQL 学习 &#x1f383;操作环境&#xff1a; CentOS 7.6 阿里云远程服务器 &#x1f381;软件版本&#xff1a; MySQL 5.7.44 文章目录 1.数据库概念1.1.什么是数据库1.2.数据库存储介质1.3.常见数据库 2.数…

【带头学C++】----- 三、指针章 ---- 3.5 字符串与指针

在 C 中&#xff0c;字符串可以通过指针来表示和操作。C 的字符串是由字符组成的字符数组&#xff0c;而指针则用于引用和操作内存中的数据。 1. 字符数组 1. 字符数组: 字符数组是最基本的字符串表示方式。可以使用字符数组来存储字符串&#xff0c;并使用指针来引用它。字符…

嵌入式中利用VS Code 远程开发原理

VS Code几乎是所有的程序员必备的工具之一&#xff0c;据说全球一般的开发者都使用过VS Code这款工具。 今天分享一篇 VS Code 实现远程办公相关的文章。 1、概 述 通常&#xff0c;我们都是每天到工作的办公室进行办公&#xff0c;但是&#xff0c;如果下班回家&#x…

Linux学习第32天:Linux INPUT 子系统实验(一):接纳

Linux版本号4.1.15 芯片I.MX6ULL 大叔学Linux 品人间百味 思文短情长 题目中用了“接纳”俩字。其实学习就是一个接纳的过程。接纳新的知识&#xff0c;从而转化为自己知识宝库的一部分。那今天学习的input子系统和今天的主题接纳有…

0基础2小时搭建自己的网站

​作者主页 &#x1f4da;lovewold少个r博客主页 ⚠️本文重点&#xff1a;0基础2小时搭建个人网站 &#x1f449;【C-C入门系列专栏】&#xff1a;博客文章专栏传送门 &#x1f604;每日一言&#xff1a;宁静是一片强大而治愈的神奇海洋&#xff01; 目录 前言 第一步 环境…

DETR 论文精读【论文精读】End-to-End Object Detection with Transformers

DETR 这篇论文&#xff0c;大家为什么喜欢它&#xff1f;为什么大家说它是一个目标检测里的里程碑式的工作&#xff1f;而且为什么说它是一个全新的架构&#xff1f; 大家好&#xff0c;今天我们来讲一篇 ECC V20 的关于目标检测的论文。它的名字想必大家都不陌生&#xff0c;也…

系列十二、过滤器 vs 拦截器

一、过滤器 vs 拦截器 1.1、区别 &#xff08;1&#xff09;触发时机不一样&#xff0c;过滤器是在请求进入容器后Servlet之前进行预处理的&#xff0c;请求结束返回也是&#xff0c;是在Servlet处理完后&#xff0c;返回给前端之前&#xff1b; &#xff08;2&#xff09;过滤…

5.3有效的括号(LC20-E)

算法&#xff1a; 题目中&#xff1a;左括号必须以正确的顺序闭合。意思是&#xff0c;最后出现的左括号&#xff08;对应着栈中的最后一个元素&#xff09;&#xff0c;应该先找到对应的闭合符号&#xff08;右括号&#xff09; 比如:s"( [ ) ]"就是False&#xf…

个人服务器到期,项目下线,新的开始

告别旧服务器 2023.11.06服务器到期&#xff0c;所有项目正式下线 时间真的过的很快&#xff0c;从开始踏入编程的大门&#xff0c;到现在不知不觉已经陆续经手了两台服务器了&#xff0c;目前这台服务器是一年前的阿里云活动白嫖的嘿嘿嘿&#xff0c;该服务器上目前运行的项…

Docker与微服务实战——基础篇

Docker与微服务实战——基础篇 第一章 Docker 简介1.1 docker 理念1.2 容器与虚拟机比较 第二章 Docker 安装2.1 前提说明2.2 Docker的基本组成2.2.1 镜像&#xff08;image&#xff09;2.2.2 容器&#xff08;container&#xff09;2.2.3 仓库&#xff08;repository&#xff…