多模态大模型最全综述

news2024/11/27 1:26:37

微软7位华人研究员撰写--多模态基础模型已经从专用走向通用

它从目前已经完善的还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:

  • 视觉理解
  • 视觉生成
  • 统一视觉模型
  • LLM加持的多模态大模型
  • 多模态agent

1、谁适合阅读这份综述?

只要你想学习多模态基础模型的基础知识和最新进展,不管你是专业研究员,还是在校学生,它都是你的“菜”。

一起来看看~

2、摸清多模态大模型现状

这五个具体主题中的前2个为目前已经成熟的领域,后3个则还属于前沿领域。

2.1、视觉理解

这部分的核心问题是如何预训练一个强大的图像理解backbone。

如下图所示,根据用于训练模型的监督信号的不同,我们可以将方法分为三类:
标签监督、语言监督(以CLIP为代表)和只有图像的自监督。

其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。

在这些方法之外,文章也进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法。

还列出了以上这些方法各自的代表作品。

2.2、视觉生成

这个主题是AIGC的核心,不限于图像生成,还包括视频、3D点云图等等。

并且它的用处不止于艺术、设计等领域——还非常有助于合成训练数据,直接帮助我们实现多模态内容理解和生成的闭环。

在这部分,作者重点讨论了生成与人类意图严格一致的效果的重要性和方法(重点是图像生成)。

具体则从空间可控生成、基于文本再编辑、更好地遵循文本提示和生成概念定制(concept customization)四个方面展开。

在本节最后,作者还分享了他们对当前研究趋势和短期未来研究方向的看法。

即,开发一个通用的文生图模型,它可以更好地遵循人类的意图,并使上述四个方向都能应用得更加灵活并可替代。

同样列出了四个方向的各自代表作:

2.3、统一视觉模型

这部分讨论了构建统一视觉模型的挑战:

一是输入类型不同;

二是不同的任务需要不同的粒度,输出也要求不同的格式;

三是在建模之外,数据也有挑战。

比如不同类型的标签注释成本差异很大,收集成本比文本数据高得多,这导致视觉数据的规模通常比文本语料库小得多。

不过,尽管挑战多多,作者指出:

CV领域对于开发通用、统一的视觉系统的兴趣是越来越高涨,还衍生出来三类趋势:

一是从闭集(closed-set)到开集(open-set),它可以更好地将文本和视觉匹配起来。

二是从特定任务到通用能力,这个转变最重要的原因还是因为为每一项新任务都开发一个新模型的成本实在太高了;

三是从静态模型到可提示模型,LLM可以采用不同的语言和上下文提示作为输入,并在不进行微调的情况下产生用户想要的输出。我们要打造的通用视觉模型应该具有相同的上下文学习能力。

2.4、LLM加持的多模态大模型

本节全面探讨多模态大模型。

先是深入研究背景和代表实例,并讨论OpenAI的多模态研究进展,确定该领域现有的研究空白。

接下来作者详细考察了大语言模型中指令微调的重要性。

再接着,作者探讨了多模态大模型中的指令微调工作,包括原理、意义和应用。

最后,涉及多模态模型领域中的一些高阶主题,方便我们进行更深入的了解,包括:

更多超越视觉和语言的模态、多模态的上下文学习、参数高效训练以及Benchmark等内容。

2.5、多模态agent

所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。

这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异。

然后以MM-REACT为代表带大家看了这种方法的具体运作方式。

接着全面总结了如何构建多模态agent,它在多模态理解方面的新兴能力,以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中。

当然,最后也是一些高阶主题讨论,包括如何改进/评估多多模态agent,由它建成的各种应用程序等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1170467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8独家原创改进:自研独家创新BSAM注意力 ,基于CBAM升级

💡💡💡本文全网首发独家改进:提出新颖的注意力BSAM(BiLevel Spatial Attention Module),创新度极佳,适合科研创新,效果秒杀CBAM,Channel Attention+Spartial Attention升级为新颖的 BiLevel Attention+Spartial Attention 1)作为注意力BSAM使用; 推荐指数:…

时序预测 | MATLAB实现时间序列ACF和PACF分析

时序预测 | MATLAB实现时间序列ACF和PACF分析 目录 时序预测 | MATLAB实现时间序列ACF和PACF分析基本介绍程序设计参考资料基本介绍 自回归分析是线性回归分析的一种推广,主要是研究一个序列反映的自我因果关系。普通线性回归基于互相关分析,涉及两个以上的变量,一个作为因变…

Iceberg教程

目录 教程来源于尚硅谷1. 简介1.1 概述1.2 特性 2. 存储结构2.1 数据文件(data files)2.2 表快照(Snapshot)2.3 清单列表(Manifest list)2.4 清单文件(Manifest file)2.5 查询流程分析 3. 与Flink集成3.1 环境准备3.1.1 安装Flink3.1.2 启动Sql-Client 3.2 语法 教程来源于尚硅…

产品经理入门学习(一):认识产品经理

参考引用 黑马-产品经理入门基础课程 1. 合格的产品经理 1.1 什么是产品 上述产品的共性:解决某个问题的东西上述产品的区别 有形(上图左):颜色、形状、质地和尺寸无形(上图右):脑力劳动成果、…

Leetcode—101.对称二叉树【简单】

2023每日刷题(十九) Leetcode—101.对称二叉树 利用Leetcode101.对称二叉树的思想的实现代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ bool isSa…

华为升腾C92安装win7

华为升腾C92安装win7 不知道什么原因,当初那批C92配置到学校班班通时,安装的是Linux系统。这也造成了我错误地认为C92这个小鸡子太弱了,只能运行Linux还行,无法运行Windows的。 其实错了,我们可以在C92开机时&#xff…

轻量封装WebGPU渲染系统示例<15>- DrawInstance批量绘制(源码)

当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/main/src/voxgpu/sample/DrawInstanceTest.ts 此示例渲染系统实现的特性: 1. 用户态与系统态隔离。 细节请见:引擎系统设计思路 - 用户态与系统态隔离-CSDN博客 2. 高频调用与低频调用隔离。…

IEEE CAI2024

投递链接: ​https://ieeecai.org/2024/

Spring 中 BeanFactory 和 FactoryBean 有何区别?

这也是 Spring 面试时一道经典的面试问题,今天我们来聊一聊这个话题。 其实从名字上就能看出来个一二,BeanFactory 是 Factory 而 FactoryBean 是一个 Bean,我们先来看下总结: BeanFactory 是 Spring 框架的核心接口之一&#xf…

Leetcode—110.平衡二叉树【简单】

2023每日刷题(十九) Leetcode—110.平衡二叉树 实现代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ int preFunc(struct TreeNode* root) {if(root…

LeetCode算法心得——路径总和||(dfs+双端队列+链表)

大家好,我是晴天学长,简单树的经典题目,是dfs的开端啊,需要的小伙伴可以关注支持一下哦!后续会继续更新的。 1) .路径总和|| 给你二叉树的根节点 root 和一个整数目标和 targetSum ,找出所有 从根节点到叶子…

蓝牙耳机有什么功能怎么用,蓝牙耳机的用法和功能分享

蓝牙耳机最基本的功能就是接听电话,听音乐,兼容其他软件进行无线操作,同时还可以调节音量,播放暂停等功能。不过现如今蓝牙耳机中出现了一个新型的派别——骨传导蓝牙耳机,可以让你在享受音乐的同时,也能保…

6、QtCharts 悬浮曲线效果

文章目录 效果dialog.hdialog.cpp悬浮槽函数 效果 dialog.h #ifndef DIALOG_H #define DIALOG_H#include <QDialog> #include <QtCharts> #include <QLineSeries> #include <QGraphicsScene> #include <QTimer> #include <QSplineSeries>…

为什么在DTO中请要使用包装类型

Java是一种强类型的面向对象编程语言&#xff0c;它为我们提供了一种特殊的类别&#xff0c;叫做数据传输对象&#xff08;Data Transfer Object&#xff0c;DTO&#xff09;。在本篇文章中&#xff0c;我们将详细讨论为什么在DTO中使用包装类型而非基础类型。 1. 什么是DTO&a…

电池原理与分类

1 电池基础知识 电池目前大量应用于我们的生活中&#xff0c;主要包括3C消费类、动力类、储能类。 图1 电池应用方向 备注&#xff1a;3C指的是计算机(Computer )、通讯&#xff08;Communication&#xff09;消费类电子产品&#xff08;Consumer Electronic&#xff09;三类…

GPT4做网页,完成度竟然这么高!!!

CHATGPT简介 chatgpt的自我介绍是这样的&#xff1a; 最近一段时间内&#xff0c;chatgpt可谓是数次引发热议&#xff0c;现在&#xff0c;让我们一起来看看&#xff0c;他所制作的网页究竟能到什么地步呢&#xff1f; 提示词 我给了CHATGPT如下的提示词&#xff0c;那么它…

【一周安全资讯1104】证监会发布《上市公司公告电子化规范》等9项金融行业标准;北京网信办对三家违反数据安全法规企业作出行政处罚

要闻速览 1、证监会发布《上市公司公告电子化规范》等9项金融行业标准 2、《网络安全标准实践指南—粤港澳大湾区跨境个人信息保护要求》公开征求意见 3、北京市网信办对三家企业未履行数据安全保护义务作出行政处罚 4、加拿大禁止政府雇员使用微信和卡巴斯基 5、次覆盖“人的…

CSS解决div行变块 ➕ CSS解决“table中的td文字溢出控制显示字数,显示省略号”的问题

CSS解决div行变块 ➕ CSS解决“table中的td文字溢出控制显示字数&#xff0c;显示省略号”的问题 1. div变块级设置1.1 先看不设置的效果1.2 再看设置之后的效果 2. 解决 table 中 td 内容过长问题2.1 CSS实现&#xff08;文字溢出控制td显示字数&#xff0c;显示省略号&#x…

ssm在线互助答疑系统-计算机毕设 附源码 20862

ssm在线互助答疑系统 摘 要 科技进步的飞速发展引起人们日常生活的巨大变化&#xff0c;电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流&#xff0c;人类发展的历史正进入一个新时代。在现实运用中&#…

(免费领源码)java#ssm#mysql 宠物领养系统08465-计算机毕业设计项目选题推荐

目 录 摘要 1 绪论 1.1课题背景及意义 1.2研究现状 1.3ssm框架介绍 1.3论文结构与章节安排 2 宠物领养系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 …