多模态大模型(MLLM)：架构篇

多模态大模型(MLLM)：架构篇

news2025/2/22 8:33:27

【导读】多模态大模型主要是以LLM作为核心决策模块，主流架构有两种：LLM as Discrete Scheduler/Controller和LLM as joint part of system，第一种LLM充当任务调度的作用，第二种LLM通过Encoder-LLM-Decoder结构作为系统的关键连接部分，天花板更高。

01

MLLM架构起源

1. 基本idea：以大语言模型(LLM)作为支点

鉴于这一前提，几乎所有当前的MLLM都是基于大语言模型(LLM)构建的，作为核心决策模块（即大脑或中央处理器）。

通过添加额外的非文本模态模块，LLM具有多模态能力。

02

MLLM基本结构

1. LLM as Discrete Scheduler/Controller

LLM 角色是接受文本信号，下发调度下游模块的文本命令

代表模型：

Visual-ChatGPT
HuggingGPT
MM-REACT
ViperGPT
AudioGPT
LLaVA-Plus

2. LLM as joint part of system

LLM的角色是感知多模态信息，通过Encoder-LLM-Decoder 结构做出反应

**关键特点：**LLM是系统的关键连接部分，直接从外部接收多模态信息，并以更流畅的方式将指令传递给解码器/生成器。

目前超过90% 的 MLLM 属于该类别，天花板更高，更好的集成到一个统一模型，如下是MLLM的经典架构：

代表模型：

BLIP-2
InstructBLIP
LLAVA
Flamingo
Qwen-VL

该架构中包含的子模块主要有：Multimodal Encoding、Input-side Projection、Backbone LLMs、Decoding-side Projection、Multimodal Generaton。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2052512.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

探索Python性能优化的神秘力量：Line Profiler

探索Python性能优化的神秘力量：Line Profiler

文章目录探索Python性能优化的神秘力量：Line Profiler第一部分：背景第二部分：库简介第三部分：安装指南第四部分：基本使用方法第五部分：实际应用场景场景1：数据分析场景2：机器学习模…

阅读更多...

Docker 离线下载镜像(本地)

Docker 离线下载镜像(本地)

最近很多离线下载镜像的网站挂了，可以选择 docker hub 下载上传到服务器 Docker desktop image-tools ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/04174b8cefe3445596e09b1e82d9253b.png 保存后，就可以上传服务器，通过 dock…

阅读更多...

音频合成剪辑工具推荐哪个？5款高效工具不容小觑

音频合成剪辑工具推荐哪个？5款高效工具不容小觑

在探索音乐和声音的世界中，我发现了几款令人兴奋的音频剪辑软件，它们不仅功能强大，而且完全免费。作为一个热衷于音频制作的爱好者，我深知找到一款既经济又高效的工具是多么重要。今天，我想跟大家分享我的一些发现&a…

阅读更多...

jeecg部署后端到ubuntu

jeecg部署后端到ubuntu

安装java17 java -versionsudo apt updatesudo apt install openjdk-17-jre-headless安装tomcat 更新源 sudo apt update在apt中搜索tomcat sudo apt search tomcat安装tomcat10和tomcat10-admin sudo apt install tomcat9 tomcat9-admin启动tomcat sudo systemctl start…

阅读更多...

C语言小练习（伍）

C语言小练习（伍）

练习： 利用指针变量将一个数组中的数据反向输出。 void renew(int *p,int len) {for(int i len - 1;i > 0;i--){printf("%d",*(pi));} }int main() {int a[5] {1,2,3,4,5};int len1 sizeof(a) / sizeof(int);renew(a,len1);return 0; }运行结果: …

阅读更多...

AI文生图新纪元：FLUX.1领衔，多款顶尖模型汇聚趋动云社区

AI文生图新纪元：FLUX.1领衔，多款顶尖模型汇聚趋动云社区

前言近期，SD(Stable Diffusion)原班人马(跳槽后新成立团队——Black Forest Lab)开源模型 FLUX.1，或成文生图模型新霸主！ FLUX.1 系列包含 pro、dev、schnell 3 个模型。主要在文字生成、复杂指令遵循和人手生成上具备优势。 FLUX.1pro&a…

阅读更多...

爆学C++之类和对象（上）

爆学C++之类和对象（上）

1.类的定义类定义格式 • class为定义类的关键字，Stack为类的名字，{}中为类的主体，注意类定义结束时后⾯分号不能省略。类体中内容称为类的成员：类中的变量称为类的属性或成员变量; 类中的函数称为类的⽅法或者成员函数。 • …

阅读更多...

IDEA中设置类和方法的注释

IDEA中设置类和方法的注释

分两步设置： 第一个设置是创建类的时候自动加的注解第二个设置是快捷键为方法增加的注解类的时候自动加的注解设置注释模版 #if (${PACKAGE_NAME} && ${PACKAGE_NAME} ! "")package ${PACKAGE_NAME};#end /** * Description: TODO * Auth…

阅读更多...

IOPaint部署，在服务器Ubuntu22.04系统下——点动科技

IOPaint部署，在服务器Ubuntu22.04系统下——点动科技

这里写目录标题一、ubuntu22.04基本环境配置1.1 更换清华Ubuntu镜像源1.2 更新包列表：2. 安装英伟达显卡驱动2.1 使用wget在命令行下载驱动包2.2 更新软件列表和安装必要软件、依赖2.2 卸载原有驱动2.3 安装驱动2.4 安装CUDA2.5 环境变量配置二、安装miniconda环境…

阅读更多...

2024年第九届机器人与自动化工程国际会议(ICRAE 2024)即将召开！

2024年第九届机器人与自动化工程国际会议(ICRAE 2024)将于11月15-17日在新加坡举办。ICRAE 2024会议旨在为机器人与自动化工程等领域的专家学者建立一个广泛有效的学术交流平台，以便让参会人员及时了解行业发展动态、掌握最新技术，促使我们快速、准确地解…

阅读更多...

在scss中如何使用hover（Vue项目）

在scss中如何使用hover（Vue项目）

在scss中如何使用hover（Vue项目） 最近在Vue项目中，想实现在鼠标悬浮时，修改鼠标指向的模块样式，但使用的是scss，写法是什么样的呢？ 效果图： 实现代码： .content {widt…

阅读更多...

Android系统和开发--安全性和权限管理 SELinux 策略安全架构

Android系统和开发--安全性和权限管理 SELinux 策略安全架构

学习android权限知识 SElinux chmod -R 777 ./ setenforce 0 adb root su fastboot oem at-unlock-vboot adb disable-verity Android权限 Android系统是基于Linux内核构建的，因此它继承了Linux的权限管理机制。Android应用需要通过声明权限来访问系统的某些功能&…

阅读更多...

使用docker compose一键部署redis服务

使用docker compose一键部署redis服务

使用docker compose一键部署redis服务 1、创建安装目录 mkdir /data/redis/ -p && cd /data/redis2、创建docker-compose.yml文件 version: 3 services:redis:image: registry.cn-hangzhou.aliyuncs.com/xiaopangpang/redis:7.0.5container_name: redisrestart: al…

阅读更多...

Cpython解释器下实现并发编程——多进程、多线程、协程、IO模型

Cpython解释器下实现并发编程——多进程、多线程、协程、IO模型

一、背景知识进程即正在执行的一个过程。进程是对正在运行的程序的一个抽象。进程的概念起源于操作系统，是操作系统最核心的概念，也是操作系统提供的最古老也是最重要的抽象概念之一。操作系统的其他所有内容都是围绕进程的概念展开的。一&#xff09…

阅读更多...

专利审查信息查询

专利审查信息查询

1 登录国知局国家知识产权局政务服务平台 (cnipa.gov.cn) 进入网上办事 2 中国及多国专利审查信息查询 3 输入条件弹出窗口下载。我们学校没有授权电子申请，没有办法，得自己关注！

阅读更多...

MySQL-进阶篇-存储引擎

MySQL-进阶篇-存储引擎

文章目录 1. MySQL 的体系结构1.1 连接层1.2 服务层1.3 存储引擎层1.4 存储层 2. 存储引擎2.1 存储引擎简介2.2 查看数据库支持的引擎2.3 指定存储引擎2.4 InnoDB 引擎2.4.1 InnoDB 的特点2.4.2 与 InnoDB 有关的磁盘文件2.4.3 InnoDB 的逻辑结构 2.5 MyISAM 引擎2.5.1 MyISAM …

阅读更多...

虚拟机安装centos7-NAT网络模式安装

虚拟机安装centos7-NAT网络模式安装

1、打开虚拟机，点击编辑，选择虚拟网络配置器 2、选择VMnet8的NAT类型 3、点击NAT设置，修改网关 4、点击应用及确定，如果你的子网IP及子网掩码没有的情况下，请优先设置 5、点击文件，选择新建虚拟机 6、选择典…

阅读更多...

42、Python之面向对象：元类应用于定义检查、动态注入、插件注册

42、Python之面向对象：元类应用于定义检查、动态注入、插件注册

引言在上一篇文章中，我们简单聊了一下Python中元类的概念，以及如何定义一个简单的元类。虽然，我们已经学会了定义元类，但是，相信不少刚接触Python的同学，大多会产生这样的疑问：这个不太好理解…

阅读更多...

【Leetcode 1189 】 “气球” 的最大数量 —— 数组模拟哈希表

【Leetcode 1189 】 “气球” 的最大数量 —— 数组模拟哈希表

给你一个字符串 text，你需要使用 text 中的字母来拼凑尽可能多的单词 "balloon"（气球）。字符串 text 中的每个字母最多只能被使用一次。请你返回最多可以拼凑出多少个单词 "balloon"。示例 1： 输入&#…

阅读更多...

YOLOv5改进 | 融合改进 | C3融合重写星辰网络之Rewrite the Stars⭐【CVPR2024】

YOLOv5改进 | 融合改进 | C3融合重写星辰网络之Rewrite the Stars⭐【CVPR2024】

秋招面试专栏推荐 ：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试，可成功执行💡💡💡 专栏目录： 《YOLOv5入门改…

阅读更多...

推荐文章

最新文章