AI知识补全(八):多模态大模型是什么?

news2025/4/1 13:27:58

名人说:人生如逆旅,我亦是行人。 ——苏轼《临江仙·送钱穆父》
创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)


上一篇:AI知识补全(七):AI Agent 智能代理是什么?

目录

    • 一、多模态大模型概述
      • 1. 什么是多模态
      • 2. 多模态大模型的定义
      • 3. 多模态大模型与传统LLM的区别
    • 二、多模态大模型的工作原理
      • 1. 多模态数据的处理流程
      • 2. 跨模态对齐技术
      • 3. 多模态理解与生成
    • 三、多模态大模型的架构
      • 1. 常见架构类型
      • 2. 代表性多模态大模型介绍
      • 3. 模型训练方法与挑战
    • 四、多模态大模型的应用场景
      • 1. 图像理解与描述
      • 2. 视频分析与处理
      • 3. 多模态搜索与推荐
      • 4. 辅助创作与内容生成
      • 5. 医疗与健康
      • 6. 3D与空间计算
    • 五、多模态大模型性能对比
    • 六、多模态大模型的发展趋势与挑战
      • 1. 技术发展趋势
      • 2. 面临的挑战
      • 3. 未来研究方向
    • 七、小结:多模态,百花齐放的时代

很高兴你打开了这篇博客,更多AI知识,请关注我、订阅专栏《AI大白话》,内容持续更新中…

一、多模态大模型概述

1. 什么是多模态

在人工智能领域,多模态(Multimodality)指的是同时处理和理解多种不同类型数据的能力。就像人类能够同时理解看到的图像、听到的声音和阅读的文字一样,多模态AI系统也能够处理多种感知输入。常见的模态包括:文本图像音频视频结构化数据

在这里插入图片描述

2. 多模态大模型的定义

多模态大模型(Multimodal Large Language Models, MLLMs)是指能够同时处理、理解和生成多种模态数据的大规模深度学习模型。与仅处理单一模态(如纯文本)的传统大语言模型(LLMs)不同,多模态大模型能够接收图像、音频等多种输入,理解它们之间的联系,并生成跨模态的响应。

2024年最新的多模态大模型包括:GPT-4oClaude 3.5 SonnetGemini 1.5 ProLLAVA-Next国产的腾讯混元视觉大模型等。这些模型不仅能够处理文本,还能分析图像内容,一些高级版本甚至可以理解视频、音频和3D空间数据 。

3. 多模态大模型与传统LLM的区别

特性传统LLM多模态大模型
处理数据类型主要处理文本处理文本、图像、音频、视频等多种数据
输入形式文本提示文本提示、图像、音频等混合输入
应用范围文本生成、问答、翻译等图像理解、跨模态问答、视觉创作等
模型复杂度相对简单更为复杂,需要处理跨模态对齐
计算资源较低更高,需要处理多模态特征提取
训练数据主要为文本包括大量图文对、视频等多模态数据
上下文窗口较小部分模型支持超长上下文(如Gemini 1.5支持200万tokens)。

二、多模态大模型的工作原理

1. 多模态数据的处理流程

多模态大模型处理不同类型数据的流程大致可分为以下几个步骤:

在这里插入图片描述

基于最新的研究进展 ,多模态大模型的数据处理流程包含以下关键步骤:

  1. 特征提取:各模态通过专门的编码器(Encoder)提取特征

    • 文本通过文本编码器(如Transformer)提取语义特征
    • 图像通过视觉编码器(如ViT, Vision Transformer)提取视觉特征
    • 音频通过音频编码器提取声学特征
    • 视频通过视频编码器处理时序和空间特征
    • 3D/空间数据通过空间编码器提取立体结构特征 。
  2. 跨模态对齐:将不同模态的特征投影到共享的语义空间,这可以通过以下方式实现:

    • 令牌级对齐:将视觉、音频等特征转换为与文本token兼容的表示
    • 特征级融合:在深层次上融合不同模态的特征表示
    • 表示统一:构建统一的多模态表示空间
  3. 多模态理解与推理:基于融合后的表示进行理解和推理,包括:

    • 多模态上下文学习(M-ICL):类似于文本模型的上下文学习能力
    • 多模态思维链(M-CoT):引导模型进行逐步的推理
    • 视觉辅助推理(LAVR):利用视觉信息辅助逻辑推理
  4. 输出生成:根据理解结果生成相应的输出(文本、图像等)

2. 跨模态对齐技术

跨模态对齐是多模态大模型的核心技术之一,目前主流的对齐方法包括 :

  • 对比学习(Contrastive Learning):让相关的多模态数据表示相互靠近,不相关的数据表示相互远离,如CLIP(Contrastive Language-Image Pretraining)模型

  • 联合嵌入(Joint Embedding):将不同模态的数据映射到同一向量空间

  • 注意力机制(Attention Mechanism):使用注意力机制实现不同模态间的信息交互

  • 预训练-微调范式(Pretrain-Finetune Paradigm):先在大规模多模态数据上预训练,再在下游任务上微调

  • 部分LoRA微调(PLoRA):如InternLM-XComposer2模型提出的对齐方法,将额外的LoRA参数应用于图像token,以保持预训练语言知识的完整性 。

3. 多模态理解与生成

多模态大模型不仅能理解多种模态的输入,还能生成相应的输出

在这里插入图片描述

  • 多模态理解:模型能够理解图像内容并回答关于图像的问题,识别图像中的物体、场景和活动

  • 跨模态生成:根据一种模态生成另一种模态的内容,如根据文本描述生成图像、根据图像生成文本描述等

  • 多模态对话:在对话中同时处理文本和图像,实现更自然的人机交互

  • 多模态空间推理:最新的研究如CAD-GPT实现了空间推理增强,能够理解和生成3D空间中的内容 。

三、多模态大模型的架构

1. 常见架构类型

多模态大模型主要有以下几种架构类型

  1. 双塔架构(Dual-Encoder Architecture,CLIP-style

在这里插入图片描述

  • 分别使用独立的编码器处理不同模态
  • 适合对比学习任务,如CLIP模型
  • 优点:模型结构简单,训练高效
  • 缺点:模态间交互有限
  1. 融合架构(Fusion Architecture,LLaVA-style

在这里插入图片描述

  • 先分别编码各模态,再进行特征融合
  • 融合方式包括:早期融合、晚期融合和混合融合
  • 代表模型:ViLBERT, LXMERT, LLaVA
  • 优点:能够有效捕捉跨模态信息
  1. 端到端架构(End-to-End Architecture,Flamingo-style
    在这里插入图片描述

    • 将不同模态的输入统一处理,如将图像转化为"视觉词元"
    • 代表模型:Flamingo, GPT-4V
    • 优点:能够处理更复杂的跨模态任务
  2. 专家架构(Mixture-of-Experts Architecture,MoE-style

在这里插入图片描述

  • 使用专门的"专家"子网络处理不同类型的模态或任务
  • 代表模型:MM1, MoE-LLaVA
  • 优点:在不增加计算成本的情况下扩大总参数量,提高性能 。

2. 代表性多模态大模型介绍

目前主流的多模态大模型包括(2024年最新):

  • GPT-4o(OpenAI):2024年5月发布,支持实时视觉、音频和文本交互,多模态能力全面提升 。

在这里插入图片描述

  • Claude 3.5 Sonnet(Anthropic):2024年6月发布,在多项基准测试中表现优于GPT-4o和Gemini 1.5 Pro 。

在这里插入图片描述

  • Gemini 1.5 Pro(Google):支持200万token的超长上下文,能够处理长视频和大量文档 。

在这里插入图片描述

  • LLaVA-Next(开源):基于Vicuna/Mistral大语言模型的高性能开源视觉语言模型

  • CogVLM(智源):中文开源视觉语言模型,擅长视觉理解和生成

  • 腾讯混元视觉:在SuperCLUE-V中文多模态榜单中排名第一,超越一些国际大模型 。

  • 百度文心一言:支持多模态理解与生成的中文大模型

在这里插入图片描述

3. 模型训练方法与挑战

多模态大模型的训练通常分为三个阶段

  1. 预训练(Pretraining):

    • 在大规模多模态数据上进行预训练
    • 训练目标通常是自回归的下一个token预测
  2. 指令微调(Instruction Tuning):

    • 使模型理解和执行用户的指令
    • 多模态指令数据包括指令、输入和输出
    • 数据收集方法包括:人工标注、模型合成和数据增强
  3. 对齐微调(Alignment Tuning):

    • 减少模型生成内容中的"幻觉"现象
    • 常用方法包括:强化学习与人类反馈(RLHF)和直接偏好优化(DPO)

主要挑战

  • 多模态幻觉问题:模型生成与输入不一致的内容
  • 跨模态对齐难题:不同模态数据具有不同结构特性,难以精确对齐
  • 高质量多模态数据稀缺:获取高质量配对数据困难
  • 计算资源需求巨大:训练成本比纯文本模型高出数倍

四、多模态大模型的应用场景

在这里插入图片描述

1. 图像理解与描述

  • 图像问答(Visual Question Answering, VQA):回答关于图像内容的问题
  • 图像描述生成(Image Captioning):自动生成描述图像内容的文本
  • 视觉推理(Visual Reasoning):分析图像中物体之间的关系和逻辑

应用示例

# 使用多模态模型进行图像描述生成
from transformers import AutoProcessor, AutoModelForCausalLM
import torch
from PIL import Image

# 加载模型和处理器
processor = AutoProcessor.from_pretrained("microsoft/git-base")
model = AutoModelForCausalLM.from_pretrained("microsoft/git-base")

# 加载图像
image = Image.open("example_image.jpg")

# 处理图像
pixel_values = processor(images=image, return_tensors="pt").pixel_values

# 生成图像描述
generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_caption)

2. 视频分析与处理

  • 视频内容理解:理解视频中的场景、活动和事件
  • 视频问答:回答关于视频内容的问题
  • 行为识别:识别视频中人物的行为和动作
  • 视频摘要生成:自动生成视频内容的文字摘要

现代多模态大模型如Gemini 1.5能够分析长达数小时的视频,并且能够从视频中"捞针"找出特定的帧和内容 。

3. 多模态搜索与推荐

  • 图像搜索:根据文本描述搜索相关图像
  • 跨模态检索:使用一种模态搜索另一种模态的内容
  • 多模态推荐系统:基于用户的多模态交互行为进行个性化推荐

4. 辅助创作与内容生成

  • 文字创作辅助:基于图像生成相关的文本内容
  • 图像编辑与生成:根据文本描述生成或编辑图像
  • 多媒体内容创作:协助创作者生成多种形式的内容

5. 医疗与健康

  • 医学影像分析:辅助医生分析X光片、CT、MRI等医学影像
  • 健康记录理解:整合患者的多模态数据进行全面分析
  • 医患沟通辅助:通过分析语音、图像等多种模态提升医患沟通

6. 3D与空间计算

  • CAD模型生成:如CAD-GPT可以根据文本描述或图像生成3D模型 。
  • 空间规划设计:帮助设计师进行空间规划和设计
  • AR/VR内容创建:为增强现实和虚拟现实应用创建内容

五、多模态大模型性能对比

2024年主流多模态大模型能力对比表

模型名称视觉理解能力推理能力编程能力上下文窗口特殊能力
GPT-4o通用视觉理解方面表现出色在数学和计算机科学等科目表现突出,具有较强的复杂推理能力在多步骤编程任务中表现出色未公开具体数值多模态交互能力强
Claude 3.5 Sonnet在细粒度视觉分析上有优势在GPQA和MMLU Pro等推理基准测试上超越Gemini 1.5 Pro-支持200K token上下文窗口,接受超过100万token输入高质量多模态响应
Claude 3.5 Haiku--在SWE-bench Verified上得分率达40.6%,超过Claude 3.5 Sonnet和GPT-4 Turbo支持200K token上下文窗口小型模型中的高性能表现
Gemini 1.5 Pro-在比较数字大小等基础数学任务上表现更稳定-支持长达200万token的上下文窗口,远超其他模型处理长视频和从视频中找出特定帧表现突出
腾讯混元视觉在中文视觉理解方面表现突出,在SuperCLUE-V榜单上超越一些国际大模型---中文多模态理解优势明显
CAD-GPT----在3D建模和空间推理方面有特殊优势

2024年,各大厂商竞相发布和更新多模态大模型,不同模型在各个方面表现各有特色 :

  1. 视觉理解能力

    • GPT-4o在通用视觉理解方面表现出色
    • Claude 3.5 Sonnet在细粒度视觉分析上有优势
    • 腾讯混元视觉在中文视觉理解方面表现突出,在SuperCLUE-V榜单上超越一些国际大模型
  2. 推理能力

    • GPT-4o在数学和计算机科学等科目表现突出,具有较强的复杂推理能力
    • Claude 3.5 Sonnet在GPQA和MMLU Pro等推理基准测试上超越Gemini 1.5 Pro
    • Gemini 1.5 Pro实验版本(0801)在比较数字大小等基础数学任务上表现更稳定
  3. 编程能力

    • Claude 3.5 Haiku在SWE-bench Verified上的得分率达到40.6%,超过原来的Claude 3.5 Sonnet和GPT-4 Turbo
    • GPT-4o在多步骤编程任务中表现出色
  4. 上下文窗口

    • Gemini 1.5系列支持长达200万token的上下文窗口,远超过其他模型
    • Claude 3.5系列支持200k token的上下文窗口,并接受超过100万token的输入
  5. 特殊能力

    • CAD-GPT等专业模型在3D建模和空间推理方面有特殊优势
    • Gemini 1.5在处理长视频和从视频中找出特定帧方面表现突出

这种百花齐放的发展态势正推动多模态AI技术在各个应用场景中的落地和优化,用户可以根据具体需求选择最适合的模型。

六、多模态大模型的发展趋势与挑战

1. 技术发展趋势

  • 更广泛的模态支持:扩展到更多模态,如触觉、3D数据等

  • 更深层次的模态融合:实现更深入的跨模态理解和关联

  • 多模态预训练方法创新:开发更有效的预训练方法和任务

  • 小样本/零样本学习能力增强:提高模型在新任务上的快速适应能力

  • 超长上下文理解:模型上下文长度持续增长,Gemini 1.5已支持200万tokens,未来有望进一步扩展 。

  • 降低算力成本:如DeepSeek V3展示了高效训练方法,大幅降低了训练成本 。

2. 面临的挑战

  • 多模态幻觉问题:模型可能生成与输入不一致的内容或产生"幻觉"

  • 模态对齐难题:不同模态的数据具有不同的结构和特性,实现精确对齐仍然具有挑战

  • 计算资源需求:多模态模型需要更多的计算资源进行训练和推理

  • 多模态数据获取:高质量、大规模的多模态配对数据相对稀缺

  • 模型评估标准:缺乏统一的多模态模型评估标准和基准

3. 未来研究方向

在这里插入图片描述

七、小结:多模态,百花齐放的时代


多模态大模型作为AI领域的前沿技术,正在迅速发展并改变我们与智能系统交互的方式。2024年已成为多模态AI真正爆发的元年,各大厂商纷纷推出或更新自己的多模态大模型,如GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等,国内的腾讯混元视觉也在某些中文测评中表现出色。

从技术角度看,多模态大模型的核心挑战在于如何有效地实现跨模态对齐和融合,以及如何在有限的计算资源条件下处理大规模多模态数据。未来,随着计算能力的提升和算法的优化,多模态大模型将在更多领域展现出强大的应用潜力。

多模态能力是通往通用人工智能的重要路径。通过同时处理文本、图像、音频、视频等多种模态数据,这些模型能够提供更接近人类认知方式的交互体验。

对于开发者和研究者来说,掌握多模态大模型的基本原理和应用方法,将有助于开发更智能、更自然的人机交互系统,推动人工智能向着更通用、更全面的方向发展。


希望本文对您了解多模态大模型有所帮助!欢迎在评论区留言讨论,也欢迎关注本系列的后续内容。

创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324419.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker-MySQL安装-命令解读-常见命令-数据卷挂载-本地目录挂载-自定义镜像-网络-前端部署-DockerCompose

目录 Docker: 安装MySQL: 镜像容器: 镜像仓库: ​编辑命令解读: 镜像命名规范: docker run中常见参数: Docker常见命令: ​编辑数据卷: ​编辑数据卷-操作命令&…

Docker 安装部署Harbor 私有仓库

Docker 安装部署Harbor 私有仓库 系统环境:redhat x86_64 一、首先部署docker 环境 定制软件源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y yum-utils device-mapper-persistent-data lvm2…

StarRocks 存算分离在京东物流的落地实践

康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor 导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时&#xf…

英伟达GB300新宠:新型LPDDR5X SOCAMM内存

随着人工智能(AI)、机器学习(ML)和高性能计算(HPC)应用的快速发展,对于高效能、大容量且低延迟内存的需求日益增长。NVIDIA在其GB系列GPU中引入了不同的内存模块设计,以满足这些严格…

具身智能 - Diffusion Policy:技术解析与应用实践

具身智能之 Diffusion Policy:技术解析与应用实践 一、Diffusion Policy 的核心概念 Diffusion Policy 是一种基于扩散模型(Diffusion Models)的决策生成框架,专为具身智能(Embodied Intelligence)设计。其核心思想是通过逐步去噪的过程,在复杂环境中生成鲁棒的动作序列…

[C++] 智能指针 进阶

标题:[C] 智能指针 进阶 水墨不写bug 在很久之前我们探讨了智能指针的浅显认识,接下来会更加深入,从源码角度认识智能指针,从而了解智能指针的设计原理,并应用到以后的工作项目中。 本文将会按照C智能指针的发展历史&…

kubernetes》》k8s》》 kubeadm、kubectl、kubelet

kubeadm 、kubectl 、kubelet kubeadm、kubectl和kubelet是Kubernetes中不可或缺的三个组件。kubeadm负责集群的快速构建和初始化,为后续的容器部署和管理提供基础;kubectl作为命令行工具,提供了与Kubernetes集群交互的便捷方式;而…

C++中的new、malloc、realloc、calloc——特点?函数原型?释放方式?区别?校招面试常问内容?

作者:求一个demo 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 内容通俗易懂,没有废话,文章最后是面试常问内容(建议通过标题目录学习) 废话不多…

27_promise

插入一下前端助手测试&#xff0c;顺手可以用来做安全 promise promise 是一个es6新增的语法 汉语&#xff1a;承诺的意思 作用:是专门用来解决回调地狱!!!! 什么是回调函数&#xff1f; <script>// 回调函数 callback回调// 就是把函数A当作参数传递到函数B中// 在函…

leetcode刷题日记——跳跃游戏 II

[ 题目描述 ]&#xff1a; [ 思路 ]&#xff1a; 题目要求在一个一定能达到数组末尾的跳跃数组中(见55题 跳跃游戏)&#xff0c;找出能够跳到末尾的最小次数要求次数最少&#xff0c;那肯定是选取能选步数中最大的数。也就是在当前能够达到的距离中&#xff0c;选择能够达到的…

无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通-

无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通- 瑞士拥有1,400 多公里长的高速公路网络。这些公路将人和货物从山谷高原运送到阿尔卑斯山的最高山口。维护这些高速公路使国家得以顺利运转。高速公路维护的重要性显而易见&#xff0c;但在…

注意力蒸馏技术

文章目录 摘要abstract论文摘要简介方法预备知识注意力蒸馏损失注意力引导采样 实验结论总结参考文献 摘要 本周阅读了一篇25年二月份发表于CVPR 的论文《Attention Distillation: A Unified Approach to Visual Characteristics Transfer》,论文开发了Attention Distillation…

PERL开发环境搭建>>Windows,Linux,Mac OS

特点 简单 快速 perl解释器直接对源代码程序解释执行,是一个解释性的语言, 不需要编译器和链接器来运行代码>>速度快 灵活 借鉴了C/C, Basic, Pascal, awk, sed等多种语言, 定位于实用性语言,既具备了脚本语言的所有功能,也添加了高级语言功能 开源.免费 没有&qu…

鸿蒙项目源码-记账本app个人财物管理-原创!原创!原创!

鸿蒙记账项目源码个人财务管理含文档包运行成功ArkTS语言。 我一个月写的原创作品&#xff0c;请尊重原创。 原创作品&#xff0c;盗版必究&#xff01;&#xff01;&#xff01; api12 SDK5.0.0仅适用于最新的2024版本DevEco studio 共9个页面&#xff1a;广告倒计时页、登录、…

Ovito的python脚本

在 OVITO 里,Python 对象是构建脚本化操作的基础。下面为你详细介绍 OVITO 中 Python 对象的基本概念: 1. 数据管道(Pipeline) 数据管道是 OVITO 里最核心的对象之一。它就像一个流水线,把数据输入进来,经过一系列处理步骤,最后输出处理好的数据。 创建管道:借助 imp…

【免费】2007-2019年各省地方财政文化体育与传媒支出数据

2007-2019年各省地方财政文化体育与传媒支出数据 1、时间&#xff1a;2007-2019年 2、来源&#xff1a;国家统计局、统计年鉴 3、指标&#xff1a;行政区划代码、地区、年份、地方财政文化体育与传媒支出 4、范围&#xff1a;31省 5、指标说明&#xff1a;地方财政在文化、…

NOIP2007提高组.矩阵取数游戏

题目 492. 矩阵取数游戏 思路 不难发现, 每一行之间是独立的, 因此可以求出每一行的最大值, 然后行与行之间最大值相加, 就是总的最大值 对于行内来说, 每次可以选取左边或者右边, 可以使用区间 d p dp dp求解, 时间复杂度 O ( n 3 ) O(n ^ 3) O(n3), 因为列的最大值是 80 …

项目实战--权限列表

后端数据&#xff1a; 用表格实现权限列表 const dataSource [{key: 1,name: 胡彦斌,age: 32,address: 西湖区湖底公园1号,},{key: 2,name: 胡彦祖,age: 42,address: 西湖区湖底公园1号,}, ];const columns [{title: 姓名,dataIndex: name,key: name,},{title: 年龄,dataInd…

若依赖前端处理后端返回的错误状态码

【背景】 后端新增加了一个过滤器&#xff0c;用来处理前端请求中的session 若依赖存放过滤器的目录&#xff1a;RuoYi-Vue\ruoyi-framework\src\main\java\com\ruoyi\framework\security\filter\ 【问题】 后端返回了一个状态码为403的错误&#xff0c;现在前端需要处理这…

【计网】数据包

期末复习自用的&#xff0c;处理得比较草率&#xff0c;复习的同学或者想看基础的同学可以看看&#xff0c;大佬的话可以不用浪费时间在我的水文上了 1.数据包的定义&#xff1a; 数据包是网络通信中的基本单元&#xff0c;它包含了通过网络传输的所有必要信息。数据包的结构…