LLM - 理解 多模态大语言模型 (MLLM) 的架构与相关技术 (二)

news2025/1/16 18:45:58

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142063880

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


多模态大语言模型 (Multimodal Large Language Models, MLLM) 框架包括 3 个部分:预训练的模态编码器、预训练的 大语言模型(LLM)、连接模态的 接口(Interface),也可以添加可选的 生成器(Generator) 到 LLM,用于生成除了文本之外的其他模态。

  • 编码器接收图像、音频或视频,并且,输出特征,这些特征由连接器处理,以便LLM 能更好地理解。
  • 连接器大致有三种类型:基于投影(Projection-Based)、基于查询(Query-Based) 和 基于融合(Fusion-Based) 的连接器。前两种类型使用 Token 级别的融合,将特征处理成 Token,与文本 Token 一起发送,而最后一种类型,在 LLM 内部实现特征级别的融合。

即:
MLLM
MLLM 的 Foundation Model 是 LLM,Connector 将多模态的 Embedding 转换成 Text Like 的 Embedding。Q-Former,即 Query Former。

1. 多模态编码器 (Modality Encoder)

使用 预训练(Pretrained) 的编码器,例如 CLIP,常用的模型比较,OpenCLIP、CLIP、EVA-CLIP,即
CLIP

相关论文:

  • CLIP - Learning Transferable Visual Models From Natural Language Supervision
  • OpenCLIP - Reproducible scaling laws for contrastive language-image learning
  • EVA-CLIP: Improved Training Techniques for CLIP at Scale
  • EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
  • CogAgent: A Visual Language Model for GUI Agents
  • CogVLM: Visual Expert for Pretrained Language Models
  • Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

提示视觉图像的分辨率,可以提升视觉编码器的效果,例如 CogAgent 使用 双编码器(Dual-Encoder) 机制,其中两个编码器分别处理高分辨率和低分辨率的图像。同时,分块(Patch-Division) 方法,将高分辨率图像切割成分块,并且,重用低分辨率编码器,也提升视觉编码器的效果,参考 Monkey。

CLIP:使用标准的图像模型,联合训练图像特征提取器,和线性分类器,来预测特定的标签,而且 CLIP 联合训练图像编码器和文本编码器,预测一批 (Batch) 图像和文本训练样本的正确配对。在测试时,学习到的文本编码器,通过嵌入目标数据集类别的名称或描述,合成零样本 (Zero-Shot) 线性分类器。对比 (Contrastive) 预训练,N 个样本一起训练,使用对角线标签进行训练。CLIP 的实验也表明,ViT 的效果要优于 ResNet。

即:
CLIP

HuggingFace 的 CLIP 地址:https://huggingface.co/docs/transformers/en/model_doc/clip

CLIP 评估最优的视觉预训练模型是 ViT,即:
CLIP

OpenCLIP:验证 Scaling Laws,研究使用完全开源的训练代码和数据的大型 CLIP 模型的扩展行为,研究中的所有模型都将提供,包括最大的公共 CLIP 模型。这个表格显示在224像素分辨率下的 零样本(Zero-Shot) 性能,展示在 ImageNet 上的准确度,35个 VTAB+ 数据集上的平均准确度,以及在 MS-COCO 图像检索上的 5 个召回率。数据集由 WIT-400M 扩大至 LAION-2B,数据量提升 5 倍,即:

OpenCLIP

EVA CLIP:也是验证 Scaling Laws,名称 Explore the limits of Visual representation at scAle using only publicly accessible data,使用仅可公开访问的数据,探索视觉表示在大规模的极限。

CogAgent 架构,即包括 2 个图像编码器,高分辨率(High-Resolution) 图像编码器是轻量化,低分辨率(Low-Resolution) 图像编码器,两个编码器进行 交叉注意力(Cross Attention) 实现信息交互,即:
Cross Attention

CogVLM 使用 视觉特征和文本特征 拼接(Concat) 的方式,在多模态模型中,将视觉理解放在更优先的位置,即:
在这里插入图片描述

Monkey: 通过从原始图像捕获全局特征,和从分割的小块中捕获局部特征,来实现高分辨率。所有小块都通过共享的静态 ViT 编码器进行处理,例如,具有 20 亿参数的 ViT-BigG,即:

Monkey

2. 预训练的大语言模型 (Pre-trained LLM)

通过在网络语料库上的大量预训练,LLM 已经嵌入丰富的 世界知识 (World Knowledge),并且,展现出强大的泛化和推理能力。

常用的大语言模型,例如 T5、LLaMA、Vicuna、LLaMA-2、Qwen,目前还包括 LLaMA-3,Casual Decoder 生成能力比较强,Encoder-Decoder 总结能力比较强,即:

LLM
中文大模型,推荐 Qwen 系列,较好的支持中文。

相关论文:

  • BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, 2022-2-15
  • BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, 2023-6-30
  • An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models, 2023-9-18

BLIP-2: 通过两阶段策略,预训练轻量级的 查询转换器(Querying Transformer, Q-Former),以弥补模态之间的差距。

  • 第一阶段,从冻结的图像编码器中,引导视觉-语言表示学习。
  • 第二阶段,从冻结的 大语言模型(LLM) 中,引导视觉到语言的生成学习,这使得可以实现零样本指导的图像到文本生成。

即:

BLIP2

BLIP-2 中的 Q-Former 模态桥接方式: Q-Former 和 BLIP-2 的第一阶段,视觉-语言表示学习目标的模型架构。共同优化 3 个目标,这些目标,强制 查询特征 (即可学习的嵌入),提取与文本最相关的视觉表示。每个目标的自注意力 Mask 策略,以控制查询-文本交互。

  • Image-Text Matching (ITM),图像文本匹配,双向自注意力 Mask (Bi-directional Self-Attention Mask)
  • Image-Text Contrastive Learning (ITC),图像文本对比学习,Uni-model Self-Attention Mask (单模态自注意 Mask)
  • Image-grounded Text Generation (ITG),图像定位文本生成,Multi-model Causal Self-Attention Mask (多模态因果自注意 Mask)

即:

BLIP2

BLIP-2第二阶段,视觉到语言的生成预训练,该阶段从冻结的 大语言模型(LLM) 中引导启动。 全连接层从 Q-Former 的输出维度,适应到所选 LLM 的输入维度。

  • 引导启动基于解码器的 LLM,例如 GPT 系列。
  • 引导启动基于编码器-解码器的 LLM,例如 FlanT5。

即:

BLIP2

Scaling Law for Instruct-Tuned: 多模态任务微调,对于一些语言任务也有提升,参考 LLaMA-2-70B 与 LLaVA-70B,即:

Scaling Law

3. 模态接口 (Modality Interface)

模态接口主要包括 Token 层面的融合 (Token-Level Fusion) 和 特征层面的融合 (Feature-Level Fusion):

  • Token 层面的融合,参考 LLaVA 的 MLP 层连接,
  • Feature 层面的融合,参考 BLIP2 的 Q-Former,可学习的参数。

以 Qwen-VL 的参数量为例,Interface 是 1% (0.08B),模态 Encoder 是 19.8% (1.9B),LLM 是 80.2% (7.7B),合计 9.7 B。

以 CogVLM2 的参数量 (19B) 为例,模态 Encoder 是 EVA-CLIP-E 5B,LLM 是 LLaMA3 8B,Interface (MLP Adapter) 是 6B。

再就是 专家模型 (Expert Model),例如 通过 Image Caption 模型,提取图像信息,再直接传给 LLM,好处是不需要任何训练,效果比多模态训练的效果要差一些。如果模型处理视频而不是图像,还需要考虑 时空(Spatial-Temporal) 信息。

参考 Paper:

  • CogVLM2: Visual Language Models for Image and Video Understanding,2024-8-29
  • Img2LLM: From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models,2023-5-8
  • VideoChat: Chat-Centric Video Understanding,2024-6-4

CogVLM2: 模型接收高分辨率图像,或从给定视频中提取的帧,使用预训练的 ViT 编码器,和适配器嵌入视觉信息,嵌入的视觉特征,被发送到视觉语言解码器,CogVLM2-Video 能够回答与图像和视频相关的查询。即:

CogVLM2

不同参数量的 CogVLM2 模型,如下:

CogVLM2

Img2LLM: 使 大语言模型(LLM) 能够执行,视觉问答(VQA) 任务的方法,说明性比较,其中蓝色块表示内部参数被冻结,而粉色块表示内部参数是可训练的。

  • Multi-modal Pretraining,多模态预训练
  • In-context Few-shot Learning,上下文少样本学习
  • Img2LLM: 输出 Caption Prompt 与 Exemplar Prompt (范例提示),再由 LLM 做出回答。

即:
Img2LLM

Img2LLM 网络架构:Img2LLM 属于 即插即用(plug-and-play) 模块,使得现成的 大语言模型(LLM) 能够执行 零样本视觉问答(Zero-Shot VQA),可以利用 视觉-语言模型(例如 BLIP) 和 问题生成模型,将图像内容转换成 合成问题-答案(QA) 对,这些 QA 对作为提示的一部分输入给 LLM。这些示例 QA对通过口头描述图像内容,解决 模态断连(Modality Disconnect) 问题。即:

VideoChat

VideoChat:VideoChat-Text 将视频流中的内容 文本化(Textualizes),VideoChat-Embed 将视频编码为嵌入向量。这两种视频内容都可以作为输入,提供给 大语言模型(LLM),以实现多模态理解。即:

VideoChat

VideoChat-Embed 架构和训练范式,建立在 BLIP-2 和 StableVicuna 之上,训练包括两阶段对齐和指令调整。即:

VideoChat

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2121336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CDGA|推动数据治理与传统产业深度融合:策略与实践路径

在数字化浪潮席卷全球的今天,数据已成为推动经济社会发展的关键生产要素。传统产业,作为国民经济的基石,正面临着前所未有的转型挑战与机遇。如何让数据治理这一现代管理理念与实践方法深度融入传统产业,促进其转型升级与高质量发…

K均值聚类

根据到给点样本的距离,来聚类。 1.曼哈顿距离、 2.欧几里得距离 直线距离 3.切比雪夫距离 4.闵氏距离 5.余弦相似度 对数据大小/长度等不关注,只关注相似度。 6.汉明距离 二进制距离 二、密度聚类 DBSCAN 前提是样本是根据紧密程度分布的。 先用超参…

Go语言概述

1.Go语言的特点 1)从语言层面支持并发,实现简单 2)goroutine,轻量级线程,可实现大并发处理,高效利用多核 3)垃圾回收机制,内存自动回收,不需要开发人员管理 4&#xff0…

【网络】DNS协议、ICMP协议

DNS协议与ICMP协议 文章目录 1.DNS协议1.1DNS背景1.2域名简介1.3域名解析过程(了解)1.4使用dig工具分析DNS过程 2.ICMP协议2.1ICMP的功能2.2ping命令2.3traceroute命令 1.DNS协议 DNS(Domain Name System,域名系统)协…

idear获取git项目

最近想下载个ruoyi项目来包装简历,结果打开idear总是上一个项目,找不到get for vcs只好自己捣鼓了,顺便记录留着下次用。 步骤: 1. 2. 3.输入我们想访问的地址 eg: 点击克隆,我们就能获取项目到本地了。

C语言 | Leetcode C语言题解之第396题旋转函数

题目&#xff1a; 题解&#xff1a; #define MAX(a, b) ((a) > (b) ? (a) : (b))int maxRotateFunction(int* nums, int numsSize){int f 0, numSum 0;for (int i 0; i < numsSize; i) {f i * nums[i];numSum nums[i];}int res f;for (int i numsSize - 1; i &g…

教师节重磅福利!《动手学强化学习》作者亲自带你学强化学习

作为大模型的核心技术之一&#xff0c;强化学习越来越受到人们的重视。强化学习&#xff08;Reinforcement Learning, RL&#xff09;是机器学习的一个领域&#xff0c;主要研究智能主体&#xff08;agent&#xff09;在环境中应该怎样采取行动以最大化所获得的累积奖励。目前强…

【视频教程】GEE遥感云大数据在林业中的应用与典型案例实践

近年来遥感技术得到了突飞猛进的发展&#xff0c;航天、航空、临近空间等多遥感平台不断增加&#xff0c;数据的空间、时间、光谱分辨率不断提高&#xff0c;数据量猛增&#xff0c;遥感数据已经越来越具有大数据特征。遥感大数据的出现为相关研究提供了前所未有的机遇&#xf…

运动耳机精选分享,热门骨传导耳机运动好物推荐!

因为骨传导耳机独特的佩戴方式和声音的传播方式&#xff0c;受到了小耳、油耳以及运动爱好者的的喜爱&#xff0c;但也由于市面上的骨传导耳机品牌越来越多&#xff0c;很多朋友不知道该怎么选择&#xff0c;今天我挑选出市面上体验感较好&#xff0c;各方面比较出色的骨传导给…

M,儿母,阿母

英文字母M&#xff0c;音义通汉语&#xff1a;儿母。近单音“母”、“木”。 母&#xff0c;阴阳五行之阴阳之阴的典型代表&#xff0c;代表生化能力或生化之道&#xff0c;为成就者&#xff0c;象征生命缘起&#xff0c;代表生化之源。母&#xff0c;阴性&#xff0c;雌性&am…

COCOS:(飞机大战03)绑定触摸方法,控制主角的移动和移动边界的限制

飞机大战知识点总结 1.创建Player.ts文件&#xff0c;把该文件添加到Player组件上 2.编写Player.ts import { _decorator, Component, EventTouch, Input, input, Node, Vec3 } from cc; const { ccclass, property } _decorator; ccclass(Player) export class Player exte…

2024年性价比蓝牙耳机怎么选?四款爆买百元耳机品牌推荐!

在科技日新月异的今天&#xff0c;越来越多的消费者选择无线蓝牙耳机&#xff0c;以摆脱有线耳机的束缚&#xff0c;享受更加自由的智能耳机使用体验。面对市场上众多的耳机品牌&#xff0c;究竟2024年性价比蓝牙耳机怎么选&#xff1f;&#xff0c;为了帮助大家选购合适的蓝牙…

【基础算法总结】二分查找

目录 一&#xff0c;二分查找算法介绍二&#xff0c;算法原理和代码实现704.二分查找34.在排序数组中查找元素的第一个和最后一个位置69.x的平方根35.搜索插入位置852.山脉数组的峰顶索引162.寻找峰值153.寻找旋转排序数组中的最小值LCR173.点名 三&#xff0c;算法总结 一&…

高性能反向代理--HAProxy

文章目录 Web架构负载均衡介绍为什么使用负载均衡负载均衡类型 HAProxy简介应用场景HAProxy是什么HAProxy功能 脚本安装HAProxy基础配置global多进程和线程HAProxy日志配置项 Proxies配置-listen-frontend-backendserver配置 frontendbackend配置实例子配置文件 HAProxy调度算法…

html+css网页设计 旅游 蜘蛛旅行社5个页面

htmlcss网页设计 旅游 蜘蛛旅行社5个页面 网页作品代码简单&#xff0c;可使用任意HTML辑软件&#xff08;如&#xff1a;Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作&#xff09;。 获取源码 1&#…

MemFire Cloud为何短短几年变成这样?

在软件开发的世界里&#xff0c;总有一些工具能够迅速崛起&#xff0c;成为开发者们心中的宠儿。MemFire Cloud&#xff0c;就是这样一个在短短几年内迅速崭露头角的存在。它不仅改变了开发者的工作方式&#xff0c;更成为了独立开发者的得力助手。今天&#xff0c;我们就来聊聊…

FALCON:打破界限,粗粒度标签的无监督细粒度类别推断,已开源| ICML‘24

在许多实际应用中&#xff0c;相对于反映类别之间微妙差异的细粒度标签&#xff0c;我们更容易获取粗粒度标签。然而&#xff0c;现有方法无法利用粗标签以无监督的方式推断细粒度标签。为了填补这个空白&#xff0c;论文提出了FALCON&#xff0c;一种从粗粒度标记数据中无需细…

CentOS7虚拟机下安装及使用Docker

文章目录 一&#xff0c;准备工作二、安装Docker三、启动Docker四、验证Docker五、使用Docker六&#xff0c;卸载Docker 有一个Centos7的虚拟机&#xff0c;想要安装个docker测试一些docker用法和熟悉命令 一&#xff0c;准备工作 1&#xff0c;使用uname -r命令检查系统内核…

价值流架构指南:构建业务创新与竞争优势的全面方法论

如何通过价值流引领企业数字化转型&#xff1f; 在当前数字化转型的背景下&#xff0c;企业面临的挑战日益复杂化&#xff1a;如何更快响应市场变化&#xff1f;如何优化资源配置提升效率&#xff1f;如何确保客户体验始终处于行业领先&#xff1f;《价值流指南》由The Open G…

Java实现简易计算器功能(idea)

目的&#xff1a;写一个计算器&#xff0c;要求实现加减乘除功能&#xff0c;并且能够循环接收新的数据&#xff0c;通过用户交互实现。 思路&#xff1a; &#xff08;1&#xff09;写4个方法&#xff1a;加减乘除 &#xff08;2&#xff09;利用循环switch进行用户交互 &…