LLM - 理解 多模态大语言模型 (MLLM) 的发展与相关技术 (二)

news2024/12/27 1:44:38

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142063880

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


多模态大语言模型 (Multimodal Large Language Models, MLLM) 框架包括 3 个部分:预训练的模态编码器、预训练的 大语言模型(LLM)、连接模态的 接口(Interface),也可以添加可选的 生成器(Generator) 到 LLM,用于生成除了文本之外的其他模态。

  • 编码器接收图像、音频或视频,并且,输出特征,这些特征由连接器处理,以便LLM 能更好地理解。
  • 连接器大致有三种类型:基于投影(Projection-Based)、基于查询(Query-Based) 和 基于融合(Fusion-Based) 的连接器。前两种类型使用 Token 级别的融合,将特征处理成 Token,与文本 Token 一起发送,而最后一种类型,在 LLM 内部实现特征级别的融合。

即:
MLLM
MLLM 的 Foundation Model 是 LLM,Connector 将多模态的 Embedding 转换成 Text Like 的 Embedding。Q-Former,即 Query Former。

多模态编码器 (Modality Encoder)

使用 预训练(Pretrained) 的编码器,例如 CLIP,常用的模型比较,OpenCLIP、CLIP、EVA-CLIP,即
CLIP

相关论文:

  • CLIP - Learning Transferable Visual Models From Natural Language Supervision
  • OpenCLIP - Reproducible scaling laws for contrastive language-image learning
  • EVA-CLIP: Improved Training Techniques for CLIP at Scale
  • EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
  • CogAgent: A Visual Language Model for GUI Agents
  • CogVLM: Visual Expert for Pretrained Language Models
  • Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

提示视觉图像的分辨率,可以提升视觉编码器的效果,例如 CogAgent 使用 双编码器(Dual-Encoder) 机制,其中两个编码器分别处理高分辨率和低分辨率的图像。同时,分块(Patch-Division) 方法,将高分辨率图像切割成分块,并且,重用低分辨率编码器,也提升视觉编码器的效果,参考 Monkey。

CLIP:使用标准的图像模型,联合训练图像特征提取器,和线性分类器,来预测特定的标签,而且 CLIP 联合训练图像编码器和文本编码器,预测一批 (Batch) 图像和文本训练样本的正确配对。在测试时,学习到的文本编码器,通过嵌入目标数据集类别的名称或描述,合成零样本 (Zero-Shot) 线性分类器。对比 (Contrastive) 预训练,N 个样本一起训练,使用对角线标签进行训练。CLIP 的实验也表明,ViT 的效果要优于 ResNet。

即:
CLIP

HuggingFace 的 CLIP 地址:https://huggingface.co/docs/transformers/en/model_doc/clip

CLIP 评估最优的视觉预训练模型是 ViT,即:
CLIP

OpenCLIP:验证 Scaling Laws,研究使用完全开源的训练代码和数据的大型 CLIP 模型的扩展行为,研究中的所有模型都将提供,包括最大的公共 CLIP 模型。这个表格显示在224像素分辨率下的 零样本(Zero-Shot) 性能,展示在 ImageNet 上的准确度,35个 VTAB+ 数据集上的平均准确度,以及在 MS-COCO 图像检索上的 5 个召回率。数据集由 WIT-400M 扩大至 LAION-2B,数据量提升 5 倍,即:

OpenCLIP

EVA CLIP:也是验证 Scaling Laws,名称 Explore the limits of Visual representation at scAle using only publicly accessible data,使用仅可公开访问的数据,探索视觉表示在大规模的极限。

CogAgent 架构,即包括 2 个图像编码器,高分辨率(High-Resolution) 图像编码器是轻量化,低分辨率(Low-Resolution) 图像编码器,两个编码器进行 交叉注意力(Cross Attention) 实现信息交互,即:
Cross Attention

CogVLM 使用 视觉特征和文本特征 拼接(Concat) 的方式,在多模态模型中,将视觉理解放在更优先的位置,即:
在这里插入图片描述

Monkey: 通过从原始图像捕获全局特征,和从分割的小块中捕获局部特征,来实现高分辨率。所有小块都通过共享的静态 ViT 编码器进行处理,例如,具有 20 亿参数的 ViT-BigG,即:

Monkey

预训练的大语言模型 (Pre-trained LLM)

通过在网络语料库上的大量预训练,LLM 已经嵌入丰富的 世界知识 (World Knowledge),并且,展现出强大的泛化和推理能力。

常用的大语言模型,例如 T5、LLaMA、Vicuna、LLaMA-2、Qwen,目前还包括 LLaMA-3,Casual Decoder 生成能力比较强,Encoder-Decoder 总结能力比较强,即:

LLM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2120169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

idea 日志打印乱码

在这里插入图片描述 配置中改为一致

算法篇_RGB图像数据压缩与解压(单片机使用)

文章目录 一、前言二、算法选型2.1 Run-Length Encoding (RLE)2.2 Differential Pulse-Code Modulation (DPCM) 三、采用RLE算法实现图像压缩四、哈夫曼编码实现压缩和解压4.1 哈夫曼编码压缩自定义数据与还原4.2 哈夫曼编码压缩完成图像的压缩和还原 书接上回(上一…

Java重修笔记 第五十一天 泛型

泛型 1. 对加入集合的数据类型进行约束&#xff0c;提高了安全性 2. 不用做专门的数据类型转换&#xff0c;就可以直接使用从集合取出来的对象&#xff0c;效率高 在类定义中使用泛型 1. 在类名后面跟上 <泛型列表> 表示该类所使用的使用泛型&#xff0c;具体是什么…

nginx 使用篇 配置

一、介绍 1.介绍 Nginx是一个高性能的HTTP和反向代理服务器&#xff0c;同时也是一个邮件代理服务器&#xff0c;它以稳定性、丰富的功能集、简单的配置文件和低系统资源消耗而闻名。 作为一个轻量级的服务器&#xff0c;Nginx在处理高并发连接方面表现出色&#xff0c;能够支…

怎么修复松下相机死机视频只有0字节(0KB)的MDT文件【实测可修复】

死机后视频文件大小仅为0字节 松下S5相机录像死机&#xff0c;关机重新开机后有一个视频文件变成MDT&#xff0c;大小为0KB&#xff0c;录了30多分钟&#xff0c;本应为MOV格式的视频。0字节文件可以修复吗&#xff1f;怎么修复0字节的MDT文件为视频&#xff1f; 数据提取与视…

认知杂谈55

今天分享 有人说的一段争议性的话 I I I I 内容摘要 这篇内容主要有以下要点&#xff1a;首先&#xff0c;人际交往有难度&#xff0c;要让大家都喜欢很难&#xff0c;需学习沟通技巧&#xff0c;可通过看书、关注抖音博主、参加培训班及看罗翔视频片段来提升。其次&#xf…

【C++11 ——— 类的新功能】

C11 ——— 类的新功能 类的新功能默认成员函数类成员变量初始化强制生成默认函数的关键字default禁止生成默认函数的关键字delete 类的新功能 默认成员函数 原来C类中&#xff0c;有6个默认成员函数&#xff1a; 构造函数析构函数拷贝构造函数拷贝赋值重载取地址重载const …

代码随想录刷题day27丨455.分发饼干 ,376. 摆动序列 ,53. 最大子序和

代码随想录刷题day27丨455.分发饼干 ,376. 摆动序列 ,53. 最大子序和 1.贪心算法理论基础 贪心的本质是选择每一阶段的局部最优&#xff0c;从而达到全局最优。 这么说有点抽象&#xff0c;来举一个例子&#xff1a; 例如&#xff0c;有一堆钞票&#xff0c;你可以拿走十张&a…

论文《Graph Neural Networks with convolutional ARMA filters》笔记

【ARMA 2021 PAMI】本文介绍了一种新型的基于**自回归移动平均&#xff08;Auto-Regression Moving Average&#xff0c;ARMA&#xff09;**滤波器的图卷积层。与多项式滤波器相比&#xff0c;ARMA滤波器提供了更灵活的频率响应&#xff0c;对噪声更鲁棒&#xff0c;能更好地捕…

【每日一题】LeetCode 104.二叉树的最大深度(树、深度优先搜索、广度优先搜索、二叉树)

【每日一题】LeetCode 104.二叉树的最大深度&#xff08;树、深度优先搜索、广度优先搜索、二叉树&#xff09; 题目描述 给定一个二叉树 root&#xff0c;我们需要计算并返回该二叉树的最大深度。二叉树的最大深度是指从根节点到最远叶子节点的最长路径上的节点数。 思路分…

Uni-app 开发鸿蒙 App 全攻略

一、开发前的准备工作 开发鸿蒙 App 之前&#xff0c;我们需要做好充分的准备工作。首先是工具的安装与配置。 Node.js 的安装&#xff1a;推荐使用 LTS 版本的 Node.js。可以前往 Node.js 的官方网站下载适合自己操作系统的安装包&#xff0c;如 Windows 用户根据自己的系统版…

OpenHarmony鸿蒙开发( Beta5.0)智能风扇设备开发实践

样例简介 智能风扇设备不仅可以接收数字管家应用下发的指令来控制风扇开启的时间&#xff0c;调节风扇挡位&#xff0c;更改风扇定时时间&#xff0c;而且还可以加入到数字管家的日程管理中。通过日程可以设定风扇相关的任务&#xff0c;使其在特定的时间段内&#xff0c;风扇…

【MySQL】MySQL表的操作

目录 创建表的语法创建表的示例查看表的结构进入数据库查看自己在哪个数据库查看自己所在数据库都有哪些表查看表的详细信息查看创建表时的详细信息 修改表修改表名修改表的内容插入几个数据增加一列修改一列的所有属性删除某一列修改列的名称 删除表 创建表的语法 CREATE TAB…

DFS算法专题(二)——穷举vs暴搜vs深搜vs回溯vs剪枝【OF】决策树

目录 1、决策树 2、算法实战应用【leetcode】 2.1 题一&#xff1a;全排列 2.2.1 算法原理 2.2.2 算法代码 2.2 题二&#xff1a;子集 2.2.1 算法原理【策略一】 2.2.2 算法代码【策略一】 2.2.3 算法原理【策略二&#xff0c;推荐】 2.2.4 算法代码【策略二&#x…

图像去噪技术:传统中值滤波与改进中值滤波算法的比较

在数字图像处理中&#xff0c;去噪是一个至关重要的步骤&#xff0c;尤其是在图像受到椒盐噪声影响时。本文将介绍一种改进的中值滤波算法&#xff0c;并与传统的中值滤波算法进行比较&#xff0c;以展示其在去除椒盐噪声方面的有效性。 实验环境 软件&#xff1a;MATLAB图像…

Centos如何配置阿里云的yum仓库作为yum源?

背景 Centos在国内访问官方yum源慢&#xff0c;可以用国内的yum源&#xff0c;本文以阿里云yum源为例说明。 快速命令 sudo mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak sudo wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.a…

宏观学习笔记:GDP分析(二)

GDP分析&#xff08;一&#xff09;主要是介绍GDP相关的定义以及核算逻辑&#xff0c;本节主要介绍GDP的分析思路。GDP分析主要是2种方法&#xff1a;总量分析和结构分析。 1. 总量分析 1.1 数值选择 一般情况下&#xff0c;分析的对象都是 官方公布的GDP当季值。 1.2 趋势规…

利用发电量和气象数据分析来判断光伏仿真系统的准确性

随着光伏产业的迅速发展&#xff0c;光伏仿真系统通过集成气象数据分析、发电量分析、投融资分析及损耗估算等功能&#xff0c;为光伏项目的全生命周期管理提供了科学依据。 光伏仿真系统集成了气象数据分析、发电量预测、投融资分析、损耗估算及光伏设计等功能。其中&#xf…

qmt量化交易策略小白学习笔记第60期【qmt编程之期权数据--基于BS模型计算欧式期权隐含波动率--内置Python】

qmt编程之获取期权数据 qmt更加详细的教程方法&#xff0c;会持续慢慢梳理。 也可找寻博主的历史文章&#xff0c;搜索关键词查看解决方案 &#xff01; 基于BS模型计算欧式期权隐含波动率 基于Black-Scholes-Merton模型,输入期权标的价格、期权行权价、期权现价、无风险利…

【880高数】高等数学一刷错题整理

第一章 函数、极限、连续 2024.8.11日 1. 2. 3. 4. 5. 2024.8.12日 1. 2. 3. 4. 5. 6. 7. 8. 2024.8.13日 1. 2. 3. 4. 2024.8.14日 1. 2. 3. 4. 5. 第二章 一元函数微分学及其应用 2024.8.15日 1. 2. 3. 4. 5. 6. 2024.8.16日 1. 2. 3. 4. 5. 2024.8.17日 1. 2. 3. 4…