MLM：多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略

AI之MLM：《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读

MLM之CLIP：CLIP(对比语言-图像预训练模型)的简介、安装和使用方法、案例应用之详细攻略

多模态大型语言模型的简介

1、视觉语言模型（VLMs）

架构：三大组件包括图像编码器、文本编码器、融合策略

对比学习：一种通过计算实例间的相似度分数来理解数据差异的技术，适用于半监督学习场景

典型的应用场景

2、音频或语音大型语言模型

音频数据的标记化和预处理

微调技术

多模态大型语言模型的微调

T1、参数高效微调PEFT

T2、全参数微调

多模态大型语言模型的代表性模型

Gemini

MMLM之Gemini：《Introducing Gemini: our largest and most capable AI model》的翻译与解读

MLM之Gemini：Gemini Pro 1.5的简介、安装和使用方法、案例应用之详细攻略

GPT-4

MLM之GPT-4o：GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT：GPT-4o mini(最具成本效益的GPT-4o)的简介、安装和使用方法、案例应用之详细攻略

InternVL

MLM之InternVL：InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略

Llama-3

MLM之CogVLM2：CogVLM2(基于Llama-3-8B-Instruct 模型进行微调)的简介、安装和使用方法、案例应用之详细攻略

GLM-4

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

Claude 3

MLMs之Claude：Claude 3.5 Sonnet的简介、安装和使用方法、案例应用之详细攻略

CogVideo

MLM之CogVideo：CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略

Qwen2

MLM之Qwen：Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略

多模态模型的应用场景

(1)、手势识别：解读和识别人类手势，促进手语翻译。

(2)、视频摘要：通过提取关键视觉和音频元素，生成视频摘要。

(3)、教育工具：提供互动式教育内容，响应学生的视觉和语言提示。

(4)、虚拟助手：通过理解语音命令和处理视觉数据，实现智能家居自动化和数字助手服务。

多模态大型语言模型的案例应用

1、医学领域的案例研究：Med VQA

实战应用

AI之LLM/MLM：Nvidia官网人工智能大模型工具合集(大语言模型/多模态模型，文本生成/图像生成/视频生成)的简介、使用方法、案例应用之详细攻略

AI之MLM：《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读

AI之MLM：《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读-CSDN博客

MLM之CLIP：CLIP(对比语言-图像预训练模型)的简介、安装和使用方法、案例应用之详细攻略

MLM之CLIP：CLIP(对比语言-图像预训练模型)的简介、安装和使用方法、案例应用之详细攻略_this graphics driver could not find compatible gra-CSDN博客

多模态大型语言模型的简介

多模态模型是能够处理多种模态信息（如图像、视频和文本）的机器学习模型。它们能够分析和生成不同模态的数据。例如，Google 的多模态模型 Gemini 可以通过分析图片生成文字描述或根据文字生成图像。

多模态模型是一种能够处理来自多种模态（如图像、视频和文本等）信息的机器学习模型。多模态大型语言模型（LLM）在生成式人工智能的基础上，扩展了处理多种模态信息的能力。这使得模型能够理解和解释不同的感官模式，允许用户输入各种类型的数据，并返回多样化的内容类型。

多模态LLMs在处理不同类型的输入数据和生成多样化的输出内容方面展示了巨大的潜力。这种能力不仅推动了人工智能技术的发展，也为各个行业的应用提供了新的机会和可能性。通过不断改进的模型架构和优化策略，多模态模型正在成为多种应用场景中的关键工具。

多模态 AI 与生成式 AI 的区别：生成式 AI 通常从单一模态（如文本、图像）生成新内容（如文本、图像、音乐、音频和视频等），而多模态 AI 能够从多种模态（如图像、视频、文本）中处理和生成信息，实现跨感官模式的理解和交互。，这使得AI能够理解和解释不同的感官模式，允许用户输入各种类型的数据，并返回多样化的内容类型。

1、视觉语言模型（VLMs）

视觉语言模型（Vision Language Models，VLMs）是多模态模型的一种，能够从图像和文本输入中学习。它们属于生成模型的范畴，利用图像和文本数据生成文本输出。这些模型，尤其是在更大规模下，展示了强大的零样本能力，能够在各种任务中表现出色，并能够有效处理各种类型的视觉数据，如文档和网页。

架构：三大组件包括图像编码器、文本编码器、融合策略

视觉语言模型有效整合了视觉和文本信息，主要依赖于以下三个基本组件：
>> 图像编码器（Image Encoder）：将视觉数据（图像）转换为模型可以处理的格式。
>> 文本编码器（Text Encoder）：类似于图像编码器，将文本数据（单词和句子）转换为模型可以理解的格式。
>> 融合策略（Fusion Strategy）：将图像和文本编码器的信息结合起来，融合成统一的表示。

这些组件协同工作，模型的学习过程（损失函数）特别针对所采用的架构和学习策略进行优化。

视觉语言模型的一个关键方面是预训练。在应用于特定任务之前，模型在大量数据集上使用精心挑选的目标进行训练。这种预训练使得模型具备了在各种下游应用中表现出色的基础知识。

对比学习：一种通过计算实例间的相似度分数来理解数据差异的技术，适用于半监督学习场景

对比学习是一种专注于理解数据点之间差异的技术。它计算实例之间的相似度分数，并旨在最小化对比损失，这在半监督学习中特别有用，因为它利用有限数量的标记样本来优化过程，以对未见的数据点进行分类。

工作原理：例如，为了识别一只猫，对比学习将一只猫的图像与另一只猫的相似图像以及一只狗的图像进行比较。模型通过识别面部结构、身体大小和毛发等特征来区分猫和狗。通过确定哪幅图像更接近“猫”图像，模型预测其类别。

典型的应用场景

涉及图像的对话互动

基于文本指令的图像解释

回答与视觉内容相关的问题

理解文档

为图像生成标题等

高级的视觉语言模型还能够理解图像中的空间属性，可以根据请求生成边界框或分割掩码以识别或隔离特定主题，定位图像中的实体，或回答关于其相对或绝对位置的查询。

2、音频或语音大型语言模型

音频或语音 LLMs 是基于音频输入理解和生成人类语言的模型，主要用于语音识别、文本转语音（TTS）转换和自然语言理解任务。

音频或语音大型语言模型（LLMs）旨在基于音频输入理解和生成人类语言。这些模型应用于语音识别、文本转语音转换和自然语言理解任务。它们通常在大型数据集上进行预训练以学习通用的语言模式，然后在特定任务或领域上进行微调以提高性能。

音频和语音大型语言模型代表了语言处理与音频信号集成的重大进展。这些模型通过定制的音频标记的引入，增强了处理多模态数据的能力。与文本不同，音频信号是连续的，需要离散化为可管理的音频标记。诸如HuBERT和wav2vec等技术用于将音频转换为标记格式，使LLM能够与文本一起处理。

音频数据的标记化和预处理

将音频信号离散化为可管理的音频标记，常用技术包括 HuBERT 和 wav2vec。

微调技术

全参数微调：更新模型的所有参数。

层特定微调：仅更新模型的特定层或模块，减少计算需求。

组件微调：冻结某些部分，仅微调线性投影器或特定适配器。

多模态大型语言模型的微调

微调多模态大语言模型通常使用高效参数微调（PEFT）技术，如 LoRA、QLoRA 等。与单模态 LLM 的微调类似，主要差异在于输入数据的性质。

T1、参数高效微调PEFT

多模态大型语言模型（MLLMs）的微调可以使用PEFT技术（如LoRA和QLoRA）。多模态应用的微调过程类似于大型语言模型的微调，主要区别在于输入数据的性质。除了LoRA（使用矩阵分解技术来减少参数数量）外，其他工具如LLM-Adapters和(IA)³也可以有效地使用。LLM-Adapters通过在预训练模型架构中集成各种适配器模块，实现参数高效的微调，通过仅更新适配器参数而保持基模型参数不变。(IA)³通过抑制和放大内部激活的注入适配器，学习权重向量来权衡模型参数，通过激活乘法，支持稳健的少样本性能和任务混合，无需手动调整。

此外，动态适应技术如DyLoRA允许在不同的秩之间训练低秩适应块，通过在训练期间排序表示优化学习过程。LoRA-FA（LoRA的变体）通过在初始化后冻结第一个低秩矩阵并将其用作随机投影，同时训练另一个矩阵，从而优化微调过程，减少了一半的参数数量而不牺牲性能。

>> LoRA 和 QLoRA：利用矩阵分解技术减少参数数量。

>> LLM-Adapters：通过集成适配器模块，进行参数高效的微调。

>> (IA)³：通过学习向量来调整模型参数的激活乘积，支持强大的少样本性能和任务混合。

>> 动态适应技术（DyLoRA）：允许不同秩的低秩适应块的训练，优化学习过程。

T2、全参数微调

方法如LOMO和MeZO专注于内存效率。LOMO利用来自随机梯度下降（SGD）的低内存优化技术，减少了通常与ADAM优化器相关的内存消耗。而MeZO提供了一种内存高效的优化器，只需要两个前向传递来计算梯度，使得大模型的全面微调成为可能，其内存占用相当于推理时的内存消耗。

多模态大型语言模型的代表性模型

持续更新中……

Gemini

MMLM之Gemini：《Introducing Gemini: our largest and most capable AI model》的翻译与解读

MMLM之Gemini：《Introducing Gemini: our largest and most capable AI model》的翻译与解读-CSDN博客

MLM之Gemini：Gemini Pro 1.5的简介、安装和使用方法、案例应用之详细攻略

MLM之Gemini：Gemini Pro 1.5的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

GPT-4

MLM之GPT-4o：GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT-4o：GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略_gpt4o 窗口长度-CSDN博客

MLM之GPT：GPT-4o mini(最具成本效益的GPT-4o)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT：GPT-4o mini(最具成本效益的GPT-4o)的简介、安装和使用方法、案例应用之详细攻略_gpt-4o-mini(version:2024-07-18)-CSDN博客

InternVL

MLM之InternVL：InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略

MLM之InternVL：InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略_internvl模型-CSDN博客

Llama-3

MLM之CogVLM2：CogVLM2(基于Llama-3-8B-Instruct 模型进行微调)的简介、安装和使用方法、案例应用之详细攻略

MLM之CogVLM2：CogVLM2(基于Llama-3-8B-Instruct 模型进行微调)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

GLM-4

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Claude 3

MLMs之Claude：Claude 3.5 Sonnet的简介、安装和使用方法、案例应用之详细攻略

MLMs之Claude：Claude 3.5 Sonnet的简介、安装和使用方法、案例应用之详细攻略_claude3.5-CSDN博客

CogVideo

MLM之CogVideo：CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略

MLM之CogVideo：CogVideo(国产版Sora)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Qwen2

MLM之Qwen：Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略

MLM之Qwen：Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

多模态模型的应用场景

(1)、手势识别：解读和识别人类手势，促进手语翻译。

>> 手势识别：这些模型可以解释和识别人类手势，对于手语翻译至关重要。多模态模型通过处理手势并将其转换为文本或语音，促进了包容性沟通。

(2)、视频摘要：通过提取关键视觉和音频元素，生成视频摘要。

>> 视频摘要：多模态模型能够通过提取关键的视觉和音频元素来总结长视频。这种能力简化了内容消费，使内容浏览更加高效，并增强了视频内容管理平台。

>> 生成图像：例如DALL-E，是一种从文本描述生成图像的多模态AI。这项技术扩展了内容创作和视觉叙事的创造性可能性，应用于艺术、设计、广告等领域。

(3)、教育工具：提供互动式教育内容，响应学生的视觉和语言提示。

>> 教育工具：多模态模型通过提供响应学生视觉和口头提示的互动教育内容来增强学习体验。它们是自适应学习平台的关键，能够根据学生的表现和反馈调整内容和难度。

(4)、虚拟助手：通过理解语音命令和处理视觉数据，实现智能家居自动化和数字助手服务。

>> 虚拟助手：多模态模型通过理解和响应语音命令，同时处理视觉数据，实现了全面的用户交互。它们对于智能家居自动化、语音控制设备和数字个人助理至关重要。

多模态大型语言模型的案例应用

1、医学领域的案例研究：Med VQA

多模态模型在医学领域的视觉问答（VQA）任务中也有应用。通过PEFT微调技术，这些模型在Med-VQA应用中显示了优异的性能，整体准确率为81.9%，在封闭式问题上超越了GPT-4v模型26%的绝对准确率。模型包括三个组件：视觉编码器、处理多模态输入和生成响应的预训练大型语言模型（LLM）、以及用于将视觉编码空间的嵌入投影到LLM空间的单线性层。

研究展示了在视觉问答（VQA）任务上微调多模态大语言模型（MLLMs）的应用，特别是在医学图像问答任务中的表现。

模型架构：包括视觉编码器、预训练的大语言模型（LLM）和用于将视觉编码空间嵌入到 LLM 空间的线性投影层。

微调方法：

第一阶段：使用医学图像-标题数据集进行图像标题生成的微调。

第二阶段：在医学 VQA 数据集上进行 VQA 任务的微调。