【大模型理论篇】CogVLM：多模态预训练语言模型

news2026/2/13 8:34:13

1. 模型背景

前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例，其中提到了VLM的应用。追溯起来就是两篇前期工作：Vision LLM以及CogVLM。

今天准备回顾一下CogVLM。视觉语言模型具有很强的通用性。许多视觉和跨模态任务可以被表述为下一个token预测。

先来看张图，CogVLM直接拉满。CogVLM通过在注意力和FFN层中引入可训练的视觉专家模块，在预训练的语言模型和图像编码器之间建立了桥梁。这种方法使得视觉语言特征能够深度融合，并且不会牺牲任何自然语言处理任务的性能。CogVLM-17B在17个经典跨模态基准测试中取得了最先进的表现，包括NoCaps、Flicker30k等图像标注数据集，OKVQA、TextVQA、OCRVQA、ScienceQA等VQA数据集，MM-Vet、MMBench、SEED-Bench、LLaVABench、POPE、MMMU、MathVista等LVLM基准测试，以及RefCOCO、RefCOCO+、RefCOCOg、Visual7W等视觉定位数据集。

2. 模型结构

CogVLM的模型，用于实现图像文本的联合理解与生成。该模型包括四个基本组件：视觉Transformer编码器、多层感知机适配器、预训练的大语言模型以及视觉专家模块。其中，视觉专家模块能够将不同注意力头的语义信息映射到不同的特征空间中，从而实现深度视觉语言特征对齐。该模型采用了统一指令监督微调（SFT）的方式对数据进行训练。

ViT 编码器。在 CogVLM-17B 中使用了预训练的 EVA2-CLIP-E。由于其专门用于对比学习聚合 [CLS] 特征，因此移除了 ViT 编码器的最后一层。

MLP适配器。为了将ViT的输出映射到与单词嵌入的文本特征相同的空间中，使用了MLP适配器，一个两层MLP（SwiGLU）。在语言模型中所有图像特征共享相同的词元位置ID。

预训练的大语言模型。CogVLM 的模型设计与GPT风格预训练大模型兼容。具体来说，CogVLM-17B 采用 Vicuna1.5-7B 进行进一步训练。对所有注意力操作（包括图像特征之间的注意力）应用因果遮盖。

视觉专家模块。在每一层中添加一个视觉专家模块，以实现深度视觉语言特征对齐。具体来说，每个层中的视觉专家模块由一个 QKV 矩阵和每个层中的 MLP 组成。QKV 矩阵和 MLP 的形状与预训练的语言模型相同，并从其中进行初始化。语言模型中的每个注意力头都会捕获语义信息的不同方面，而可训练的视觉专家可以将图像特征转换为与不同头部对齐，从而实现深度融合。

位置嵌入。在 RoPE 中，允许所有视觉token共享一个单个的位置 ID，因为当它们被输入到 ViT 时，它们已经包含了位置信息。这种方法缓解了 LLM 中token之间的远程注意力衰减的影响。由于一张图片可以占据数百到数千个token，并且典型的输入序列结构为 " query"，使用传统的位置编码会导致过长的编码序列。此外，它还会导致查询更多地关注更接近它的图像序列，即图像的下部分。

3. 论文实验

3.1 预训练

3.1.1 数据

用于预训练的图像文本对都是公开可用的，包括LAION-2B和COYO-700M。在删除了损坏的URL、NSFW 图像、带有嘈杂标题的图像、具有政治偏见的图像以及具有 >6 或 <1/6 的宽高比的图像后，大约有 15 亿张图像可用于预训练。

此外，还制作了一个包含 4000 万张图像的visual grounding数据集。图像标题中的每个名词都与边界框相关联，以指示图像中的位置。构建过程，通过spaCy提取名词，并使用GLIPv2预测边界框。图像文本对是从LAION-115M中采样而来的，是滤过的LAION-400M的一个子集。筛选并保留了4000万张图像的一部分，以确保超过75%的图像至少包含两个边界框。

3.1.2 训练

预训练的第一阶段是图像标题损失，即文本部分的下一个token预测。在上面介绍的 15 亿对图像-文本对上用批量大小为 8,192 的方式训练了 120,000 次 CogVLM-17B 模型。预训练的第二阶段是图像标题生成和指代表达式理解（REF）的混合。REF 是一项任务，根据对象的文本描述来预测图像中的边界框，以视觉问答的形式进行训练，例如问题：物体在哪里？回答：[[x0, y0, x1, y1]]。x 和 y 坐标范围从 000 到 999，表示图像中的归一化位置。仅考虑“答案”部分中下一个token预测的损失。在上述介绍的文本-图像对和视觉定位数据集上使用 1,024 的批量大小预训练了第二阶段模型 60,000 次迭代。在最后的 30,000 次迭代中，将输入分辨率从 224x224 改为 490x490。总可训练参数数量为 6.5B。这里之所以升维，是可以喂入更高精度更多细节的内容，提升模型的理解能力。

3.1.3 对齐

在指导对齐阶段，训练了两个通用模型：CogVLM-Chat 和 CogVLM-Grounding。CogVLM-Chat 接受自然语言输入和输出，而 CogVLM-Grounding 则接受带框的输入和输出。

CogVLM-Chat。在研究中整合了来自各种开源视觉问答数据集的数据，包括 VQAv2 ，OKVQA，TextVQA，OCRvQA，ScienceQA，以及以多轮对话格式编排的数据集，如LLaVA-Instruct，LRV-Instruction，LLaVAR。然后在这些多样化的数据集上进行了统一指令监督微调（SFT）。SFT 数据的质量和完整性至关重要；最初通过仅使用语言GPT-4管道生成的LLaVA-Instruct数据集中存在某些不准确之处。需要通过手动检查和注释仔细纠正这些错误，以确保数据质量。视觉问答数据集通常以简洁的形式呈现，通常是单个单词的答案。为了适应这种多样性，在搜索阶段，需要使用格式为：（1）用于简洁的回答（问题：简短答案：）；（2）用于扩展讨论的提示（问题：答案：）。在训练过程中，模型经过 6000 次迭代，学习率为 1e-5，批量大小为 1024。为了增强并确保训练的稳定性，激活了视觉编码器的参数，并将其学习率调整为剩余训练参数的十分之一。

CogVLM-Grounding。为了赋予模型一致、交互式的视觉语义定位能力，收集了一个高质量的数据集，该数据集包含四种类型的定位数据：(1) 基于图像的标注（GC）——在图像中每个名词短语后跟相应的指代边界框；(2) 表达式生成(REG) ——针对每张图片，其上的每个边界框都被标记上准确描述文本表达式；(3) 基于视频的注释（VG）——每个视频帧都有与其对应的准确描述文本表达式；(4) 视觉问答（QA）——每个问题都带有正确答案所在视频帧的准确描述文本表达式。