【大模型理论篇】CogVLM:多模态预训练语言模型

news2025/3/26 18:32:06

1. 模型背景

        前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例,其中提到了VLM的应用。追溯起来就是两篇前期工作:Vision LLM以及CogVLM。

        今天准备回顾一下CogVLM。视觉语言模型具有很强的通用性。许多视觉和跨模态任务可以被表述为下一个token预测。

        先来看张图,CogVLM直接拉满。CogVLM通过在注意力和FFN层中引入可训练的视觉专家模块,在预训练的语言模型和图像编码器之间建立了桥梁。这种方法使得视觉语言特征能够深度融合,并且不会牺牲任何自然语言处理任务的性能。CogVLM-17B在17个经典跨模态基准测试中取得了最先进的表现,包括NoCaps、Flicker30k等图像标注数据集,OKVQA、TextVQA、OCRVQA、ScienceQA等VQA数据集,MM-Vet、MMBench、SEED-Bench、LLaVABench、POPE、MMMU、MathVista等LVLM基准测试,以及RefCOCO、RefCOCO+、RefCOCOg、Visual7W等视觉定位数据集。

2. 模型结构

        CogVLM的模型,用于实现图像文本的联合理解与生成。该模型包括四个基本组件:视觉Transformer编码器、多层感知机适配器、预训练的大语言模型以及视觉专家模块。其中,视觉专家模块能够将不同注意力头的语义信息映射到不同的特征空间中,从而实现深度视觉语言特征对齐。该模型采用了统一指令监督微调(SFT)的方式对数据进行训练。

        ViT 编码器。在 CogVLM-17B 中使用了预训练的 EVA2-CLIP-E。由于其专门用于对比学习聚合 [CLS] 特征,因此移除了 ViT 编码器的最后一层。

        MLP适配器。为了将ViT的输出映射到与单词嵌入的文本特征相同的空间中,使用了MLP适配器,一个两层MLP(SwiGLU)。在语言模型中所有图像特征共享相同的词元位置ID。

        预训练的大语言模型。CogVLM 的模型设计与GPT风格预训练大模型兼容。具体来说,CogVLM-17B 采用 Vicuna1.5-7B 进行进一步训练。对所有注意力操作(包括图像特征之间的注意力)应用因果遮盖。

        视觉专家模块。在每一层中添加一个视觉专家模块,以实现深度视觉语言特征对齐。具体来说,每个层中的视觉专家模块由一个 QKV 矩阵和每个层中的 MLP 组成。QKV 矩阵和 MLP 的形状与预训练的语言模型相同,并从其中进行初始化。语言模型中的每个注意力头都会捕获语义信息的不同方面,而可训练的视觉专家可以将图像特征转换为与不同头部对齐,从而实现深度融合。

        位置嵌入。在 RoPE 中,允许所有视觉token共享一个单个的位置 ID,因为当它们被输入到 ViT 时,它们已经包含了位置信息。这种方法缓解了 LLM 中token之间的远程注意力衰减的影响。由于一张图片可以占据数百到数千个token,并且典型的输入序列结构为 " query",使用传统的位置编码会导致过长的编码序列。此外,它还会导致查询更多地关注更接近它的图像序列,即图像的下部分。

3. 论文实验

3.1 预训练

3.1.1 数据

        用于预训练的图像文本对都是公开可用的,包括LAION-2B和COYO-700M。在删除了损坏的URL、NSFW 图像、带有嘈杂标题的图像、具有政治偏见的图像以及具有 >6 或 <1/6 的宽高比的图像后,大约有 15 亿张图像可用于预训练。

        此外,还制作了一个包含 4000 万张图像的visual grounding数据集。图像标题中的每个名词都与边界框相关联,以指示图像中的位置。构建过程,通过spaCy提取名词,并使用GLIPv2预测边界框。图像文本对是从LAION-115M中采样而来的,是滤过的LAION-400M的一个子集。筛选并保留了4000万张图像的一部分,以确保超过75%的图像至少包含两个边界框。

3.1.2 训练

        预训练的第一阶段是图像标题损失,即文本部分的下一个token预测。在上面介绍的 15 亿对图像-文本对上用批量大小为 8,192 的方式训练了 120,000 次 CogVLM-17B 模型。预训练的第二阶段是图像标题生成和指代表达式理解(REF)的混合。REF 是一项任务,根据对象的文本描述来预测图像中的边界框,以视觉问答的形式进行训练,例如问题:物体在哪里?回答:[[x0, y0, x1, y1]]。x 和 y 坐标范围从 000 到 999,表示图像中的归一化位置。仅考虑“答案”部分中下一个token预测的损失。在上述介绍的文本-图像对和视觉定位数据集上使用 1,024 的批量大小预训练了第二阶段模型 60,000 次迭代。在最后的 30,000 次迭代中,将输入分辨率从 224x224 改为 490x490。总可训练参数数量为 6.5B。这里之所以升维,是可以喂入更高精度更多细节的内容,提升模型的理解能力。

3.1.3 对齐

        在指导对齐阶段,训练了两个通用模型:CogVLM-Chat 和 CogVLM-Grounding。CogVLM-Chat 接受自然语言输入和输出,而 CogVLM-Grounding 则接受带框的输入和输出。

        CogVLM-Chat。在研究中整合了来自各种开源视觉问答数据集的数据,包括 VQAv2 ,OKVQA,TextVQA,OCRvQA,ScienceQA,以及以多轮对话格式编排的数据集,如LLaVA-Instruct,LRV-Instruction,LLaVAR。然后在这些多样化的数据集上进行了统一指令监督微调(SFT)。SFT 数据的质量和完整性至关重要;最初通过仅使用语言GPT-4管道生成的LLaVA-Instruct数据集中存在某些不准确之处。需要通过手动检查和注释仔细纠正这些错误,以确保数据质量。视觉问答数据集通常以简洁的形式呈现,通常是单个单词的答案。为了适应这种多样性,在搜索阶段,需要使用格式为:(1)用于简洁的回答(问题:简短答案:);(2)用于扩展讨论的提示(问题:答案:)。在训练过程中,模型经过 6000 次迭代,学习率为 1e-5,批量大小为 1024。为了增强并确保训练的稳定性,激活了视觉编码器的参数,并将其学习率调整为剩余训练参数的十分之一。

        CogVLM-Grounding。为了赋予模型一致、交互式的视觉语义定位能力,收集了一个高质量的数据集,该数据集包含四种类型的定位数据:(1) 基于图像的标注(GC)——在图像中每个名词短语后跟相应的指代边界框;(2) 表达式生成(REG) ——针对每张图片,其上的每个边界框都被标记上准确描述文本表达式;(3) 基于视频的注释(VG)——每个视频帧都有与其对应的准确描述文本表达式;(4) 视觉问答(QA)——每个问题都带有正确答案所在视频帧的准确描述文本表达式。

3.2  多模态基准测试

        图像字幕生成。这些任务的主要目的是为给定图像生成文本摘要,总结主要的内容。使用数据集包括 NoCaps,COCO ,Flickr30k ,以及TextCaps进行评估。

        视觉问答。视觉问答任务要求模型根据给定的图像回答可能侧重于不同视觉内容的问题。评估涵盖多种数据集,包括 VQAv2、OKVQA、TextVQA、OCRvQA和 ScienceQ。LVLM基准主要用于评估大型多模态模型的高级功能,如对象识别和定位、OCR、视觉描述和视觉知识推理。

        视觉定位。通用模型在所有任务上都取得了不错的性能。

3.3 裁剪研究

        在 6,000 个迭代周期和批量大小为 8,192 的情况下进行消融研究。为了评估 CogVLM 模型的有效性,在多个结构变体和调优策略上进行,包括:

1)只调整 MLP Adapter 层;

2)调整所有 LLM 参数以及不添加视觉专家的 Adapter;

3)每四个 LLM 层仅添加一个视觉专家;

4)在所有层中仅向 FFN 添加视觉专家。        

4. 参考材料

【1】CogVLM: Visual Expert for Pretrained Language Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320772.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI知识补全(一):tokens是什么?

名人说&#xff1a;苔花如米小&#xff0c;也学牡丹开。——袁枚《苔》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 目录 一、什么是Tokens&#xff1f;二、为什么Tokens如此重要&#xff1f;1.模型的输入输出限制2.…

【LC插件开发】基于Java实现FSRS(自由间隔重复调度算法)

&#x1f60a;你好&#xff0c;我是小航&#xff0c;一个正在变秃、变强的文艺倾年。 &#x1f514;本文讲解【LC插件开发】基于Java实现FSRS&#xff08;自由间隔重复调度算法&#xff09;&#xff0c;期待与你一同探索、学习、进步&#xff0c;一起卷起来叭&#xff01; 目录…

AI比人脑更强,因为被植入思维模型【17】万物联系思维模型

万物联系,万物,并不孤立。 定义 万物联系思维模型是一种强调世界上所有事物都相互关联、相互影响的思维方式。它认为任何事物都不是孤立存在的,而是与周围的环境、其他事物以及整个宇宙构成一个有机的整体。这种联系不仅包括直接的因果关系,还涵盖了间接的、潜在的、动态的…

【MySQL篇】复合查询

目录 前言&#xff1a; 1&#xff0c;多表查询 2&#xff0c;自连接 3&#xff0c;子查询 3.1&#xff0c;单行子查询 3.2&#xff0c;多行子查询 3.3&#xff0c;多列子查询 3.3&#xff0c;在from子句中使用子查询 4&#xff0c;合并查询 4.1&#xff0c;union …

unsloth微调QwQ32B(4bit)

unsloth微调QwQ32B(4bit) GPU: 3090 24G unsloth安装部署 pip 安装 pip install unsloth --index https://pypi.mirrors.usrc.edu.cn/simplesource /etc/network_turbopip install --force-reinstall --no-cache-dir --no-deps githttps://github.com/unslothai/unsloth.git​…

基于腾讯云大模型知识引擎×DeepSeek的高等职业学校单独招生二级学院考前咨询系统

1、主要思路 通过大模型知识引擎DeepSeek搭建高等职业学校单独招生二级学院考前咨询专有问答&#xff0c;使得专业老师能够更好的服务考试学生&#xff0c;有利于二级学院能够更好的进行考试宣传&#xff0c;招来优秀学子&#xff01; 2、创作过程 2.1、本地部署大模型的缺陷…

【Linux】线程库

一、线程库管理 tid其实是一个地址 void* start(void* args) {const char* name (const char *)args;while(true){printf("我是新线程 %s &#xff0c;我的地址&#xff1a;0x%lx\n",name,pthread_self());sleep(1);}return nullptr; }int main() {pthread_t tid…

物化视图详解:数据库性能优化的利器

物化视图&#xff08;Materialized View&#xff09;作为数据库性能优化的核心手段&#xff0c;通过预计算和存储查询结果&#xff0c;显著提升了复杂查询的效率。本文将深入剖析物化视图的工作原理、应用场景及最佳实践&#xff0c;帮助企业在合适的场景中充分发挥其性能优势。…

蓝桥杯备考-》单词接龙

很明显&#xff0c;这道题是可以用DFS来做的&#xff0c;我们直接暴力搜索&#xff0c;但是这里有很多点是我们需要注意的。 1.我们如何确定两个单词能接上&#xff1f; 比如touch和choose 应该合成为touchoose 就是这样两个单词&#xff0c;我们让一个指针指着第一个字符串…

计算机视觉yolov8模型应用-学习笔记

计算机视觉yolov8模型应用-学习笔记 YOLOv8是由Ultralytics公司在‌2023年1月10日‌发布的一款深度学习模型。它是YOLOv5的重大更新版本&#xff0c;支持图像分类、物体检测和实例分割任务。这一版本在发布前就受到了广泛关注&#xff0c;并在发布后迅速成为目标检测领域的热门…

【网络层协议】NAT技术内网穿透

IP地址数量限制 我们知道&#xff0c;IP地址&#xff08;IPv4&#xff09;是一个4字节32位的整数&#xff0c;那么一共只有2^32也就是接近43亿个IP地址&#xff0c;而TCP/IP协议栈规定&#xff0c;每台主机只能有一个IP地址&#xff0c;这就意味着&#xff0c;一共只有不到43亿…

深入理解 C++11 智能指针:独占、共享与弱引用的完美管理

文章目录 std::unique_ptr&#xff08;独占式智能指针&#xff09;std::shared_ptr&#xff08;共享式智能指针&#xff09;std::weak_ptr&#xff08;弱引用智能指针&#xff09;示例展示&#xff1a;智能指针的原理内存泄漏**什么是内存泄漏&#xff0c;内存泄漏的危害****如…

AI Agent开发大全第四课-提示语工程:从简单命令到AI对话的“魔法”公式

什么是提示语工程?一个让AI“听话”的秘密 如果你曾经尝试过用ChatGPT或者其他大语言模型完成任务,那么你一定遇到过这样的情况:明明你的问题是清晰的,但答案却离题万里;或者你认为自己提供的信息足够详尽,可结果还是不理想。问题出在哪?很多时候并不是因为AI不够聪明,…

大模型架构记录 【综述-文字版】

名词解释&#xff1a; Prompt &#xff1a;提示词&#xff0c;是一个非常关键的概念&#xff0c;它指的是用户输入的文本或指令&#xff0c;用于引导语言模型生成相应的回答或执行特定任务。 Prompt Engineering&#xff1a;&#xff08;提示工程&#xff09; 是一种通过设计…

【论文笔记】Transformer

Transformer 2017 年&#xff0c;谷歌团队提出 Transformer 结构&#xff0c;Transformer 首先应用在自然语言处理领域中的机器翻译任务上&#xff0c;Transformer 结构完全构建于注意力机制&#xff0c;完全丢弃递归和卷积的结构&#xff0c;这使得 Transformer 结构效率更高…

使用CSS3实现炫酷的3D翻转卡片效果

使用CSS3实现炫酷的3D翻转卡片效果 这里写目录标题 使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1. 3D空间设置2. 核心CSS属性3. 布局和定位 实现难点和解决方案1. 3D效果的流畅性2. 卡片内容布局3. 响应式设计 性能优化建议浏览器兼容性总结 项目介绍 在这个项目中…

SpringSecurity——基于角色权限控制和资源权限控制

目录 基于角色权限控制 1.1 自定义 UserDetailsService 1.2 加载用户角色 1.3. 给角色配置能访问的资源&#xff08;使用切面拦截&#xff0c;使用注解&#xff09; 总结 资源权限控制 2.2. 需要有一个用户&#xff1b;&#xff08;从数据库查询用户&#xff09; 2.2 基…

红宝书第十一讲:超易懂版「ES6类与继承」零基础教程:用现实例子+图解实现

红宝书第十一讲&#xff1a;超易懂版「ES6类与继承」零基础教程&#xff1a;用现实例子图解实现 资料取自《JavaScript高级程序设计&#xff08;第5版&#xff09;》。 查看总目录&#xff1a;红宝书学习大纲 一、ES6类的核心语法&#xff1a;把事物抽象成“模板” 想象你要设…

Python为Word文档添加书签并打包成exe

背景简述 由于一些工作场景&#xff0c;需要从多个Word文档中找到出现的关键词&#xff0c;并阅读关键词的上下文内容。文件可能几十个&#xff0c;手动操作太要命了。所以python尝试处理。 目录 背景简述思路第一步、功能实现结果验证 第二步、打包成exe2-1、基础准备2-2、打…

ROS导航工具包Navigation

一&#xff0c;安装 Navigation工具包包含在 navigation 元功能包中。你可以通过以下命令安装&#xff1a; sudo apt-get install ros-noetic-navigation 如果你使用的是其他ROS版本&#xff08;如Melodic&#xff09;&#xff0c;将 noetic 替换为对应的版本名称&#xff08…