LLaVA 是一个端到端训练的大型多模态模型,旨在根据视觉输入(图像)和文本指令理解和生成内容。它结合了视觉编码器和语言模型的功能来处理和响应多模态输入。
图 1:LLaVA 工作原理的示例。
LLaVA 的输入和输出:连接视觉和文本领域:
LLaVA 的输入有两个方面:
- 视觉输入:模型可以查看和分析以提取视觉特征和上下文信息的图像。
- 文本指令:文本输入,可以是问题或命令,指导模型关注什么或执行关于视觉输入的什么样的任务。
LLaVA 的输出基于文本,并且可以根据任务而变化:
- 描述性文本:如果任务是描述视觉内容,LLaVA 可以输出图像的详细描述,识别对象、动作和场景。
- 问题的答案:对于问答任务,LLaVA 会生成有关视觉输入的问题的答案,可能涉及基于图像内容的推理和推断。
- 后续行动:对于需要采取行动的指令,例如编辑图像或检索更多信息,LLaVA 可以提供适当的文本响应,表明已采取的行动或建议应该做什么。
比较分析:LLaVa 与当代多模态模型
随着 CLIP、BLIP 和最近推出的 LLaVa 等创新技术的出现,多模态 AI 领域正在迅速发展。本小节将 LLaVa 的独特架构和方法与这些当代模型进行比较,重点介绍其优势和独特之处。
CLIP:开创性的多模式理解
CLIP(对比语言-图像预训练)是多模态人工智能的革命性进步,在各种视觉任务中提供了强大的性能。它在自然语言描述背景下理解图像的能力为该领域树立了新的标杆。CLIP 通过一种大规模预训练方法实现这一目标,该方法将图像与文本描述对齐,使模型能够对一系列视觉任务进行零样本学习。然而,CLIP 主要关注高层次上图像和文本之间的关联,本身并不具备深入推理或对话参与的能力。
BLIP:连接语言和图像感知
BLIP(引导式语言图像预训练)在 CLIP 的基础上,通过采用引导式预训练策略扩展了多模态模型的功能。这种方法通过不断从自身预测中学习来完善模型的视觉理解,有助于提高语言和视觉内容之间的一致性。BLIP 在需要更精确的视觉识别和语言理解的任务上表现出色。
相比之下,LLaVa 则采取了不同的方式,利用 GPT-4 的语言生成功能来整理其指令遵循数据。这不仅可以生成一个能够捕捉更广泛的类人交互的数据集,而且还使 LLaVa 能够进行更复杂的推理和深入的对话能力。
LLaVa 的与众不同之处:是模型架构还是其他什么?
我们认为,LLaVA 的优势主要在于其数据管理能力,而不是其架构选择。LLaVA 标志着一次重大飞跃,这主要归功于它利用 GPT-4 进行数据管理。与传统的静态数据集不同,LLaVA 使用 ChatGPT-4 生成动态、有指导意义的数据,并在各种视觉和文本场景中积极地将数据纳入训练过程。
通过使用 GPT-4,LLaVA 生成的数据集与自然语言和视觉感知非常相似,与传统的手动数据集生成方法不同。这种创新方法不仅使人工智能能够理解和推理,而且使其更接近准确反映人类智能。
LLaVa 中的数据管理策略
图 2:一个示例来说明指令遵循数据。顶部块显示用于提示 GPT 的上下文(例如标题和框),底部块显示三种类型的响应。
大型语言和视觉助手 LLaVa 不仅因其先进的神经架构而脱颖而出,还因其突破性的数据管理方法而脱颖而出。通过利用 GPT-4,它彻底改变了传统的数据准备方法,制作了一个反映现实世界复杂性的数据集。
LLaVa 中的数据管理从图像及其对应的标题开始,然后使用 GPT-4 生成一组查询。这些查询引导 AI 以精确和相关的方式探索和描述图像内容。
为了有效地为 GPT-4 等基于文本的人工智能翻译视觉数据,LLaVa 使用字幕来提供视觉场景的不同视角,并使用边界框来提供空间背景和焦点。
- 对话数据:LLaVa 模仿人类互动,组织对话,让模型扮演助手,回答有关图像各个方面的问题。这些问题的范围从识别物体和动作到辨别它们的数量、位置和相对位置,确保模型能够处理具有明确答案的查询。
- 详细的描述性数据:LLaVa 力求全面理解图像。为了实现这一目标,它促使 GPT-4 提出问题,旨在理解图像的丰富和详细描述。这些提示鼓励模型深入研究,提供一个能够完整捕捉视觉内容精髓的叙述。
- 复杂推理数据:LLaVa 超越了单纯的描述,用需要分层推理过程、逻辑性和对因果关系理解的问题来挑战模型。这类数据训练模型构建合理的反应,这些反应由逻辑思维序列支持。
LLaVa 的建筑:视觉与语言的融合
LLaVa 模型整合了视觉和语言,利用以下核心组件:
图3:LLaVA网络架构。
- 视觉编码器:LLaVa 架构的基础是预训练的 CLIP 视觉编码器,具体来说是 ViT-L/14 变体。该组件通过 Transformer 层处理输入图像 (Xv) 以提取特征 (Zv),使模型能够有效地理解视觉信息。
- 语言模型 (Vicuna):LLaVa 的语言能力依赖于 Vicuna,它是大型语言模型 (LLM) 的变体,用 fϕ 表示。Vicuna 根据输入语言指令 (Xq) 理解并生成语言响应 (Xa),补充视觉编码器的功能。
- 线性投影:此组件由可训练矩阵 (W) 表示,充当视觉特征 (Zv) 和语言模型的嵌入空间之间的桥梁。它将视觉特征转换为视觉标记 (Hv),并将其与语言模型的词嵌入空间对齐,以促进多模态对话
训练和微调 LLaVA:
LLaVA 的训练过程分为两阶段,每个阶段侧重于提高模型解释和响应视觉和文本数据融合的能力。
第一阶段:特征对齐的预训练
LLaVA 训练的初始阶段是特征对齐的预训练。在此阶段,模型专注于将图像中的视觉特征与语言模型中的相应文本特征对齐。这是通过将大型数据集过滤为一组精炼的图像-文本对来实现的,LLaVA 使用这些图像-文本对来学习两种模态之间的相关性。
在此阶段,视觉编码器(例如 CLIP 视觉编码器 ViT-L/14)处理图像以提取视觉特征,然后使用投影矩阵 (W) 将这些特征映射到语言模型的词嵌入空间中。LLaVA 中使用的语言模型是 Vicuna,它以强大的语言理解和生成能力而闻名。
第二阶段:端到端微调
在对齐视觉和语言特征后,LLaVA 会经历端到端微调过程。尽管保持视觉编码器的权重不变,但此阶段允许模型联合微调投影矩阵和语言模型的权重。目标是根据提供的多模态数据最大化目标答案的可能性。
此阶段对于将 LLaVA 适应特定用例场景(例如多模式聊天、科学问答等)至关重要。它确保模型不仅能在一般描述背景下理解图像,还能在被提示与图像相关的特定问题时进行复杂的对话、提供详细的解释和推理问题。
性能和基准测试:VQA 模型中的 LLaVa
图 4:示例提示比较了 LLaVA、GPT-4、BLIP-2 和 OpenFlamingo 在理解幽默方面的视觉推理能力。BLIP-2 和 OpenFlamingo 未能遵循用户的指示。LLaVA 和 GPT-4 都解释了模因及其幽默,而 GPT-4 给出了更简洁的答案。
LLaVA-Bench (COCO) 性能洞察
表 1:使用不同训练数据在 LLaVA-Bench (COCO) 上进行消融。
LLaVA-Bench (COCO) 提供了一个强大的框架,通过精心设计的 90 个问题来评估 LLaVA 的能力,这些问题来自 30 张选定的图像,用于对话、详细描述和复杂推理。结果如下:
- 指令调校功效:配备指令调校后,LLaVA 对用户命令的遵守率提高了 50 多分。
- 问题多样性的影响:虽然包含的详细而复杂的推理问题很少,但总体能力提高了 7 个百分点。这种提升还对对话式问题的回答产生了积极影响,展现了多样化训练集的好处。
- 最佳数据组合:三种问题类型的组合带来了最高的性能飞跃,LLaVA 达到了 85.1% 的基准分数,强调了综合数据集在提高多模式 AI 能力方面的实力。
表 2:使用 LLaVA-Bench (In-theWild) 上的相对分数比较指令遵循能力。
LLaVA 在 LLaVA-Bench 上的表现
- 在对话任务中,LLaVA 的准确率达到了 57.3%,明显高于 BLIP-2 的 54.6%,也大大超过 OpenAI 的 Flamingo(19.3%)。
- 在提供详细描述方面,LLaVA 得分为 52.5%,展示了其从视觉线索生成丰富、全面内容的能力。
- 该模型的优势在复杂的推理问题上表现得最为明显,其成功率达到了 81.7%,表明其具有先进的推理和推理能力。
LLaVA 在所有类别中的总分为 67.3%,比 BLIP-2 高出 29%,比 Flamingo 高出 48%。
局限性和问题:
LLaVA 的定量评估:
使用 GPT-4 作为评判标准来评估 LLaVA 的性能,在对 AI 能力进行基准测试的框架内提出了一个微妙的挑战。一方面,GPT-4 的高级理解和生成能力使其能够批判性地评估 LLaVA 等候选模型产生的响应质量。这种评估涵盖了有用性、相关性、准确性和细节等因素,这些因素对于衡量模型对多模态数据的指令遵循能力至关重要。然而,另一方面,使用 GPT-4 作为评估评判标准引发了人们对基准测试过程公正性的担忧。
问题的关键在于,LLaVA 的数据管理过程与 GPT-4 有着根本的联系。由于 GPT-4 在训练 LLaVA 方面发挥了重要作用(通过生成模型经过微调的指令跟踪数据),因此存在循环推理的固有风险。本质上,LLaVA 可能倾向于生成与 GPT-4 训练数据中固有的模式或偏差相一致的响应。这种倾向可能会扭曲评估,导致理论上限反映与 GPT-4 方法的兼容性,而不是通用性能的真实衡量标准。
此外,依赖 GPT-4 为其评估提供全面解释会带来一定程度的主观性,这种主观性源于语言模型自身对什么是高质量响应的“理解”。这种理解是由 GPT-4 训练所用的数据集塑造的,而这些数据集可能无法完全涵盖现实世界中多模态交互的多样性和复杂性。
欢迎前往我们的公众号,资讯
创作不易,觉得不错的话,点个赞吧!!!