VLM 系列——Llava1.6—

VLM 系列——Llava1.6——论文解读

news2025/4/24 18:17:35

一、概述

1、是什么

Llava1.6 是llava1.5 的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。

本文基于CLIP的视觉编码器，以及多个版本语言解码器，使用最简单的两层FC构成MLP映射视觉特征到文本长度，构建了一个大规模的多模态模型，并且将该模型在指令视觉-语言数据上进行了微调。最大的区别是仿照monkey这篇论文也将图片分割成几个部分然后拼接送入LLM，不同是他们有使用query这种降维方式。

2、亮点

作者认为的亮点：

*对比开源模型CogVLM o、 Yi-VL获得更好的性能，赶超商用模型 Gemini Pro 、Qwen-VL-Plus。

*强大的中文zero-shot能力，虽然训练数据多为英文，但是在MMBench-CN上取得SoTA结果。

*很低的训消耗：32 GPUs 训练约一天，总共仅仅需要 1.3M数据. 计算和数据消耗仅仅是其他模型的 100-1000分之一。

*将输入图像分辨率提升4 倍，支持三种宽高比，最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。

*通过改进的视觉指令调整数据混合，LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。

*更好的视觉对话，更多场景，覆盖不同应用。LLaVA-1.6 掌握了更多世界知识，具备更好的逻辑推理能力。

*使用 SGLang 进行高效部署和推理。

目前论文、代码、数据、模型还没开源，作者承诺开源，筹备中。后续需要继续更新。

二、模型

1、模型结构

主体结构还是lava系，如第一张图，区别在于对于高分辨率图像的处理，如第二章图，将图片分割成几个部分然后拼接送入LLM。

*图像编码器：CLIP-ViT-L -336px。

*MLP 投射层：复用LLava1.5权重。

*文本解码器：Vicuna-1.5-7B、Mistral-7B、Vicuna-1.5-13B、Nous-Hermes-2-Yi-34B。

2、模型亮点

仿照monkey，将高分辨率图像进行拆分拼接，提高高分辨率图像的识别降低幻觉。

PS

*这种暴力拼接会导致图片的token比较长，是不是下一步就变成monkey的结构了。

*现在还没有论文和代码，这里面的分割方式672x672、336x1344、1344x336和 {2×2,1×{2,3,4},{2,3,4}×1}不太一样，最后看是最终怎么实现吧。

三、数据

1、数据标签

数据的label构成，主要会涉及到loss计算。

2、数据构成

train stage1

暂时看不到第一阶段数据。

train stage2

*高质量的用户指令数据。LAION-GPT-V、ShareGPT-4V和私有数据1.5K。

*多模态文档 / 图表数据。DocVQA 和 SynDog-EN 替换了 TextCap。添加ChartQA、DVQA 和 AI2D。

3、数据清洗

train stage1

暂时看不到第一阶段数据。

train stage2

*高质量的用户指令数据。两个主要标准：首先，任务指令的多样性，确保充分代表现实场景中可能遇到的广泛用户意图，特别是在模型部署阶段。其次，响应的优先级至关重要，旨在征求有利的用户反馈。因此，考虑了两个数据源：现有的 GPT-V 数据（LAION-GPT-V 和 ShareGPT-4V）；为了进一步促进更多场景下更好的视觉对话，研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集，仔细过滤了可能存在隐私问题或可能有害的样本，并使用 GPT-4V 生成响应。

*多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap，因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力，该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat，该研究进一步添加了 ChartQA、DVQA 和 AI2D，以更好地理解图和图表。