3月12日工作记录 DeepSeek-VL阅读笔记

昨天考完试，晚上把那个讨人厌的项目做了阶段结果给合作者展示去了，然后就看到deepseek发布了vision language的技术报告，于是打算今天上午看看。

DeepSeek VL

很多内容直接翻译自其 DeepSeek-VL，下面的我们指的的是deepseek vl的作者。

数据构建

预训练数据

我们努力确保我们的数据是多样化的，可扩展的，并广泛覆盖现实世界的场景，包括web截图，pdf, OCR，图表和基于知识的内容(专家知识，教科书)，旨在全面表示实际环境。

此外，我们从真实用户场景中创建用例分类法，并相应地构建指令调优数据集。使用该数据集进行的微调实质上改善了模型在实际应用中的用户体验。
在这里插入图片描述

Interleaved image-text：交错的图像-文本数据使模型具有更好的上下文处理能力学习多模态输入，我们利用了三个公共数据集MMC4 (Zhu等人，2024)、Wiki (Burns等人，2023)、Wikihow (Yang等人，2021)和Epub教科书。
Image capture：图像说明数据来自三个高质量的图像-文本配对数据集:Capsfusion (Yu等人，2023a)、TaiSu (Liu等人，2022b)和Detailed caption (echo840, 2024)。表格和图表数据使模型能够学习通用表格和图表图像理解的能力。它包含了各种各样的公共数据源，包括Chart2text（Kantharaj 等人，2022）、Geo170K（Gao 等人，2023）、Unichart（Masry 等人，2023）、Ureader (Ye et al., 2023)、M-paper (Hu et al., 2023)、ScienceQA (Lu et al., 2022b)、ScreenQA (Hsiao et al., 2022)、SciGraphQA-295K (Li and Tajbakhsh, 2023）、Paper2figure100k（Rodriguez 等人，2023）、Widget Captioning（Li 等人，2020）、Screen2words（Wang 等人，2021）和 Refexp（Mao 等人，2016）。
Web Code:Web代码数据赋予模型从图形界面或可视化图重构代码的能力。利用Websight (HuggingFaceM4, 2024)进行UI逆渲染，我们采用了类似于MATCHA (Liu et al.， 2022a)用于视觉图逆渲染的策略。这涉及处理来自Stack数据集的大约146万Jupyter笔记本(Kocetkov et al.， 2023)。通过提取这些笔记本并整理所有图表及其对应的前面代码段，我们成功地策划了一个包含200万对图像和代码的集合。为了获得更好的数据质量，我们过滤了110万个实例，每个实例由单个图像加上至少5行代码组成，以构成我们的主要训练数据集。
Document Optical Character Recognition (OCR)：文档光学字符识别(OCR)数据有助于在文档级别识别光学字符，即使在具有挑战性的现实场景中也是如此。据我们所知，目前还没有公开可用的包含英文和中文文档的大规模数据集。尽管存在可公开访问的小规模数据集Latex-OCR (Blecher, 2024)，但我们还构建了一个全面的英文和中文OCR数据集。它由两部分组成:1):arXiv文章:我们从140万篇arXiv文章中收集源代码并编译pdf。利用Nougat(Blecher et al.， 2023)的预处理工具，我们将这些文章渲染成成对的图像和文本;2):电子书和教育材料:我们从Anna’s Archive(Anna’s Archive，2024)中清理了860K英文和180K中文电子书，以及数百万K-12教育考试问题。随后，我们使用HTML渲染工具(Kulkarni和Truelsen)将这些具有不同模板的HTML文件转换为成对的图像和文本格式。
Scene text OCR :场景文本OCR数据增强了模型识别和从图像中提取文本的能力，在这些图像中，文本与环境融为一体。该数据集由多个公共数据集组成，包括ArT (Chng et al., 2019)、MLT-17 (Nayef et al., 2017)、LSVT (Sun et al., 2019)、UberText (Zhang et al., 2017)、Coco-text (Veit et al., 2016)、RCTW-17 (Shi et al., 2017)、ReCTS (Zhang et al., 2019)、TextOCR (Singh et al., 2021)、OpenVINO (Krylov et al., 2021)和HierText (Long et al., 2022)。
Text-only corpus: 纯文本语料库用于保持以语言为中心的任务的熟练程度。在本研究中，我们使用了与DeepSeek-LLM (DeepSeek-AI, 2024)相同的文本语料库。

有监督Fine-tuning数据

我们研究中使用的监督式调优数据集包含多种多模态和语言数据源，包括知名的开源共享gpt4v数据集，如ShareGPT4V (Chen等人，2023)、LAION- gptv (LAION, 2023)、lvisi - instruct4v (Wang等人，2023a)、textOCR-GPT4V (Carter, 2024)、llava16 - gpt4v (Liu等人，2024a)和IconQA (Lu等人，2021)。此外，我们结合了从预训练数据集中提取的部分表格和图表数据，如Ureader (Ye等人，2023)、ScreenQA (Hsiao等人，2022)、Geo170K (Gao等人，2023)和ScienceQA (Lu等人，2022b)。此外，我们整合了从Screen-to-code (Abi, 2024)任务中获得的UI Code数据集。为了提高我们多模态SFT数据的质量，我们还整理了一部分高质量的内部多模态SFT数据，其中一些数据是中文的。我们的内部指令调优数据集经过精心设计，以反映现实世界的使用场景，并涵盖广泛的任务。我们首先从各种在线来源收集GPT-4V和Gemini的各种真实测试用例。然后对这些测试用例进行仔细分析并组织成一个全面的分类法，该分类法包含识别、转换、分析、推理、评估和安全等多个类别，详见表3。这个结构化的分类法作为为每个测试图像选择代表性提示的指南，确保我们的指令调优数据集既实用又与现实世界的应用相关。此外，该分类法还用于构建平衡和全面的评估数据集，这使我们能够有效地评估模型在不同任务和类别中的性能。通过遵循这种系统化的方法，我们确保我们内部多模态SFT数据所涵盖的类别与分类法和实际使用场景的代表性很好地保持一致。

DeepSeek自建数据

在这里插入图片描述

模型架构

模型架构看代码就好了：https://github.com/deepseek-ai/DeepSeek-VL/tree/main/deepseek_vl/models

考虑到效率和大多数现实世界场景的需求，DeepSeek-VL集成了一个混合视觉编码器，可以在固定的令牌预算内有效地处理高分辨率图像(1024 x 1024)，同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。训练策略:我们假设一个熟练的视觉语言模型首先应该拥有强大的语言能力。为了确保在预训练期间保留LLM能力，我们研究了一种有效的VL预训练策略，从一开始就整合LLM训练，并仔细管理视觉和语言模式之间观察到的竞争动态。从关注文本开始，我们逐渐调整比例，以促进两种模式的平衡整合。DeepSeek-VL系列(13 b和7B型号)在实际应用中作为视觉语言聊天机器人展示了卓越的用户体验，在相同的模型尺寸下，在广泛的视觉语言基准测试中实现了最先进或具有竞争力的性能，同时在以语言为中心的基准测试中保持了稳健的性能。我们将13 b模型和7B模型都对外开放，在此基础上促进创新。

训练方法

总体分析

三步训练，如下图所示。

在这里插入图片描述
我们可以对比一下qwen-vl的训练pipeline：

DeepSeek的训练方法和LLaVA相比多了Stage3，和qwen-vl相比在每个stage冻结和训练的模块各有选择。

具体DeepSeek的训练过程：

首先训练vision language的adaptor，insight：adaptor的训练参数少，不适用scale law，所以使用适量的数据训练就好，过多反而有害。
进行stage 2训练的原因：

最初，我们尝试用多模态数据直接训练LLM。然而，我们发现，虽然多模态性能的指标逐渐提高，但语言指标却出现了明显而严重的下降，如图4所示(multimodal: language -100%:0%)。这强调了在LLM的基础上直接进行多模态预训练的内在挑战，揭示了提高多模态能力和保持语言熟练度之间的关键权衡。
我们认为这一现象主要源于两个因素:第一，大多数多模态语料库过于简单，与语言数据的复杂性和分布存在显著差异。其次，在多模态和语言模态之间似乎存在一种竞争动态，导致了LLM中语言能力的灾难性遗忘。