【VLM小白指北 (1) 】An Introduction to Vision-Language Modeling

news2025/4/26 12:37:04

开一个新坑Vision-Language Modeling (VLM) ，原文76页，慢慢更，for beginners，但也不能之前啥都不会啊。

原文链接：An Introduction to Vision-Language Modeling

Introduction

存在的问题：将语言与视觉相结合的问题并未完全解决。例如，大多数模型在理解空间关系或计数时仍存在困难，这需要依赖额外数据标注的复杂工程开销。许多VLM也缺乏对属性和顺序的理解。它们常常忽略输入提示的一部分，导致需要大量的提示工程努力才能产生期望的结果。有些模型还可能产生既不必要也不相关的幻觉内容。因此，开发可靠的模型仍然是研究领域的热点。

The Families of VLMs

VLM家族作者分为四类，如下：
在这里插入图片描述

Contrastive：使用正负对。训练为：正例对的相似表示，负例对表示相离。
Masking：通过给定未遮蔽文本标题，重建缺失图像块。同样地，通过在标题中遮蔽单词，可以训练VLM在给定未遮蔽图像的情况下重建这些单词。
Generative：图生文，文生图。通常是最昂贵的训练方式。
Pretrained backbones：基于Pretrained backbones的VLM通常利用开源的LLMs，如Llama，来学习图像编码器（也可能预训练）与LLM之间的映射map。

这些范式并不是相互排斥的；许多方法依赖于对比、遮蔽和生成标准的混合。

基于Transformer的VLMs早期工作

最早是LLM中的BERT表现出很好的性能，基于此，出现了结合image的visual-BERT和ViLBERT。这些模型基于两个目标进行训练：1）一个经典的mask重建任务，旨在预测给定输入中的缺失部分；2）一个句子到图像的预测任务，旨在预测一个标题是否实际描述了图像内容。

基于对比的VLMs

这里首先要对“对比学习”有一定了解。我的理解是，与NCE不同的是，InfoNCE损失不是预测二进制值，而是利用在模型表示空间中计算的距离度量，比如余弦相似度。这需要计算正对样本和所有负对样本之间的距离。该模型通过softmax学习预测在表示空间中最接近的最有可能的一对示例，同时将较低的概率与所有其他对负示例关联起来。InfoNCE损失函数：
在这里插入图片描述

InfoNCE引出了一个重要工作：CLIP

一种常用的对比方法，使用InfoNCE损失的是对比语言-图像预训练（CLIP）。正例对定义为一张image及其对应的真实标题，而负例定义为相同的image，但与之配对的是包含在mini-batch中的描述其他图像的所有其他标题。CLIP的一个新颖之处在于训练一个模型，以在共享的表示空间中融合视觉和语言。CLIP训练随机初始化的视觉和文本encoder，以使用对比损失将图像及其标题的表示映射到相似的embedding。原始的CLIP模型在网络上收集的4亿个text-image对上进行训练，展示了显著的零样本分类迁移能力。具体来说，一个ResNet-101 CLIP模型与监督式ResNet 模型（达到76.2%的零样本分类准确率）的性能相匹配，并在几个鲁棒性基准测试中超过了它。

另外两个工作：

SigLIP：与 CLIP 类似，不同之处在于它使用基于二元交叉熵的原始NCE损失，而不是使用 CLIP 基于InfoNCE的多类目标。这种改变使得 SigLIP 在小于 CLIP 的批量大小上能够实现更好的零样本性能。
Llip：潜在语言图像预训练（Llip）考虑到一张图像可以用多种不同的方式来描述。它提出通过一个交叉注意力模块，根据目标标题来条件化图像的编码。考虑标题的多样性增加了表示的表达性，并且通常提高了下游零样本迁移分类和检索性能。