0.导读
1.背景介绍
- 1.1基础架构
- 1.2目标函数
- - 1.2.1对比式学习
  - 1.2.2生成式学习
- 1.3预训练
- - 1.3.1预训练数据集
  - 1.3.2微调
  - 1.3.3提示工程
2.基于文本提示的基础模型
- 2.1基于对比学习的方法
- - 2.1.1基于通用模型的对比方法
  - 2.1.2基于视觉定位基础模型的方法
- 2.2基于生成式的方法
- 2.3基于对比学习和生成式的混合方法
- 2.4基于对话式的视觉语言模型
3.基于视觉提示的基础模型
- 3.1视觉基础模型
- - 3.1.1 CLIPSeg
  - 3.1.2 SegGPT
  - 3.1.3 SAM
  - 3.1.4 SEEM
- 3.2 SAM的改进与应用
- - SAM for Medical Segmentation
  - SAM for Tracking
  - SAM for Remote Sensing
  - SAM for Captioning
  - SAM for Mobile Applications
- 3.3 通才模型
- - Painter
  - VisionLLM
  - Prismer
4.综合性基础模型
- 4.1基于异构架构的基础视觉模型
- - 4.1.1 CLIP 与异构模态的对齐
  - 4.1.2 学习共享表示的多模态模型
  - 4.1.3 视频和长篇幅文本的处理
- 4.2 基于代理的基础视觉模型
- - 4.2.1 机器人操控
  - 4.2.2 持续学习者
  - 4.2.3 导航规划
5.总结
参考文献

0.导读

众所周知，视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类，我们可以很轻松地借助各种模态，包括但不仅限于视觉、语言、声音等来理解和感知这个世界。现如今，随着 Transformer 等关键技术的提出，以往看似独立的各个方向也逐渐紧密地联结到一起，组成了“多模态”的概念。

今天，我们主要围绕Foundational Models，即基础模型这个概念，向大家全面阐述一个崭新的视觉系统。例如，通过 SAM，我们可以轻松地通过点或框的提示来分割特定对象，而无需重新训练；通过指定图像或视频场景中感兴趣的区域，我们可以与模型进行多轮针对式的交互式对话；再如李飞飞团队最新展示的科研成果所示的那样，我们可以轻松地通过语言指令来操作机器人的行为。
在这里插入图片描述

该术语首次由Bommasani等人在《Stanford Institute for Human-Centered AI》中引入。基础模型定义为“通过自监督或半监督方式在大规模数据上训练的模型，可以适应其它多个下游任务”。

具体地，我们将一起讨论一些典型的架构设计，这些设计结合了不同的模态信息，包括视觉、文本、音频；此外，我们还将着重讨论不同的训练目标，如对比式学习和生成式学习。随后，关于一些主流的预训练数据集、微调机制以及常见的提示模式，我们也将逐一介绍。

最后，希望通过今天的学习让大家对基础模型在计算机视觉领域的发展情况，特别是在大规模训练和不同任务之间的适应性方面的最新进展有一个大致的认知。共勉。

1.背景介绍

近年来，基础模型取得了显著的成功，特别是通过大型语言模型（LLMs），主要归因于数据和模型规模的大幅扩展。例如，像GPT-3这样的十亿参数模型已成功用于零/少样本学习，而无需大量的任务特定数据或模型参数更新。与此同时，有5400亿参数的Pathways Language Model（PaLM）在许多领域展现了先进的能力，包括语言理解、生成、推理和与代码相关的任务。

反观视觉领域，诸如CLIP这样的预训练视觉语言模型在不同的下游视觉任务上展现了强大的零样本泛化性能。这些模型通常使用从网络收集的数百上千万图像-文本对进行训练，并提供具有泛化和迁移能力的表示。因此，只需通过简单的自然语言描述和提示，这些预训练的基础模型完全被应用到下游任务，例如使用精心设计的提示进行零样本分类。
在这里插入图片描述

除了此类大型视觉语言基础模型外，一些研究工作也致力于开发可以通过视觉输入提示的大型基础模型。例如，最近 META 推出的 SAM 能够执行与类别无关的分割，给定图像和视觉提示（如框、点或蒙版），指定要在图像中分割的内容。这样的模型可以轻松适应特定的下游任务，如医学图像分割、视频对象分割、机器人技术和遥感等。

当然，我们同样可以将多种模态一起串起来，组成更有意思的管道，如RAM+Grounding-DINO+SAM:
在这里插入图片描述
这里我们用 RAM 提取了图像的语义标签，再通过将标签输入到 Grounding-DINO 中进行开放世界检测，最后再通过将检测作为 SAM 的提示分割一切。目前视觉基础大模型可以粗略的归为三类：

textually prompted models, e.g., contrastive, generative, hybrid, and conversational;
visually prompted models, e.g., SAM, SegGPT;
heterogeneous modalities-based models, e.g., ImageBind, Valley.

1.1基础架构

在这里插入图片描述

双编码器架构：其中，独立的编码器用于处理视觉和文本模态，这些编码器的输出随后通过目标函数进行优化。
融合架构：包括一个额外的融合编码器，它获取由视觉和文本编码器生成的表示，并学习融合表示。
编码器-解码器架构：由基于编码器-解码器的语言模型和视觉编码器共同组成。
自适应 LLM 架构：利用大型语言模型（LLM）作为其核心组件，并采用视觉编码器将图像转换为与 LLM 兼容的格式（模态对齐）。

1.2目标函数

1.2.1对比式学习

为了从无标签的图像-文本数据中学习，CLIP 中使用了简单的图像-文本对比（ITC）损失来通过学习正确的图像-文本配对来学习表示。此外还有图像-文本匹配（ITM）损失，以及包括简单对比式学习表示（SimCLR）和 ITC 损失的变体（如 FILIP Loss、TPC Loss、RWA、MITC、UniCL、RWC 损失）等其他对比损失。
在这里插入图片描述

1.2.2生成式学习

生成目标包括以下几种典型的损失：
在这里插入图片描述
以及 Flamingo Loss、Prefix Language Modeling, PrefixML等。从上述公式我们也可以很容易看出，生成式 AI 本质还是条件概率模型，如 Cap 损失便是根据上一个已知 token 或图像来预测下一个 token。

1.3预训练

1.3.1预训练数据集

如上所述，现代视觉-语言基础模型的核心是大规模数据，大致可分为几类：

图像-文本数据：例如CLIP使用的WebImageText等，这些数据通常从网络抓取，并经过过滤过程删除噪声、无用或有害的数据点。
部分伪标签数据：由于大规模训练数据在网络上不可用，收集这些数据也很昂贵，因此可以使用一个好的教师将图像-文本数据集转换为掩码-描述数据集，如GLIP和SA-1B等。
数据集组合：有些工作直接将基准视觉数据集组合使用，这些作品组合了具有图像-文本对的数据集，如字幕和视觉问题回答等。一些工作还使用了非图像-文本数据集，并使用基于模板的提示工程将标签转换为描述。

1.3.2微调

微调主要用于三个基本设置：

提高模型在特定任务上的性能（例如开放世界物体检测，Grounding-DINO）;
提高模型在某一特定能力上的性能（例如视觉定位）;
指导调整模型以解决不同的下游视觉任务（例如InstructBLIP）。

首先，许多工作展示，即使只采用线性探测，也可以提高模型在特定任务上的性能。因此，特定任务的数据集（例如ImageNet）是可以用来改善预训练模型的特定任务性能。其次，一些工作已经利用预训练的视觉语言模型，通过在定位数据集上微调模型来进行定位任务。

例如，谷歌的一篇 OVD 工作 OWL-ViT，将 CLIP 预训练模型去掉 Token Pooling+projection 和 Image projection，加上一个新的 Linear Projection 作为分类头与文本进行匹配，学习出每个 Patch 的语义信息。此外在将 Patch 的表征经过 MLP head 回归出相应检测狂。通过 Patch 的语义特征与 BBox 的位置最终获得目标检测框。最后，像 InstructBLIP 则将视觉数据集转换为指导调整数据集，使视觉语言模型能够用于下游任务。
在这里插入图片描述

1.3.3提示工程

提示工程主要是搭配大型语言模型（LLMs）一起使用，使它们能够完成某些特定的任务。在视觉语言模型或视觉提示模型的背景下，提示工程主要用于两个目的：

将视觉数据集转换为图像文本训练数据（例如，用于图像分类的 CLIP），为基础模型提供交互性
使用视觉语言模型进行视觉任务。

大多数视觉数据集由图像和相应文本标签组成。为了利用视觉语言模型处理视觉数据集，一些工作已经利用了基于模板的提示工程。在这种提示工程中，使用一组模板从标签生成描述。例如：

在这里插入图片描述
这种额外的上下文有助于模型学习，因此，这些文本提示可以在训练或评估期间被 VLM 所使用。下面让我们一起了解下这三类视觉基础模型。

2.基于文本提示的基础模型

在本章节中，我们专注于探讨依赖文本作为主要监督来源的方法。这些文字提示模型大致分为三个主要类型，即基于不同的训练目标：对比学习、生成学习和混合方法。

2.1基于对比学习的方法

首先，让我们一起回顾下 CLIP 架构及其衍生的变体：
在这里插入图片描述
CLIP 由 OpenAI 于 2021 年正式提出，其联合训练图像和文本编码器以预测图像与标题在批量中的正确配对。CLIP 由图像编码器和文本编码器组成。它们产生了N个图像-文本对的多模态嵌入空间。通过对称交叉熵损失来训练，以最小化N个正确图像-文本对的嵌入的余弦相似度，并最大化N²-N个不正确对的余弦相似度。作者还从互联网上策划了4亿图像-文本对的数据集。在这样的大规模数据集上训练时，表现非常出色，也激发了后续许多的工作。

此处我们集中探讨两类扩展方法，包括通用模型的对比方法和视觉定位基础模型的方法。

2.1.1基于通用模型的对比方法

在这里插入图片描述

在这里插入图片描述
此外还有基于掩码对比学习的方法，这是一种通过遮挡输入像素来提高对比学习效率的有效方法。下面我们也将介绍几种典型方法。

在这里插入图片描述

在这里插入图片描述
很多的方法，总体而言，这些方法通过各种技术，如调整架构，改进对比目标，引入噪声鲁棒性，和探索多模态交互等，不断推动了 CLIP 及其变种的发展。这些努力已经展示了在许多任务上，包括零样本分类和图像-文本检索任务等方面，如何改善模型的性能，从而使这些模型在计算机视觉和自然语言处理的交叉领域中变得越来越重要。

2.1.2基于视觉定位基础模型的方法

在这里插入图片描述
首先我们看下上图展示的结果，可以观察到，原始的 CLIP 模型其实是不擅长视觉定位任务的，特别是针对语义分割这种像素级定位任务来说。

在这里插入图片描述

简单来说，以上讨论涵盖了一系列现代基础模型研究，这些方法试图通过对比学习、掩码学习、扩展和复现等技术来改进CLIP和其它基础模型。这些工作不仅推动了大规模图像-文本建模的前沿，还为诸如目标检测、语义分割等特定视觉任务的解决方案提供了新的方法和框架。

2.2基于生成式的方法

基于生成式方法的视觉基础模型的总结涵盖了多个领域和方向，下面笔者简单归纳总结下。

首先是结合大语言模型(Large Language Model, LLM)的多模态学习范式：

结合上下文的多模态输入学习：例如 Frozen 方法将图像编码器与 LLM 结合，无需更新 LLM 的权重，而是在带有图像标注的数据集上训练视觉编码器。类似地，Flamingo 模型采用了固定的预训练视觉和语言模型，并通过Perceiver Resampler进行连接。
使用LLM作为其它模态的通用接口：如MetaLM模型采用半因果结构，将双向编码器通过连接层连接到解码器上，可实现多任务微调和指令调整零样本学习。此外，KOSMOS系列也在LLM上整合了多模态学习的能力。
开源版本的模型：如OpenFlamingo，是Flamingo模型的开源版本，训练于新的多模态数据集。

其次我们来看下视觉-语言对齐与定位相关的模型：

在这里插入图片描述
此外还有与对比学习的比较与结合：

总体而言，上述的方法和模型通过在视觉条件下训练语言生成任务，为 LLM 增添了“看世界”的能力。这些工作在视觉语言任务，如图像标注、多模态对话和理解等方面取得了显著进展，有的甚至在少样本情况下达到或超越了最先进的性能。通过将视觉和语言模态结合，这些模型为计算机视觉和自然语言处理的交叉领域提供了强大的新工具。

2.3基于对比学习和生成式的混合方法

通用视觉-语言学习的基础模型：

UNITER：结合了生成（例如掩码语言建模和掩码区域建模）和对比（例如图像文本匹配和单词区域对齐）目标的方法，适用于异构的视觉-语言任务。
Pixel2Seqv2：将四个核心视觉任务统一为像素到序列的接口，使用编码器-解码器架构进行训练。
Vision-Language：使用像 BART 或 T5 等预训练的编码器-解码器语言模型来学习不同的计算机视觉任务。

在这里插入图片描述

2.4基于对话式的视觉语言模型

在这里插入图片描述

综上所述，基于对话的视觉语言模型在理解、推理和进行人类对话方面取得了显著进展。通过将视觉和语言结合在一起，这些模型不仅在传统 NLP 任务上表现出色，而且能够解释复杂的视觉场景，甚至能够与人类进行复杂的多模态对话。未来可能会有更多的工作致力于提高这些模型的可解释性、可用性和可访问性，以便在更广泛的应用领域中实现其潜力。
在这里插入图片描述

3.基于视觉提示的基础模型

这一块内容我们先为大家阐述几个代表性的基于视觉提示的基础模型，如 SAM 和 SEEM 等；随后再介绍基于 SAM 的一系列改进和应用，例如用在医疗、遥感、视频追踪等领域；最后再简单介绍下几个通用的扩展。

3.1视觉基础模型

3.1.1 CLIPSeg

在这里插入图片描述

3.1.2 SegGPT

在这里插入图片描述

3.1.3 SAM

在这里插入图片描述

3.1.4 SEEM

在这里插入图片描述

3.2 SAM的改进与应用

SAM for Medical Segmentation

在这里插入图片描述

总体来说，通过各种微调、适配和修改方法，SAM 已被成功适应了用于医学图像分割的任务，涵盖了从器官、病变到组织的不同医学图像。这些方法也突出了将自然图像的深度学习技术迁移到医学领域的潜力和挑战。在未来，SAM 及其变体可能会继续推动医学图像分析领域的进展。

SAM for Tracking

在这里插入图片描述

SAM 在视频对象跟踪和分割方面的应用表明了其作为分割基础模型的潜力。尽管有一些挑战，特别是在未见数据和零样本场景下，但通过与现成的跟踪器的结合以及稀疏点跟踪的使用，SAM 能够实现在视频中跟踪和分割对象。这些方法为计算机视觉社区提供了一个实现通用场景中任意对象跟踪的有力工具，有助于推动视频分析和监控等领域的进展。

SAM for Remote Sensing

SAM 在遥感图像分割方面的应用集中在通过点、框和粗粒度掩码的引导来理解和分割遥感图像。以下是 SAM 在遥感分割方面的应用以及相关挑战。

SAM在遥感分割的基本应用

交互性质：由于 SAM 的交互特性，它主要依赖于点、框和粗粒度掩码的手动引导。
限制：

全自动分割困难：SAM在完全自动地理解遥感图像方面效果不佳。
结果依赖性：SAM的结果严重依赖于用于分割遥感图像目标的提示的类型、位置和数量。
手动提示优化需求：要实现理想的结果，通常需要对手动提示进行精炼。

学习生成提示：RsPrompter 提出了一种学习生成适当的SAM输入提示的方法。生成提示包含的信息：通过分析编码器的中间层来生成包含关于语义类别的信息的提示，并生成提示嵌入，这可以视为点或框嵌入。目标：通过自动化生成适当的输入提示，RsPrompter 试图克服 SAM 在遥感图像分割方面的局限性。

尽管 SAM 在遥感图像分割方面存在一些限制，主要与其交互性质和对手动引导的依赖有关，但通过引入如 RsPrompter 这样的方法，可以利用 SAM 实现遥感图像的自动实例分割。这些努力标志着朝着减少人工干预和提高遥感图像分析自动化的方向迈出的重要一步，有势必推动遥感科学、地理信息系统（GIS）和环境监测等领域的进展。

SAM for Captioning

SAM 与大型语言模型如 ChatGPT 的组合在可控图像字幕（controlled image captioning）方面开辟了新的应用领域。下面概述下这种组合在图像字幕上的具体应用。

先给大家介绍下概念，可控图像字幕使用自然语言来根据人类目标解释图像，例如检查图像的某些区域或以特定方式描述图像。然而，这种交互式图像字幕系统的可扩展性和可用性受到缺乏良好注释的多模态数据的限制。一个典型的案例便是 Caption AnyThing，下面一起看看。
在这里插入图片描述
概述：Caption AnyThing 是一种零样本图像字幕模型，通过与 SAM 和大型语言模型（例如ChatGPT）结合，使用预训练的图像字幕器实现。

工作流程：

定义视觉控制：用户可以通过视觉提示定义视觉控制。
使用SAM转换为掩码：视觉提示随后使用SAM转换为掩码，以选择感兴趣的区域。
预测原始字幕：基于原始图像和提供的掩码，图像字幕器预测原始字幕。
文本优化：使用大型语言模型（例如ChatGPT）的文本精炼器，根据用户的偏好定制语言风格，从而优化原始描述。

结果：用户可以通过控制视觉和语言方面，更精确地描述图像中的特定部分或属性。

优势和意义

用户自定义：通过允许用户定义视觉和语言控制，提供了高度定制的解释。
灵活性和准确性：通过结合视觉分割和自然语言处理，增强了描述的灵活性和准确性。
零样本学习：由于是零样本模型，因此可以在未经特定训练的新图像和场景上工作。

通过结合 SAM 的图像分割能力和大型语言模型如 ChatGPT 的自然语言处理能力，Caption AnyThing 为可控图像字幕开辟了新的可能性。这不仅增强了字幕的灵活性和准确性，还允许用户定制语言风格和焦点，从而促进了交互图像分析和解释的发展

SAM for Mobile Applications

这一节我们重点梳理下 SAM 的一些移动端应用，主要就是加速 SAM 的推理和提升 SAM 的分割质量。

在这里插入图片描述
FastSAM 基于 YOLOv8-seg 实现，它比 SAM 快50倍，且训练数据只有SAM的1/50，同时运行速度不受 point 输入数量的影响

在这里插入图片描述
MobileSAM：将原始 SAM 中的图像编码器 ViT-H 的知识蒸馏到一个轻量化的图像编码器中，该编码器可以自动与原始 SAM 中的 Mask 解码器兼容。训练可以在不到一天的时间内在单个 GPU 上完成，它比原始 SAM 小60多倍，但性能与原始 SAM 相当。

在这里插入图片描述
RefSAM：这是一种高效的端到端基于 SAM 的框架，用于指代视频对象分割（RVOS）。它使用了高效且轻量级的CrossModal MLP，将指代表达的文本特征转换为密集和稀疏的特征表示。

在这里插入图片描述
HQ-SAM: HQ-SAM 为了实现高质量的掩膜预测，将 HQ-Output Token（高质量输出标记）和全局-局部特征融合引入到SAM中。为了保持SAM的零样本能力，轻量级的 HQ-Output Token 复用了 SAM 的掩膜解码器，并生成了新的 MLP（多层感知器）层来执行与融合后的 HQ-Features（高质量特征）的逐点乘积。在训练期间，将预训练的 SAM 的模型参数固定，只有 HQ-SAM 中的少数可学习参数可以进行训练。

3.3 通才模型

这一类主要描述如何使用上下文学习快速适应具有不同提示和示例的各种任务。这里特别突出了几个被称为通才模型（Generalist Models）的模型，它们可以执行多个任务，甚至可以通过提示和少量特定于任务的示例来适应新任务。

Painter

在这里插入图片描述

VisionLLM

在这里插入图片描述

Prismer

在这里插入图片描述

通才模型表示了一种通用的趋势，其中模型可以通过改变输入或少量特定于任务的训练来适应新的或多样化的任务。这些模型在解决问题时可以灵活地适应，克服了单一任务模型的限制。尤其是在输出表示在任务之间有很大差异的计算机视觉中，这一点变得尤为重要。通过简化训练目标和建立跨任务的框架，这些通才模型为未来计算机视觉任务的多功能性提供了新的机会。

4.综合性基础模型

4.1基于异构架构的基础视觉模型

在这一部分，我们集中讨论不同的基础视觉模型，这些模型通过对齐多个成对的模态，如图像-文本、视频-音频或图像-深度等，来学习更有意义的表示。

4.1.1 CLIP 与异构模态的对齐

在这里插入图片描述

4.1.2 学习共享表示的多模态模型

在这里插入图片描述

4.1.3 视频和长篇幅文本的处理

在这里插入图片描述

这一节主要强调了将不同的感知模态（如视觉、听觉和文字）结合到统一框架中的重要性。通过跨模态学习和对齐，这些模型不仅提高了特定任务的性能，还扩展了多种模态的零样本学习能力。此外，考虑到视觉和听觉之间的时序一致性也是重要的创新方向。通过强调如何整合这些不同的输入形式，本节揭示了深度学习在处理更复杂和多样化数据方面的潜力。

4.2 基于代理的基础视觉模型

基于代理的基础视觉模型将语言学习模型（LLMs）与现实世界的视觉和物理传感器模式相结合。这不仅涉及文字的理解，还涉及与现实世界的互动和操作，特别是在机器人操作和导航方面。

4.2.1 机器人操控

在这里插入图片描述

4.2.2 持续学习者

在这里插入图片描述

4.2.3 导航规划

在这里插入图片描述
总体而言，基于代理的基础视觉模型突出了语言模型在现实世界任务中的潜力，如机器人操作、持续学习和复杂导航。它们不仅推动了机器人技术的进展，还为自然语言理解、多模态交互和现实世界应用开辟了新的研究方向。通过将预训练的大型语言模型与机器人技术和视觉导航相结合，基于代理的基础视觉模型能够解决现实世界中的复杂任务，展示了人工智能的跨学科整合和应用潜力。