探索多模态预训练：MAnTiS、ActionCLIP、CPT与CoOp的Prompt技巧

news2026/2/16 14:15:53

上一篇博文整理了
预训练新范式（Prompt-tuning，Prefix-tuning，P-tuning）
，主要是围绕NLP上的成果，具体的概念本文也不做过多赘述。本篇文章将主要整理几篇有代表性的Prompt方法在多模态领域中的应用。

Multimodal Conditionality for Natural Language Generation

Prompt用于Natural Language Generation多模态NLG任务。

先从NLG任务过渡到Vision-language的应用吧，这篇文章主要是利用图片信息来增强文本的生成。如上图，在生成商品介绍文案时，如果能结合商品的图片，必然能够得到更贴切的文案。然后本文使用了一个十分直观的Prompt方法，将多模态序列作为前缀Prompt放到decoder输入序列的前面，进而中解码过程中分享多模态信息即可。具体操作如下图：

输入由multimodal conditioning data和generation组成。左边的multimodal的输入是image和text（即商品title），分别用ResNet-152和embedding映射到语言模型的同一个空间中。同时作为条件的文本输入和生成序列一同进行编码。最后再经过Transformer Decoder得到输出的描述。

paper：https://arxiv.org/pdf/2109.01229.pdf

ActionCLIP: A New Paradigm for Video Action Recognition

Prompt用于Action Recognition动作识别问题。

动作识别问题是一个很CV的任务了，一般的方式是采用上图（a）所示的单模态框架，即先理解视频内容，再预测一组固定的预定义类别。但但但其完全忽略了标签label所包含的语义信息（人类做识别的时候会很自然的对比脑海中的相关语言概念），只将标签映射到一个固定维数的空间中，无迁移/预测能力。
因此作者提出图（b）所示的Prompt新框架，即在输入端就纳入label信息，将其与对应的视频特征进行关联。这样做不仅可以增强视频表征的语义性，同时能够具备很强的zero-shot的迁移能力。另一个优势是，这种多模态输入完全可以利用现在已经做了大量工作的多模态预训练模型。关于
多模态预训练
模型博主过往文章做过整理，不再赘述。

作者提出的新范式的具体做法大概可以分为 “pre-train, prompt, and fine-tune”，模型图如下。pre-train指利用现有的多模态预训练模型，然后改装我们的任务适应模型，最后再在自己的数据集上进行fine-tune。这样的做法，通过prompt保持住pre-trained模型的强大表征性能，又节省了很多的计算资源。

具体的框架图不太容易看，主要先看图a是主框架部分。主框架分别对视频和文本做两种Prompt。分别是textual prompt和visual prompt。

textual prompt。这是我们比较熟悉的模式，不过作者提供了三种模式：prefix prompt, cloze prompt and suffix prompt。这个在之前的
综述博文
中都有提到过了。比如label是“watering plants”，那么输入的句子将被改装成“play a human action of [watering planrts]”。具体可以看图b的示意。然后通过encoder得到表示。
visual prompt。为了充分理解视频，它分为三个大部分：pre-network prompt, in-network prompt and post-network prompt。pre-network（图c）主要对输入部分进行改动，对所有的输入帧的所有patch都进行时间+空间的位置编码，进行attention计算。in-network（图d）在相邻层间插入temporal shift模块便于相邻帧间的特征交换。post-network（图e-g）是四种对不同时间片段的tokens进行交互建模的模块，MeanP指时间维度上的Mean pooling，Conv1D/LSTM是应用于时间维度上的一维卷积或LSTM，Transf是vision transformer encoder。

然后拿到这两部分的特征之后，再做相似度的计算得到最后的动作识别结果。

paper：https://arxiv.org/abs/2109.08472

code:https://arxiv.org/abs/2109.08472

CPT：Colorful Prompt Tuning for Pre-Training Vision-Language Models

Prompt用于Visual Grounding视觉定位问题。

这篇文章提出的Prompt方法是Colorful Prompt Tuning（彩色提示调优），它主要的思路是在图像和文本中使用共同的颜色来标识，以将视觉定位问题变成填空问题来解决跨模态差异。与以往路线的不同如上图所示：

图a和图b是传统的视觉定位方法。a是指先用大量的数据来预训练，即使用[mask]机制来盖住token，然后还原信息以提升表示的质量。
图b是fnetune，图中画的路线是使用[CLS]做二分类来判断定位的问题。
图c是本文的CPT方法咯。很直观的可以看到它用不同颜色来区分不同的实体模块，然后构建一个Prompt模版为： xxx is in [mask] color，然后在[mask]上预测对应的该是哪个颜色即可。

同时由于Prompt这种范式自身拥有的生成能力，使得CPT改装一下也可以在其他视觉任务上进行应用，如下图所示。如果做目标检测是 xxx is a [mask]等等。

paper：https://arxiv.org/pdf/2109.11797.pdf

CLIP

在整理CoOp前还是放一下经典的CLIP，更完整的整理在
传送门
，CLIP中用到Prompt的地方也是它处理句子-图像对的方式，如下图所示，dog 这一label会被改造成 “A photo of a dog”，然后被mask，再尝试通过模型算内积相似度来预测出这个词，也就能做好分类了，由于是生成句子的感觉，所以其实CLIP是十分适合做zero-shot 的分类的。

Learning to Prompt for Vision-Language Models

CLIP实际上就是prompt在visual-language model中的一个应用，所以CoOp实际是在CLIP的基础上进一步进行的改进。不过它受到了AutoPrompt的启发会更多一些，前面的一些工作的Prompt方式都是基于人工模版（如xxx is [label]），连续型自动模版的Prompt会是更加不错的选择。所以CoOp的结构可以如下图所示，前面是一个learnable context，而不是人工模版。

然后这个[class]信息（即label）可以放到生成的虚拟模板的中间，前面和后面都可以，因为后续的一些连续型自动模版Prompt的研究都证明了模型是不一定需要符合自然语言的连贯性的。learnable context将和不同类别的word embedding拼接之后再进行后面的过程。然后其他地方，image encoder和text encoder和CLIP都比较类似，优化的目标也是使得和图片对应的prompt预测分数最大。

另外还有两种有意思的变体：