本文作为大模型综述第三篇,介绍语言大模型多模态技术。
不同于语言大模型只对文本进行处理,多模态大模型将文本、语音、图像、视频等多模态数据联合起来进行学习。多模态大模型融合了多种感知途径与表达形态, 能够同时处理和理解来自不同感知通道(例如视觉、听觉、语言和触觉等)的信息,并以多模态的方式表达输出。
目录:
1.多模态大模型的技术体系
2.多模态大模型的网络结构设计
1.多模态大模型的技术体系
现有的多模态大模型主要有面向理解任务的、面向生成任务的、兼顾理解和生成的、知识增强的多模态大模型。
面向理解任务的多模态大模型
面向理解任务的多模态大模型,其核心结构通常是 基于Transformer 的编码器。按照模型结构的不同,面向理解任务的多模态大模型又可再分为单流和多流两种结构。单流结构是指不同模态的特征在拼接后由一个共享的 Transformer 网络进行处理;而多流结构中,不同模态则分别由Transformer 网络进行编码处理,这些网络之间存在有一些特征上的交互融合机制。多流结构的一个典型代表是图文理解模型 ViLBERT,它采用了一种双流 Transformer 的结构,首先将文本和图像数据分别输入两个独立的 Transformer 编码器,接着使用互注意力 Transformer (Co-Attention
Transformer)层将文本和图像特征进行融合,最后所得到文本-图像特征可以被应用到视觉问答、 图像描述生成等不同的多模态的任务中。 多流结构的另一个代表是 OpenAI 公司的 CLIP模型,它采用两个独立的编码网络对图像和文本进行特征抽取,并通过对比学习将两者的特征嵌入到共享的语义空间中。 CLIP 基于 4 亿图文对进行训练,可以从自然语言监督中有效地学习视觉概念,从而获得泛化性能极强的零样本(zero-shot)分类能力。 另一个与 CLIP 类型的代表性方法ALIGN[, 使用对比损失训练了一个简单的双编码器模型,利用包含超过 10 亿个噪声图像-文本对的数据集来扩展视觉和视觉语言表征学习。 CLIP 是个图文双流结构,而 VATT[67]则是针对视频-文本-音
频数据的多流模型。与 CLIP 类似, VATT 将每个模态线性投影为特征向量,然后将其分别送到 Transformer 编码器中,并将编码后的特征在语义分层的不同粒度空间中通过对比学习来训练模型。
单流结构的一个典型代表是 VL-BERT,它将图像的描述文本和关键物体的区域特征拼接后作为 BERT 网络的输入,通过掩码掉部分文本输入和图像输入并预测所缺失的信息来进行模型训练。 此外,另一代表性方法 UNITER ,则采用了一种多任务的多模态预训练方法,相对于其它方法, 该模型增加了单词与图像区域的匹配模块,来更进一步建立图像与文本的细粒度关联。 在视频领域,单流结构的代表性方法有 VideoBERT和 ActBERT,其中 VideoBERT 是一个视频-语言模型,它融合了文本和视频作为 BERT 网络的输入;而ActBERT 采用了一种全局-局部关系的建模方法,输入不止包括文本和视频的全局信息, 还利用了视频帧中的局部信息来加强对于视频内容的理解。现有的面向理解任务的多模态大模型大多都以上面两类结构为基础,此外,也有不少方法在预训练任务上进行研究,引入更多的预训练任务或设计统一的架