transformer模型刚开始使用在NLP自然语言处理的机器翻译实例上,但是随着注意力机制的算法越来越火,根据transformer模型的魔改模型也越来越多,首先便是Google自己发布的VIT模型,把transformer注意力机制应用到计算机视觉任务上。那么transformer模型是否也同样适用于多模态模型呢?本期我们就介绍一下基于transformer模型的文本与图片多模态模型--ViLT。
ViLT 是一种简单的视觉和语言模型架构,其框架使用transformer模型的encoder编码器来提取和处理视觉特征,而不是单独的计算机视觉模型来提取特征,比如CNN卷积等。模型第一次在不使用区域特征或深度卷积特征提取的情况下在视觉和语言任务上都取得了良好的表现。
可以从模型框图上,我们可以看到ViLT把文本使用word embedding进行数据的特征转换,并加上位置编码传递给transformer模型的encoder编码器进行特征提取,图片部分使用VIT模型的patch embedding,并添加位置编码,最后同样传递给transformer模型的encoder编码器进行注意力机制的计算。从运算速度来看,其模型在对比ViLBERT,UNITER等模型上大大提高了运行效率。