Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

1、基本信息

作者：Yan Ling, Jianfei Yu, Rui Xia
会议：ACL 2022
单位：南京理工大学

2、主要框架

任务：Multimodal Aspect-Based Sentiment Analysis(MABSA)
1. Multimodal Aspect Term Extraction(MATE)
  - input: text-image pair
  - output: aspect terms(mentioned in the text)
2. Multimodal Aspect-oriented Sentiment Classification(MASC)
  - input: extracted aspect term
  - output: sentiment class
3. Joint Multimodal Aspect-Sentiment Analysis(JMASA)【如下图1所示】
  - input: text-image pair
  - output: aspect-sentiment pairs

问题
1. 现有方法要么分别使用预训练的视觉、文本模型，忽略了模态间的对齐关系。
2. 要么使用经通用预训练任务的视觉-语言模型，不足以识别细粒度的aspect、opinion和模态间的对齐关系。
方法
- A task-specific Vision-Language Pre-training framework for MABSA(VLP-MABSA)
  - BART-based generative multimodal architecture
  - 所有预训练任务和下游任务都可以通用的（unified）多模态encoder-decoder 架构
- 3类task-specific 预训练任务
  1. Language
    - Masked Language Modeling(MLM)
    - Textual Aspect-Opinion Extraction(AOE)
  2. Vision
    - Masked Region Modeling(MRM)
    - Visual Aspect-Opinion Generation(AOG)
  3. Multimodal
    - Multimodal Sentiment Prediction(MSP)
实验结果：超过SOTA

3. VLP-MABSA

模型骨干是BART，a denoising autoencoder for sequence-to-sequence models。将其扩展为同时编码文本和视觉输入，可解码不同模态的预训练任务或下游任务。

3.1. Feature Extractor

Image Representation：用Faster R-CNN抽取的mean-pooled convolutional features作为视觉特征。
1. 抽取并取置信度前36个regions，即 $R=\{r_1, ..., r_{36}\}$ ，并保留其semantic class distribution，记为 $q (v)$ （用于MRM）。
2. 每个region的视觉特征向量的维度本来是2048，即 $r_i \in \mathbb R^{2048}$ ，为了和文本特征一致，再用linear transformation layer投影成d维向量，即 $\in \mathbb R^{d \times 36}$ 。
Text Representation：Embedding Matrix
1. 句子分词成tokens， $E=\{e_1, ..., e_T \}$ 记录其下标序列， $T$ 是文本长度。
2. 从Embedding Matrix中取相应tokens的embeddings，即 $W=\{ w_1, ..., w_T\}$ 。

3.2. BART-based Generative Framework

Encoder：多层双向Transformer
1. 在编码器的输入端，分别用和，和标识visual features，textual input的起始和结束。
3. $X$ 表示concatenated的多模态输入。
Decoder：多层单向Transformer
1. 在解码端的输入端，因为所有预训练任务共享同样的解码器，为标识不同预训练任务，分别都用两个special tokens作为解码器输入的开始。
  - <bos><mlm>, <bos><aoe>, <bos><mrm>, <bos><aog>和 <bos><msp>分别是5个预训练任务的special tokens。

3.3. Pre-training Tasks

Original dataset: MVSA-Multi
- input: image-text pairs
- output: coarse-grained sentiments

3.3.1 Textual Pre-training

Masked Language Modeling(MLM)：对齐文本和视觉特征
- mask的策略和BERT一样；
- 损失函数如下， $\widetilde {X}$ 指的是masked的拼接后的多模态输入 $X$ 。
  $L_{MLM}=-\mathbb E_{X \sim D} \sum_{i=1}^{T} log P(e_i|e_{<i}, \widetilde{X})$
Textual Aspect-Opinion Extraction(AOE)：生成文本中的aspects和opinions
1. 数据集中不提供aspect和opinion的标注，需用其他的方法构造监督信号。
  1. Aspect：一个Named Entity Recognition（NER）工具中的预训练模型(2011)
  2. Opinion：a sentiment lexicon(SentiWordNet)(2006)
2. an index generation task：生成所有aspects和opinions的起止下标。
  1. target标注 $Y=[a_1^s, a_1^e, ..., a_M^s, a_M^e, <sep>, o_1^s, o_1^e, ..., o_N^s, o_N^s, <eos>]$ ，其中 $M ， N$ 指aspect terms 和opinion terms的数量， $a^s, a^e$ 和 $o^s, o^e$ 分别是每个的起止下标。、标识分割、结束。
  2. 例子如图所示：
  3. 公式流程：得到token的概率分布。
    1. $h_t^d = Decoder(H^e;Y_{<t})$ 。 $H^e$ 指编码器的输出， $Y_{<t}$ 指解码器t时前的输出。
    2. $\overline{H}_T^e=(W+H_T^e)/2$ 。一个文本一个固定的值。 $H_T^e$ 指 $H_T$ 对应的文本部分。
    3. $P(y_t)=Softmax([\overline{H}_T^e;C^d]h_t^d)$ 。 $C_d$ 指 $C = [< s e p >, < e o s >]$ 的d维embeddings。
  4. 损失函数如下， $O = 2 M + 2 N + 2$ 指target标注 $Y$ 的长度。
  $L_{AOE}=-\mathbb E_{X \sim D} \sum_{t=1}^OlogP(y_t|Y_{<t},X)$

3.3.2 Visual Pre-training

用以下两个任务捕获图像中的主体和客体信息

Masked Region Modeling(MRM)：预测masked region的semantic class distribution
1. 在编码器输入端，regions以15%的概率随机被mask，相应的特征会改为零向量。
2. 在解码器输入端，masked region的提示词为，其余为。
3. 在解码器输出后，所有的会追加一个MLP分类器，用以预测其semantic class distribution，记为 $p (v)$ 。
4. 损失函数：减少预测分布和target分布的KL散度。Z指masked regions的数量。
  $L_{MRM}= \mathbb E_{X\sim D}\sum_{z=1}^ZD_{KL}(q(v_z)||p(v_z))$
5. 例子如图所示
Visual Aspect-Opinion Generation(AOG)：生成图像中的aspect-opinion对
1. 监督信号
  1. Adjective-Noun Pair(ANP)（2013）：如smiling man and beautiful landscape，分别能捕获细粒度的aspects 和opinions，因此将其作为图像中的aspect-opinion对。
  2. 用一个预训练ANP检测器DeepSentiBank（2014），预测2089个预先定义的ANPs的类分布，概率最高的ANP作为监督信号。
2. a sequence generation task
  1. $G=\{g_1,...,g_{|G|}\}$ 指target ANP的tokens， $∣ G ∣$ 指ANP tokens的数量
  2. 公式流程：
    1. $h_i^d=Decoder(H^e;G_{<i})$
    2. $P(g_i)=Softmax(E^Th_i^d)$ ；E指词汇中所有tokens的embedding matrix。【跟之前E的定义不一样？词汇中是所有词典还是输入文本的词？】
  3. 损失函数：
    $L_{AOG}=-\mathbb E_{X\sim D}\sum_{i=1}^{|G|}logP(g_i|g_{<i},X)$
  4. 例图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7W2DprLy-1668692099370)(C:/Users/26282/AppData/Roaming/Typora/typora-user-images/image-20221112163228101.png)]

3.3.3 Multimodal Pre-training

不像前两类预训练任务，MSP的监督信号是多模态的。识别文本和视觉的客观信息，以及他们之间的对齐关系。

Multimodal Sentiment Prediction(MSP)
1. MVSA-Multi数据集提供粗粒度的情感标签，将其作为监督信号。
2. a classification task
  1. 公式流程：
    1. $h_{msp}^d=Decoder(H^e;E_{msp})$ ； $E_{msp}$ 指两个special tokens相应的embeddings
    2. $P(s)=Softmax(MLP(h_{msp}^d))$ ；s指相应的情感标签
  2. 损失函数：
    $L_{MSP}=-\mathbb E_{X\sim D}logP(s|X)$
  3. 例图

3.3.4 Full Pre-training Loss

目标函数
$L=\lambda_1L_{MLM}+\lambda_2L_{AOE}+\lambda_3L_{MRM}+\lambda_4L_{AOG}+\lambda_5L_{MSP}$

3.4 Downstream Tasks

下游任务：MABSA的3个子任务，即Joint Multimodal Aspect-Sentiment Analysis(JMASA)，Multimodal Aspect Term Extraction(MATE)，和Multimodal Aspect-oriented Sentiment Classification(MASC)。
模型：和预训练任务一样
模型输出
- JMASA： $Y=[a_1^s,a_1^e,...,a_i^s,a_i^e,s_i,...]$ ， $a_1^s, a_i^e,s_i$ 分别指文本中某aspect的起止下标和情感。
- MATE： $Y=[a_1^s,a_1^e,...,a_i^s, a_i^e]$ 。
- MASC： $Y=[\underline {a_1^s},\underline {a_1^e},s_1,...,\underline {a_i^s},\underline {a_i^e},s_i,...]$ ，下划线表示推理时是已知的。
index generation tasks
- 与AOE一样的公式流程，除了special token集合 $C = [< P O S >, < N E U >, < N E G >, < E O S >]$ 改成了感情类别。
- JMASA图例

4. 实验

4.1 Experimental Settings

Dataset

下游数据集使用TWITTER-2015和TWITTWE-2017评估VLP-MABSA模型

4.2 对比实验

JMASA

从text-based methods的对比可以看出VLP-MABSA中基础模型BART的优越性
Multimodal methods中JML采用了辅助任务来检测图像与文本的关系，超越了此前所有方法；而VLP-MABSA的F1得分比它分别高了2.5和2.0，这可以归功于3类task-specifc 预训练任务识别了aspects、opinion和模态间的对齐关系。