题目	A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition
译题	基于自注意和残差结构的跨模态情感识别融合网络
时间	2021年
代码	https://github.com/skeletonNN/CFN-SR

A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition

摘要：基于音视频的多模态情感识别由于其强大的性能而引起了人们的广泛关注。现有的方法大多侧重于提出不同的跨模态融合策略。然而，这些策略在没有充分考虑模态信息之间的互补特性的情况下，在不同模态的特征中引入了冗余，并且这些方法不能保证在模态内和模态间交互过程中不丢失原始语义信息。在本文中，我们提出了一种新的基于自注意和残差结构的跨模态融合网络（CFN-SR），用于多模态情感识别。首先，我们分别通过有效的 ResNeXt 和 1D CNN 对音频和视频模态进行表示学习，以获得这两种模态的语义特征。其次，我们将两种模态的特征分别输入到跨模态块中，以确保信息的有效互补性和完整性。最后，我们通过将获得的融合表示与原始表示拼接来获得情感的输出。为了验证所提出方法的有效性，我们在 RAVDESS 数据集上进行了实验。实验结果表明，所提出的 CFN-SR 达到了最先进的水平，在 26.30M 的参数下获得了 75.76% 的准确率。

1 Introduction

多模态情感识别因其高性能和鲁棒性而备受关注[1]，应用于人机交互和社交机器人等各个领域[2]。多模态情感识别的主要目标是从视频序列中获得人类的情感表达。人类主要通过多种方式表达情感，如言语[3]、肢体手势[4]、面部表情[5]和文本[6]。尽管许多研究采用了更复杂的模态，但视频和音频仍然是这项任务的主要模态，因为它们能够充分传达情感。因此，在这项工作中，我们专注于基于音频-视频的多模态情绪识别。

在现有的研究中，多模态情感识别可以根据模态信息融合方法进行分类：早期融合[7]、晚期融合[8，9]和模型融合[10，11]。早期融合是将多个模态数据提取并构造成相应的模态特征，然后将它们拼接成一个集成每个模态特征的特征集。晚期融合是找出每个模型的合理性，然后进行协调并做出联合决策。最近，随着 Transformer [12]在自然语言处理和计算机视觉任务中的发展，模型融合通常使用Transformer进行跨模态交互，由于融合位置的灵活性，性能显著提高。对于音频-视频情感识别，[13]引入了 Transformer 来融合音频和视频表示。[14]探讨了不同的跨模态融合策略。[10] 提出了一种新的表示融合方法——胶囊图卷积（CapsGCN），将图胶囊网络用于音频和视频情感识别。

然而，现有的方法忽略了不同模态之间的互补信息，最终决策往往需要两个模态特定特征以及融合特征的联合决策。补充信息确保在添加融合模块时性能有所提高。此外，现有方法的融合方式仍存在大量冗余。一些模型仅被缝合在一起用于最终结果输出，并且缝合的结果将具有许多重复的表示，并且在缝合之前需要过滤特征信息以进一步减少冗余特征。此外，现有的方法不能保证特征学习过程中的信息完整性，模态内和模态间信息的学习往往会丢失一些语义信息。

为了解决上述问题，我们提出了一种新的基于自注意和残差结构的跨模态融合网络（CFN-SR），用于多模态情感识别。具体来说，我们首先对音频模态和视频模态进行表示学习。视频帧序列的时空结构特征是通过 ResNeXt [15]获得的。音频序列的 MFCC 特征是通过简单有效的 1D CNN 获得的。其次，我们将特征分别输入到跨模态块中，并通过自注意机制使音频模态进行模态内特征选择，这将使所选择的特征能够在模态之间自适应且高效地与视频模态交互。残余结构可以确保视频模态的原始结构特征的完整性。最后，我们通过拼接获得的融合表示和原始表示来获得情感的输出。我们将该模型应用于 RAVDESS [16]多模态情绪识别数据集，实验结果表明，我们提出的 CFN-SR 更有效，与其他模型相比，我们的方法达到了最先进的水平，获得了 75.76% 的准确率和 26.30M 的参数数。

2 Methodology

如图 1 所示，我们设计了一个基于自注意和残差结构的跨模态融合网络。首先，我们使用 3D CNN 来获得视频特征，使用 1D CNN 来获得音频特征。然后，我们通过跨模态融合块获得两种模态的模态间和模态内融合表示。最后，我们通过将获得的融合表示与原始表示拼接来获得情感的输出。我们将在下面详细描述这一过程。

2.1 音频 Encoder

对于音频模态，最近的工作[17，18]已经证明了基于梅尔频率倒谱系数（MFCC）特征的深度学习方法的有效性。我们设计了一种简单高效的 1D CNN 来进行 MFCC 特征提取。具体来说，我们使用经过特征预处理的音频模态特征作为输入，表示为 $X_A$ 。我们首先通过2层卷积运算来提取相邻音频元素的局部特征。之后，我们使用最大池来下采样，压缩特征，并去除冗余信息。具体方程式如下：
$\hat{X}_A = BN ( ReLU(Conv1D(X_A, k_A)) ) \kern10em (1) \\ \hat{X}_A = Dropout(BN(MaxPool(\hat{X}_A)) ) \kern10em (2)$
其中， $BN$ 代表批量标准化， $k_A$ 是模态音频的卷积核的大小，而 $\hat{X}_A$ 表示学习的语义特征。我们再次将学习到的特征馈送到 1D 时间卷积中，以获得音频的高阶语义特征。最后，我们对获得的特征进行展平：
$\hat{X}_A = Flatten(BN(ReLU(Conv1D(\hat{X}_A, k_A)))) \kern10em (3)$

2.2 视频 Encoder

视频数据在空间和时间维度上都是依赖的，因此需要一个具有 3D 卷积核的网络来学习面部表情和动作。我们考虑了网络的性能和训练效率，并选择 3D ResNeXt [15]网络来获得视频模态的时空结构特征。ResNeXt 在普通卷积核的深度分割卷积之间提出了一种组卷积策略，并通过控制组的数量来实现两种策略之间的平衡，结构简单但性能强大。我们使用经过特征预处理的音频模态特征作为输入，表示为 $X_V$ 。我们通过这个网络获得了视频模态的高阶语义特征：
$\hat{X}_V = ResNeXt50(X_v) \in R^{C*S*H*W} \kern10em (4)$
其中， $\hat{X}_V$ 表示学习的语义特征， $C 、 S 、 H 和 W$ 分别是通道的数量、序列长度、高度和宽度。在获得高阶语义特征后，我们将它们输入到跨模态块中，并融合音频特征表示。我们认为，最终得到的融合表示不仅包含视频模态的高阶语义特征，还包含两种模态的交互特征。之后，我们使用平均池执行下采样以减少冗余信息。

2.3 跨模态块

通过对两种模态的编码操作，我们获得了音频和视频模态的高阶语义特征。为了使最终决策更加准确，我们利用了两种模态之间互补的模态内和模态间交互信息。具体来说，我们首先通过自注意机制使音频模态进行模态内表征学习。该操作允许对音频模态的高阶语义特征进行自适应学习，使其更加关注对结果权重有更大影响的特征。继Transformer[12]之后，我们使用自注意对音频特征进行特征选择。自注意机制能够反映特征相邻元素的影响，其查询、关键字和值都是同一音频模态在不同投影空间下的表示。具体公式如下：
$softmax(\dfrac{QK^T}{\sqrt{d_k}})V \kern10em (4)$
其中 $Q ， K ， V$ 表示 $Z^{[i−1]}_A$ 。 $Z^{[i−1]}_A$ 由具有不同参数矩阵的不同投影空间表示，其中 $i$ 表示变换器注意力的层数， $i = 1, ..., D$ 。我们将学习到的权重信息馈送到全连接中，以获得特征自适应学习结果：
$\hat{X}_A = LN(Z_A^{[i]} + Feedforward(Z_A^{[i]}) ) \in R^{d_f} \kern10em(6)$
其中 $L N$ 表示层归一化， $d_f$ 表示提取的特征的维度。该操作使音频模态的高阶特征能够执行特征选择，使其更加关注对结果有更大影响的特征。

然后，我们使自动选择的特征和视频模态进行有效的模态间交互。该模块接受两种模态的输入，这两种模态被称为 $\hat{X}_A \in R^{d_f}$ 和 $\hat{X}_V \in R^{C*S*H*W}$ 。我们通过线性投影获得了两种模态的特征的映射表示。然后我们用 $a dd$ 和 $t anh$ 激活函数处理这两种表示。最后，通过软件tmax得到了融合表示的ξXo∈RC×S×H×W。我们认为，最终融合的信息不仅包含两种模态的互补信息，还包含视频模态的特征。具体公式如下：
$\hat{X}_q = tanh((W_v\hat{X}_v + b_v) + W_a\hat{X}_A) \in R^{k*S*H*W} \kern10em (7)\\ \hat{X}_o = (softmax(\hat{X}_q) \bigotimes \hat{X}_V) \bigoplus \hat{X}_V \in R^{C*S*H*W} \kern10em (8)$
其中 $W_v \in R^{k×C}$ 和 $W_a \in R^{k×d_f}$ 是线性变换权， $b_v \in R^k$ 是偏差，其中 $k$ 是预先定义的超参数， $\bigoplus$ 表示张量和向量的广播加法运算。

这种操作使高级特征能够与低级特征互补学习，从而补充了低级特征的语义特征，表达了更丰富的信息。在这个过程中，为了确保视频模态的信息不丢失，我们通过残差结构来确保视频模态原始结构特征的完整性。

2.4 分类

最后，我们通过拼接所获得的融合表示和原始表示来获得情绪 $I=[\hat{X}_o, \hat{X}_A]$ 的输出。利用交叉熵损失对模型进行了优化。具体方程式如下：
$W_1I + b_1 \in R^{d_out} \kern10em(9)\\ L = -\displaystyle\sum_i y_ilog(\hat{y}_i) \kern15em(10)$
其中， $d_{out}$ 是情绪类别的输出维度， $W_1 \in R^{d_{out}}$ 是权重向量， $b_1$ 是偏差， $y={y_1, y_2, …, y_n}^T$ 是情绪标签的 $o n e - h o t v ec t or$ ， $y={y_1, y_2, …, y_n}^T$ 是预测的概率分布， $n$ 是情绪类别数。

3 实验

3.1 数据集

Ryerson 情感语音和歌曲视听数据库（ $R A V D ESS$ ）[16]是一个多模态情感识别数据集，包含 1440 个简短演讲视频剪辑中的 24 名演员（12 名男性，12 名女性）。数据集是在演员被告知要表达的情绪时执行的，在视频和音频记录方面都具有高质量。数据集中包括八种情绪：中性、平静、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。

3.2 实现细节

对于视频模态，我们从每个视频中提取 30 个连续的图像。我们使用为每个图像提供的2D面部标记来裁剪面部区域，然后调整大小为（224*224）。数据扩充是使用随机裁剪、级别翻转和规范化方法进行的。对于音频模态，由于前 0.5 秒通常不包含声音，因此我们修剪前 0.5 秒，并在接下来的 2.45 秒内保持一致。根据[19]的建议，我们为每个裁剪的音频片段提取前 13 个 MFCC 特征。

我们对 RAVDESS 数据集进行了 5 倍的交叉验证，以提供更稳健的结果。我们将 24 名演员按 $5 : 1$ 的比例分为训练组和测试组。由于演员的性别由偶数或奇数个演员 $I D$ 表示，我们通过旋转 4 个连续的演员 $I D$ 作为交叉验证的每个折叠的测试集，使性别能够均匀分布。该模型使用 Adam 优化器[20]进行训练，学习率为 0.001，模型的整个训练在单个 $N V I D I A RTX 8000$ 上完成。报告的最终准确率是 5 次折叠的平均准确率。

3.3 Baselines

对于这项任务，我们实现了多种最新的多模态融合算法作为我们的基线。我们将它们分为以下几类：

基于[21]和 MCBP [22]的简单特征级联和完全连接层是两种典型的早期融合方法。
平均和乘法是作为基线采用的两种标准后期融合方法。
乘法层[23]是一种后期融合方法，它在 CE 损失中添加了一个向下加权因子，以抑制较弱的模态。
MMTM[24]模块允许通过添加到不同的特征层来缓慢地融合模态之间的信息，这允许融合不同空间维度的卷积层中的特征。
MSAF[25]模块将每个通道在通道方向上划分为相等的特征块，并创建用于在特征块上为每个通道生成 soft notes 的联合表示。
ERANNs [26]提出了一种用于音频视频情感识别的新卷积神经网络架构，是最先进的方法。

3.4 与最新的进行对比

表 1 显示了所提出的方法与基线的准确性比较。从表 1 中可以看出，我们的模型在 2630M 个参数的情况下实现了 75.76% 的精度，达到了最先进的水平。与单峰基线相比，我们的网络准确率超过 10% ，验证了多模态融合的重要性。此外，跨模态融合块的加入只引入了 30K 数量的参数，但带来了显著的性能改进。与早期的融合方法相比，我们的方法的准确率提高了 4% 以上，这表明在早期发现视频和音频模态之间的关联是一项艰巨的任务。此外，我们提出的 $CFN - SR$ 比 $MMTM$ [24]提高了 2.64%，比性能最好的 $MSF A$ [25]提高了 0.9%，并且两者都有相当数量的参数。这表明我们的模型充分利用了两种模态之间的互补性，并减少了冗余特征。

3.5 消融实验

表 2 显示了 RAVDESS 数据集上的消融实验。为了验证跨模态块的有效性，我们通过简单地拼接两种模态的高级语义特征来获得最终的情感。实验结果表明，我们的跨模态块只增加了0.4M个参数，就可以使性能提高2%以上，这表明来自两种模态的有效互补信息可以对最终决策产生很大影响。同时，我们观察到，简单拼接的结果输出也会比早期融合方法更好，这表明早期融合方法不能充分表达两种模态的高级语义特征。

我们进一步探讨了跨模态块内部结构的有效性。在跨模态块中，自注意机制和残差结构对模型的性能起着重要作用。我们将自注意机制和残差结构分开，可以看出，自注意对最终结果的影响超过2%。这表明我们获得的音频语义特征包含冗余信息，可以通过自注意机制进行特征选择，使其对模态间交互具有高效和自适应性。此外，我们还看到残差结构对最终结果的影响较小，这表明残差结构的加入有助于确保在交互过程中最大限度地减少视频特征的损失。此外，我们观察到，即使不包括残余结构，也可以实现当前的最先进技术，这进一步证明了跨模态块的效率。

此外，我们将音频模态集成到视频模态中，作为模型设计中的最终融合结果，表示为 $V - > A$ 。我们比较了将视频模态集成到音频模态的结果，表示为 $A - > V$ 。我们发现它们之间有 1.6% 的差异，我们将其归因于这样一个事实，即自注意机制减少了音频特征的冗余，并且对结果更有效。同时，视频模态丰富的时空结构也对最终结果输出产生影响。

4 总结

在本文中，我们提出了一种基于自注意和残差结构的跨模态融合网络（CFN-SR），用于多模态情感识别。我们设计了跨模态块，充分考虑了不同模态的互补信息，充分利用模态间和模态内的相互作用来完成语义特征的传递。包含自注意机制和残差结构可以保证信息交互的效率和完整性。我们在 RAVDESS 数据集上验证了所提出方法的有效性。实验结果表明，所提出的方法达到了最先进的水平，在 26.30M 个参数的情况下获得了 75.76% 的准确率。在未来的工作中，我们将扩展该模块，以探索多种模态之间的有效互动。