AAAI2024--频谱在多模态表示和融合中的作用更为有效：A Multimodal Spectrum Rumor Detector

https://github.com/dm4m/FSRU

多模态内容，如将文本与图像混合，对社交媒体中的谣言检测提出了重大挑战。现有的多模态谣言检测侧重于在空间和序列位置之间混合令牌进行单模态表示，或者在模态间融合谣言真实性的线索。然而，它们受到单模态表示的区分度较低的影响，并且在耗时的空间和序列令牌融合中容易受到复杂位置依赖性的影响。这项工作首次尝试在频率域进行多模态谣言检测，有效地将空间特征转换为频谱，并获取高度区分性的频谱特征，用于多模态表示和融合。一种新颖的频谱表示和融合网络（FSRU）采用双重对比学习揭示了频谱在多模态表示和融合中更为有效，提取了谣言检测的信息成分。FSRU包含三个新颖的机制：利用傅里叶变换将空间域中的特征转换为频率域，单模态频谱压缩，以及在频率域中的跨模态频谱共选模块。大量的实验表明，FSRU实现了令人满意的多模态谣言检测性能。

引言

随着社交媒体在我们生活的各个方面迅速发展，来自多个来源和多样化格式的内容的普及显著增加。一个典型的例子是不同长度的文本与图像的结合。然而，随着多模态媒体的这种扩散，出现了一个更复杂和令人担忧的问题：多模态谣言。多模态谣言指的是通过社交媒体平台传播错误信息或虚假信息，结合了文本和图像等多种交流方式。这些谣言通常违背逻辑推理，缺乏可信度。研究表明，谣言在Facebook上的传播比主流新闻更广泛（Willmore 2016）。因此，检测和减轻多模态谣言变得至关重要，以有效管理相关风险，并确保遵守社交媒体的规范和指南（Allcott 和 Gentzkow 2017；Zhang 等人 2023）。

多模态谣言检测的最新研究主要关注两个关键方面：1) 在单模态中学习空间和序列依赖性；2) 在不同模态间融合谣言真实性的证据（Chen 等人 2022；Zheng 等人 2022；Singhal 等人 2022）。1) 为了获得信息丰富的单模态表示，研究人员采用了各种神经模型，如卷积神经网络（CNNs）、循环神经网络（RNNs）和变换器（Transformers），以在图像的空间位置或文本的序列位置执行令牌混合。然而，这些方法受到单模态表示区分度较低的影响，阻碍了随后的细粒度跨模态融合。2) 现有的方法通常应用对比学习（Ying 等人 2023）或共同注意机制（Qian 等人 2021），以实现多模态对齐或融合，以便跨模态检测谣言。然而，它们可能要么忽视了可解释的细粒度融合，要么在融合空间和序列令牌时遇到复杂的位置依赖性。此外，当前用于细粒度融合的方法，如共同注意机制，通常表现出二次时间复杂度（Rao 等人 2021）。这些问题共同削弱了多模态谣言检测模型的准确性和效率，突出了在这一领域进一步发展的需求。

为了解决这些问题，我们在这项工作中首次尝试采用新的范式和架构：多模态频谱谣言检测。我们认为频谱提供了一种更有效的表示和融合多模态数据的方法。受信号处理理论（Mateos 等人 2019）的启发，我们可以利用傅里叶变换将序列（文本）或空间（图像）数据转换到频率域。傅里叶变换通常会产生一个稀疏的频谱，其中大部分频率分量接近零（如图1所示）。这一特性有助于获得区分性的单模态表示，并强调（抑制）与真实性相关（无关）的特征以进行检测。此外，频谱提供了全局视图（Rao 等人 2021），允许每个频谱分量关注空间域中的所有特征。与共同注意机制中基于位置的对齐（Zheng 等人 2022）不同，频谱展现出全局模式（见图1），允许更全面地感知谣言和非谣言之间/内部的复杂位置依赖性。此外，频率域中的逐点乘法等同于空间域中的自注意力，避免了二次时间复杂度（附录A）。
在这里插入图片描述
因此，我们提出了一个结构简单且计算效率高的多模态频谱谣言探测器：一个带有双重对比学习的频谱表示和融合网络（FSRU）。FSRU由三个关键部分组成：文本和图像嵌入、多模态频谱表示和融合模块，以及基于分布相似性的检测。特别是，频谱表示和融合模块包括四个核心操作：我们引入1)离散傅里叶变换（DFT）将空间域中的特征转换为频率域；2)单模态频谱压缩以压缩频率域特征；3)跨模态频谱共选以选择频谱分量；以及4)逆DFT（IDFT）将频率域特征反向转换回空间域。通过在频率域中使用滤波器组，单模态频谱压缩生成压缩的频谱表示，以揭示每种模态内的潜在特征并描绘出独特的特征模式。跨模态频谱共选利用模态间的互补依赖性来选择有助于识别谣言的信息性频谱分量。随后，我们设计了一个融合模块，利用特征分布的相似性来生成一致的多模态表示，并引入双重对比学习来增强多模态学习。我们在两个真实世界的数据集上进行了实验，以评估我们提出的方法，FSRU。结果表明，FSRU在不同的评估指标和方面都取得了有利的结果。

我们的贡献是两方面的：

提出了一种结构简单且计算效率高的新型方法，即带有双重对比学习的频谱表示和融合网络（FSRU），用于多模态谣言检测。与主要关注空间/序列域特征的现有方法不同，FSRU旨在捕获频率域中的区分性单模态特征，并融合跨模态的谣言真实性证据。这种结构简单的方法为多模态谣言检测提供了一个新的视角。
提出了一个频谱表示和融合模块，用于提取隐藏在单模态和跨模态视角的频率分量中的谣言证据。单模态频谱压缩探索了文本和图像表示中的更清晰模式。跨模态频谱共选指导保留相关频率分量，同时融合多模态频谱特征，有效地减少了无关频率分量的影响。

Problem definition

我们将多模态谣言检测表述为一个二元分类任务，其中多模态a指的是文本和图像模态，表示为a ∈ {t, v}。给定一个多模态谣言数据集D = {X, Y}，每个样本表示为(x, y)，并且x可以表示为x = {x_t, x_v}，其中x_t代表文本，x_v代表图像。y ∈ {0, 1}是对应于样本x的谣言真实性标签，y = 1表示样本是谣言，而y = 0表示样本是真实的。这项工作的目的是结合文本和图像特征来预测谣言标签ŷ ∈ {0, 1}。

Methodology

在这里插入图片描述

Text and Image Embedding

单词嵌入在这里插入图片描述
文本表示
图片嵌表征
图嵌入

Frequency Spectrum Representation and Fusion

频谱为文本和图像表示提供了空间特征的完整视图，并有助于从全局视角获取信息成分和消除不相关成分。
在这里插入图片描述

Unimodal spectrum compression (USC) 空间特征在每个频率元素内被有效地整合，使得通过频率域中的逐点乘积从文本和图像中提取信息特征成为可能。我们为每种模态引入一个滤波器组来压缩频谱并获得与谣言相关的显著特征。
在这里插入图片描述
Cross-modal spectrum co-selection (CSC) 基于某些频谱分量对谣言检测贡献有限的假设，我们提出了一个强调和抑制（E&S）模块，该模块旨在通过共同关注单模态频谱来增强信息成分并抑制每种模态内的不相关成分。我们首先对压缩后的频谱进行平均池化，随后应用卷积以获得谣言视觉/文本线索的表示。因此，我们可以派生出两个选择滤波器，一个来自视觉频谱，另一个来自文本频谱。这些滤波器的目的是相互共选信息特征。我们通过交错方式将两个滤波器与相应的单模态频谱相乘，执行跨模态频谱共选：
在这里插入图片描述
最后，我们使用逆离散傅里叶变换将文本和图像的频谱表示转换回空间域：

细粒度的跨模态频谱共选有助于在推理过程中对文本和图像的频谱成分进行共同分析，并确保多模态谣言特征的融合，这允许更适当地保留信息成分。

Rumor Detection with Contrastive Learning

Contrastive Learning Objectives 为了促进训练中的多模态学习，我们引入了一个双重对比学习模块，包括两个部分：1) 基于谣言真实性标签的全监督内模态对比学习；2) 基于多模态空间语义的自监督跨模态对比学习。
在这里插入图片描述

Detection based on distribution similarity 在获得改进的文本和图像表示后，我们测量两个特征之间的Jensen-Shannon（JS）散度，以学习分布相似性，随后利用它来控制最终多模态谣言表示输出。由于很难从给定的数据样本中推断后验概率( p )，我们生成其分布( q )的近似。具体来说，单模态的后验概率可以分别表示为( q(z_t | x_t) )和( q(z_v | x_v) )。然后可以如下测量不同模态在( x_a )中的分布差异：
在这里插入图片描述

Experiments

Settings

我们使用PyTorch 1.12实现了我们的算法，并在单个NVIDIA RTX 3080 Ti GPU上进行了所有实验。损失函数使用Adam算法（Kingma和Ba 2015）进行优化。评估指标包括准确率、精确率、召回率和F1分数。为确保公平性，我们采用五折交叉验证进行实验。我们使用公开可用的Word2Vec（Mikolov等人 2013）来获取词嵌入。图像被调整为224×224大小。微博的最大序列长度设置为50，Twitter设置为32。文本和图像嵌入的维度设置为256。模型以64的批量大小训练50个周期。对于微博，初始学习率设置为1e-2，而对于Twitter，设置为1e-5。在选择超参数α和β时，我们考虑了集合{0.0, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5}中的值。最终，我们将两个数据集的α和β都设置为0.2。单模态频谱压缩中的滤波器数量k从集合{1, 2, 4, 8}中选择，最终选定的值为k = 2。为了高效实现DFT和IDFT，我们使用了快速傅里叶变换（FFT）和逆FFT。代码和实现细节可以在补充材料中找到。

Results and Analysis

在这里插入图片描述
在两个数据集上，FSRU与另外八个基线模型的性能比较见表1。我们进一步研究了FSRU在浮点运算次数（FLOPs）和参数体积方面的复杂性，并与最先进的方法进行了比较。结果如附录C所示。

Att-RNN、EANN和MVAE忽略了特征之间的深层语义关系和交互，导致其检测准确性受限。SpotFake利用预训练模型提取文本和图像特征，在谣言分类上表现出强大的性能，但在非谣言分类上表现相对较弱。

HMCAN中使用Transformer作为特征编码器，通过空间域中的自注意力有效混合令牌，有助于获取多模态表示。CAFE利用跨模态对齐和消歧机制有效聚合单模态表示和跨模态相关性。虽然它在微博数据集上表现出良好的性能，但当应用于Twitter数据集时，其有效性有所降低。

BMR利用多视角学习估计不同模态的重要性，以适应性地聚合单模态表示，从而获得更优的性能。LogicDM考虑谓词之间的逻辑关系，并选择谓词和跨模态对象来推导和评估可解释的逻辑子句，从而在Twitter数据集上提高了性能。

我们提出的FSRU在两个数据集上都取得了非常有利的结果，在所有评估指标中始终排名第一或第二。FSRU有效地探索并整合了频率域内的多模态特征。通过利用傅里叶变换桥接空间域和频率域，FSRU实现了多模态谣言特征无损转换到共享空间。

FSRU从跨模态视角控制频谱成分，同时从单模态视角捕捉谣言的内在特征。这种概念简单但计算效率高的方法显著提高了谣言检测的性能。此外，FSRU基于分布相似性采用多模态特征聚合，并使用两种类型的对比学习来学习跨模态特征之间的互补关系。这使得FSRU能够适应性地聚合多模态特征进行检测。然而，需要注意的是，与Twitter数据集相比，对微博数据集的影响似乎略有降低，可能是由于两个数据集之间的固有差异。首先，与Twitter数据集相比，微博数据集的规模相对较小。其次，微博数据集包含的图像子集质量较低或包含的信息内容较少。

Ablation Study

在这里插入图片描述
定量分析 如表2所示，很明显，移除单模态频谱压缩或跨模态频谱共选会对模型在两个数据集上的性能产生不利影响。如果不使用单模态频谱压缩，模型就失去了探索模态频率响应中独特模式的能力。同样，缺少跨模态频谱成分的交互作用会阻碍模型学习多模态特征之间的依赖性。此外，从模型中排除基于分布相似性的融合和双重对比学习模块会导致性能略有下降。这些发现强调了通过测量多模态分布相似性并利用双重对比学习来融合多模态特征的重要性。
在这里插入图片描述

定性分析 为了进一步分析频谱表示和融合模块的效果，我们使用t-SNE（Van der Maaten和Hinton 2008）对微博和Twitter测试集上的特征进行了定性可视化，如图3所示。FSRU变体“-w/o USC”和“-w/o CSC”展示了区分多模态谣言特征的能力，但不同标签之间的特征存在明显的重叠。相比之下，FSRU学习到的特征在标签之间展现出清晰的界限，有效地减少了特征之间的重叠。

Impact of the Number of Filters k

我们通过改变USC中k的值从1到8进行了实验，如表3所示。结果显示，在两个数据集上，性能先是呈现增加的趋势，随后出现下降。具体来说，从k = 1到k = 2，性能有显著提升，而从k = 2到k = 8，观察到轻微的下降。通过将k设置为2，模型能够从频率响应的不同维度获取多样化和独特的特征模式，同时仍然保持适当的计算成本。因此，我们确定k = 2是两个数据集上FSRU的最佳选择。
在这里插入图片描述

Case Study

为了直观展示FSRU中频谱表示和融合（FSRF）的学习过程，我们可视化了( x_a )，( \hat{X}_a )，和( \tilde{X}_a )（a ∈ {t, v}），以及两种模态的相应共信息，如图4所示。在谣言的情况下，随着FSRF的学习，特征逐渐获得独特的模式，从而实现更好的区分。这导致了集中的频谱能量更清晰的识别。另一方面，在非谣言的情况下，模型尽可能捕捉通过多模态特征表达的真实性线索。FSRF利用跨模态的共选来强调和抑制特定模态的频谱特征，从而可能揭示表明谣言真实性的线索。
在这里插入图片描述

我们已经可视化了上述两种情况在FSRF学习过程前后的多模态特征。在第一张图片中，经过FSRF学习后的模型集中在图片中的人物上，该人物与文本中提到的人物或事件不匹配。然而，这个人与附带文本中提到的个体或事件并不相符。因此，这张图片被归类为谣言。在第二张图片中，模型集中在波浪、多云的天空和远处的冲浪者上。视觉元素与文本描述之间的这种一致性表明了一致性和连贯性。因此，这张图片被归类为非谣言。

Conclusion

我们首次尝试引入一个频谱表示和融合网络（FSRU）用于多模态谣言检测。FSRU的独特之处在于其频谱表示和融合能力，有效地捕获了特征变化的频率及其在频率域中的强度，这对于FSRU正确学习多模态特征至关重要。大量的实验证明，我们提出的方法实现了先进的性能。我们未来的研究包括探索基于频率的多模态融合中的深层见解和机制，以改进多模态谣言检测。所提出的模型有潜力应用于更多的多模态任务和场景，我们将进一步研究频谱在多模态融合中的有效性和可解释性。