AAAI2024--频谱在多模态表示和融合中的作用更为有效:A Multimodal Spectrum Rumor Detector

news2024/9/20 5:27:24

https://github.com/dm4m/FSRU

多模态内容,如将文本与图像混合,对社交媒体中的谣言检测提出了重大挑战。现有的多模态谣言检测侧重于在空间和序列位置之间混合令牌进行单模态表示,或者在模态间融合谣言真实性的线索。然而,它们受到单模态表示的区分度较低的影响,并且在耗时的空间和序列令牌融合中容易受到复杂位置依赖性的影响。这项工作首次尝试在频率域进行多模态谣言检测,有效地将空间特征转换为频谱,并获取高度区分性的频谱特征,用于多模态表示和融合。一种新颖的频谱表示和融合网络(FSRU)采用双重对比学习揭示了频谱在多模态表示和融合中更为有效,提取了谣言检测的信息成分。FSRU包含三个新颖的机制:利用傅里叶变换将空间域中的特征转换为频率域单模态频谱压缩,以及在频率域中的跨模态频谱共选模块。大量的实验表明,FSRU实现了令人满意的多模态谣言检测性能。

引言

随着社交媒体在我们生活的各个方面迅速发展,来自多个来源和多样化格式的内容的普及显著增加。一个典型的例子是不同长度的文本与图像的结合。然而,随着多模态媒体的这种扩散,出现了一个更复杂和令人担忧的问题:多模态谣言。多模态谣言指的是通过社交媒体平台传播错误信息或虚假信息,结合了文本和图像等多种交流方式。这些谣言通常违背逻辑推理,缺乏可信度。研究表明,谣言在Facebook上的传播比主流新闻更广泛(Willmore 2016)。因此,检测和减轻多模态谣言变得至关重要,以有效管理相关风险,并确保遵守社交媒体的规范和指南(Allcott 和 Gentzkow 2017;Zhang 等人 2023)。

多模态谣言检测的最新研究主要关注两个关键方面:1) 在单模态中学习空间和序列依赖性;2) 在不同模态间融合谣言真实性的证据(Chen 等人 2022;Zheng 等人 2022;Singhal 等人 2022)。1) 为了获得信息丰富的单模态表示,研究人员采用了各种神经模型,如卷积神经网络(CNNs)、循环神经网络(RNNs)和变换器(Transformers),以在图像的空间位置或文本的序列位置执行令牌混合。然而,这些方法受到单模态表示区分度较低的影响,阻碍了随后的细粒度跨模态融合。2) 现有的方法通常应用对比学习(Ying 等人 2023)或共同注意机制(Qian 等人 2021),以实现多模态对齐或融合,以便跨模态检测谣言。然而,它们可能要么忽视了可解释的细粒度融合,要么在融合空间和序列令牌时遇到复杂的位置依赖性。此外,当前用于细粒度融合的方法,如共同注意机制,通常表现出二次时间复杂度(Rao 等人 2021)。这些问题共同削弱了多模态谣言检测模型的准确性和效率,突出了在这一领域进一步发展的需求。

为了解决这些问题,我们在这项工作中首次尝试采用新的范式和架构:多模态频谱谣言检测。我们认为频谱提供了一种更有效的表示和融合多模态数据的方法。受信号处理理论(Mateos 等人 2019)的启发,我们可以利用傅里叶变换将序列(文本)或空间(图像)数据转换到频率域。傅里叶变换通常会产生一个稀疏的频谱,其中大部分频率分量接近零(如图1所示)。这一特性有助于获得区分性的单模态表示,并强调(抑制)与真实性相关(无关)的特征以进行检测。此外,频谱提供了全局视图(Rao 等人 2021),允许每个频谱分量关注空间域中的所有特征。与共同注意机制中基于位置的对齐(Zheng 等人 2022)不同,频谱展现出全局模式(见图1),允许更全面地感知谣言和非谣言之间/内部的复杂位置依赖性。此外,频率域中的逐点乘法等同于空间域中的自注意力,避免了二次时间复杂度(附录A)。
在这里插入图片描述
因此,我们提出了一个结构简单且计算效率高的多模态频谱谣言探测器:一个带有双重对比学习的频谱表示和融合网络(FSRU)。FSRU由三个关键部分组成:文本和图像嵌入、多模态频谱表示和融合模块,以及基于分布相似性的检测。特别是,频谱表示和融合模块包括四个核心操作:我们引入1)离散傅里叶变换(DFT)将空间域中的特征转换为频率域;2)单模态频谱压缩以压缩频率域特征;3)跨模态频谱共选以选择频谱分量;以及4)逆DFT(IDFT)将频率域特征反向转换回空间域。通过在频率域中使用滤波器组,单模态频谱压缩生成压缩的频谱表示,以揭示每种模态内的潜在特征并描绘出独特的特征模式。跨模态频谱共选利用模态间的互补依赖性来选择有助于识别谣言的信息性频谱分量。随后,我们设计了一个融合模块,利用特征分布的相似性来生成一致的多模态表示,并引入双重对比学习来增强多模态学习。我们在两个真实世界的数据集上进行了实验,以评估我们提出的方法,FSRU。结果表明,FSRU在不同的评估指标和方面都取得了有利的结果。

我们的贡献是两方面的:

  • 提出了一种结构简单且计算效率高的新型方法,即带有双重对比学习的频谱表示和融合网络(FSRU),用于多模态谣言检测。与主要关注空间/序列域特征的现有方法不同,FSRU旨在捕获频率域中的区分性单模态特征,并融合跨模态的谣言真实性证据。这种结构简单的方法为多模态谣言检测提供了一个新的视角。
  • 提出了一个频谱表示和融合模块,用于提取隐藏在单模态和跨模态视角的频率分量中的谣言证据。单模态频谱压缩探索了文本和图像表示中的更清晰模式。跨模态频谱共选指导保留相关频率分量,同时融合多模态频谱特征,有效地减少了无关频率分量的影响。

Problem definition

我们将多模态谣言检测表述为一个二元分类任务,其中多模态a指的是文本和图像模态,表示为a ∈ {t, v}。给定一个多模态谣言数据集D = {X, Y},每个样本表示为(x, y),并且x可以表示为x = {x_t, x_v},其中x_t代表文本,x_v代表图像。y ∈ {0, 1}是对应于样本x的谣言真实性标签,y = 1表示样本是谣言,而y = 0表示样本是真实的。这项工作的目的是结合文本和图像特征来预测谣言标签ŷ ∈ {0, 1}。

Methodology

在这里插入图片描述

Text and Image Embedding

单词嵌入在这里插入图片描述
文本表示在这里插入图片描述
图片嵌表征在这里插入图片描述
图嵌入在这里插入图片描述

Frequency Spectrum Representation and Fusion

频谱为文本和图像表示提供了空间特征的完整视图,并有助于从全局视角获取信息成分和消除不相关成分。
在这里插入图片描述
在这里插入图片描述
Unimodal spectrum compression (USC) 空间特征在每个频率元素内被有效地整合,使得通过频率域中的逐点乘积从文本和图像中提取信息特征成为可能。我们为每种模态引入一个滤波器组来压缩频谱并获得与谣言相关的显著特征。
在这里插入图片描述
Cross-modal spectrum co-selection (CSC) 基于某些频谱分量对谣言检测贡献有限的假设,我们提出了一个强调和抑制(E&S)模块,该模块旨在通过共同关注单模态频谱来增强信息成分并抑制每种模态内的不相关成分。我们首先对压缩后的频谱进行平均池化,随后应用卷积以获得谣言视觉/文本线索的表示。因此,我们可以派生出两个选择滤波器,一个来自视觉频谱,另一个来自文本频谱。这些滤波器的目的是相互共选信息特征。我们通过交错方式将两个滤波器与相应的单模态频谱相乘,执行跨模态频谱共选:
在这里插入图片描述
最后,我们使用逆离散傅里叶变换将文本和图像的频谱表示转换回空间域:
在这里插入图片描述
细粒度的跨模态频谱共选有助于在推理过程中对文本和图像的频谱成分进行共同分析,并确保多模态谣言特征的融合,这允许更适当地保留信息成分。

Rumor Detection with Contrastive Learning

Contrastive Learning Objectives 为了促进训练中的多模态学习,我们引入了一个双重对比学习模块,包括两个部分:1) 基于谣言真实性标签的全监督内模态对比学习;2) 基于多模态空间语义的自监督跨模态对比学习。
在这里插入图片描述
在这里插入图片描述
Detection based on distribution similarity 在获得改进的文本和图像表示后,我们测量两个特征之间的Jensen-Shannon(JS)散度,以学习分布相似性,随后利用它来控制最终多模态谣言表示输出。由于很难从给定的数据样本中推断后验概率( p ),我们生成其分布( q )的近似。具体来说,单模态的后验概率可以分别表示为( q(z_t | x_t) )和( q(z_v | x_v) )。然后可以如下测量不同模态在( x_a )中的分布差异:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Experiments

Settings

我们使用PyTorch 1.12实现了我们的算法,并在单个NVIDIA RTX 3080 Ti GPU上进行了所有实验。损失函数使用Adam算法(Kingma和Ba 2015)进行优化。评估指标包括准确率、精确率、召回率和F1分数。为确保公平性,我们采用五折交叉验证进行实验。我们使用公开可用的Word2Vec(Mikolov等人 2013)来获取词嵌入。图像被调整为224×224大小。微博的最大序列长度设置为50,Twitter设置为32。文本和图像嵌入的维度设置为256。模型以64的批量大小训练50个周期。对于微博,初始学习率设置为1e-2,而对于Twitter,设置为1e-5。在选择超参数α和β时,我们考虑了集合{0.0, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5}中的值。最终,我们将两个数据集的α和β都设置为0.2。单模态频谱压缩中的滤波器数量k从集合{1, 2, 4, 8}中选择,最终选定的值为k = 2。为了高效实现DFT和IDFT,我们使用了快速傅里叶变换(FFT)和逆FFT。代码和实现细节可以在补充材料中找到。

Results and Analysis

在这里插入图片描述
在两个数据集上,FSRU与另外八个基线模型的性能比较见表1。我们进一步研究了FSRU在浮点运算次数(FLOPs)和参数体积方面的复杂性,并与最先进的方法进行了比较。结果如附录C所示。

Att-RNN、EANN和MVAE忽略了特征之间的深层语义关系和交互,导致其检测准确性受限。SpotFake利用预训练模型提取文本和图像特征,在谣言分类上表现出强大的性能,但在非谣言分类上表现相对较弱。

HMCAN中使用Transformer作为特征编码器,通过空间域中的自注意力有效混合令牌,有助于获取多模态表示。CAFE利用跨模态对齐和消歧机制有效聚合单模态表示和跨模态相关性。虽然它在微博数据集上表现出良好的性能,但当应用于Twitter数据集时,其有效性有所降低。

BMR利用多视角学习估计不同模态的重要性,以适应性地聚合单模态表示,从而获得更优的性能。LogicDM考虑谓词之间的逻辑关系,并选择谓词和跨模态对象来推导和评估可解释的逻辑子句,从而在Twitter数据集上提高了性能。

我们提出的FSRU在两个数据集上都取得了非常有利的结果,在所有评估指标中始终排名第一或第二。FSRU有效地探索并整合了频率域内的多模态特征。通过利用傅里叶变换桥接空间域和频率域,FSRU实现了多模态谣言特征无损转换到共享空间。

FSRU从跨模态视角控制频谱成分,同时从单模态视角捕捉谣言的内在特征。这种概念简单但计算效率高的方法显著提高了谣言检测的性能。此外,FSRU基于分布相似性采用多模态特征聚合,并使用两种类型的对比学习来学习跨模态特征之间的互补关系。这使得FSRU能够适应性地聚合多模态特征进行检测。然而,需要注意的是,与Twitter数据集相比,对微博数据集的影响似乎略有降低,可能是由于两个数据集之间的固有差异。首先,与Twitter数据集相比,微博数据集的规模相对较小。其次,微博数据集包含的图像子集质量较低或包含的信息内容较少。

Ablation Study

在这里插入图片描述
定量分析 如表2所示,很明显,移除单模态频谱压缩或跨模态频谱共选会对模型在两个数据集上的性能产生不利影响。如果不使用单模态频谱压缩,模型就失去了探索模态频率响应中独特模式的能力。同样,缺少跨模态频谱成分的交互作用会阻碍模型学习多模态特征之间的依赖性。此外,从模型中排除基于分布相似性的融合和双重对比学习模块会导致性能略有下降。这些发现强调了通过测量多模态分布相似性并利用双重对比学习来融合多模态特征的重要性。
在这里插入图片描述

定性分析 为了进一步分析频谱表示和融合模块的效果,我们使用t-SNE(Van der Maaten和Hinton 2008)对微博和Twitter测试集上的特征进行了定性可视化,如图3所示。FSRU变体“-w/o USC”和“-w/o CSC”展示了区分多模态谣言特征的能力,但不同标签之间的特征存在明显的重叠。相比之下,FSRU学习到的特征在标签之间展现出清晰的界限,有效地减少了特征之间的重叠。

Impact of the Number of Filters k

我们通过改变USC中k的值从1到8进行了实验,如表3所示。结果显示,在两个数据集上,性能先是呈现增加的趋势,随后出现下降。具体来说,从k = 1到k = 2,性能有显著提升,而从k = 2到k = 8,观察到轻微的下降。通过将k设置为2,模型能够从频率响应的不同维度获取多样化和独特的特征模式,同时仍然保持适当的计算成本。因此,我们确定k = 2是两个数据集上FSRU的最佳选择。
在这里插入图片描述

Case Study

为了直观展示FSRU中频谱表示和融合(FSRF)的学习过程,我们可视化了( x_a ),( \hat{X}_a ),和( \tilde{X}_a )(a ∈ {t, v}),以及两种模态的相应共信息,如图4所示。在谣言的情况下,随着FSRF的学习,特征逐渐获得独特的模式,从而实现更好的区分。这导致了集中的频谱能量更清晰的识别。另一方面,在非谣言的情况下,模型尽可能捕捉通过多模态特征表达的真实性线索。FSRF利用跨模态的共选来强调和抑制特定模态的频谱特征,从而可能揭示表明谣言真实性的线索。
在这里插入图片描述

我们已经可视化了上述两种情况在FSRF学习过程前后的多模态特征。在第一张图片中,经过FSRF学习后的模型集中在图片中的人物上,该人物与文本中提到的人物或事件不匹配。然而,这个人与附带文本中提到的个体或事件并不相符。因此,这张图片被归类为谣言。在第二张图片中,模型集中在波浪、多云的天空和远处的冲浪者上。视觉元素与文本描述之间的这种一致性表明了一致性和连贯性。因此,这张图片被归类为非谣言。

Conclusion

我们首次尝试引入一个频谱表示和融合网络(FSRU)用于多模态谣言检测。FSRU的独特之处在于其频谱表示和融合能力,有效地捕获了特征变化的频率及其在频率域中的强度,这对于FSRU正确学习多模态特征至关重要。大量的实验证明,我们提出的方法实现了先进的性能。我们未来的研究包括探索基于频率的多模态融合中的深层见解和机制,以改进多模态谣言检测。所提出的模型有潜力应用于更多的多模态任务和场景,我们将进一步研究频谱在多模态融合中的有效性和可解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2148035.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

将本地离线Jar包上传到Maven远程私库上,供项目编译使用

背景 因项目对接需求,需对接第三方Jar(海康人脸识别服务网关API),在项目集成时,处于本地编译、远程持续构建的需要将离线Jar推送到远程Maven仓库。 实施步骤 进入到离线Jar包同文件夹下 配置Maven配置文件中远程账户信息 需要在Idea配置的…

Java 数据类型转换详解:隐式转换(自动转换)与强制转换(手动转换)

目录 前言 取值范围从小到大的关系: 隐式转换(自动转换) 📜示例 1:基本类型隐式转换 📜示例 2:算术运算中的类型提升 📜示例 3:byte、short 和 char 的自动转换 隐…

Hive基本原理与数据开发

目录 1.什么是Hive 2.Hive的特点和优势 2.1.Hive的特点 2.1.1.易用性 2.1.2.高效性 2.1.3.兼容性 2.1.4.可扩展性 2.1.5.容错性 2.2.与传统数据库的区别 3.hive的架构 3.1.hive的核心组件(如 Metastore、Driver、Query Compiler、Execution Engine 等) 3.1.1.用户接…

Apache的ab压力测试工具与性能监控

【图书介绍】《软件性能测试、分析与调优实践之路(第2版)》_软件性能测试分析与调优实践之路-CSDN博客《软件性能测试、分析与调优实践之路(第2版)》(张永清)【摘要 书评 试读】- 京东图书 (jd.com) Apache的ab压力测试工具 A…

go语言中的切片详解

1.概念 在Go语言中,切片(Slice)是一种基于数组的更高级的数据结构,它提供了一种灵活、动态的方式来处理序列数据。切片在Go中非常常用,因为它们可以动态地增长和缩小,这使得它们比固定大小的数组更加灵活。…

电子看板实时监控数据可视化助力工厂精细化管理

在当今竞争激烈的制造业领域,工厂的精细化管理成为提高竞争力的关键。而电子看板实时监控数据可视化作为一种先进的管理工具,正为工厂的精细化管理带来巨大的助力。 一、工厂精细化管理的挑战 随着市场需求的不断变化和客户对产品质量要求的日益提高&am…

记一次键盘f2和f5键被自动触发情况

背景: 联想小新笔记本电脑内置键盘,其中f2键和f5键一直被自动触发,已尝试过更换输入法,重装系统,拆开键帽清灰依旧无效。考虑维修费或者更换键盘(内置)费都挺贵的,而且f2和f5作用也…

音视频入门基础:AAC专题(10)——FFmpeg源码中计算AAC裸流每个packet的pts、dts、pts_time、dts_time的实现

音视频入门基础:AAC专题系列文章: 音视频入门基础:AAC专题(1)——AAC官方文档下载 音视频入门基础:AAC专题(2)——使用FFmpeg命令生成AAC裸流文件 音视频入门基础:AAC…

uniapp小程序使用canvas画圆

<view class"container"><canvas canvas-id"arcCanvas" id"arcCanvas" class"arc-canvas" width"300" height"300"></canvas> </view> 最开始我使用…

【华为杯】第二十一届中国研究生数学建模竞赛

“华为杯”第二十一届中国研究生数学建模竞赛即将开始&#xff0c;梦想科研社给大家整理一些比赛信息&#xff0c;在正式开赛后&#xff0c;我们也会持续分享一些课题的分析以及代码&#xff0c;有需要的可以联系我们获取资料信息哦 一、时间节点 1.加密赛题开始下载时间&…

DPDK 简易应用开发之路 1:数据包接收与解析

本机环境为 Ubuntu20.04 &#xff0c;dpdk-stable-20.11.10 DPDK 应用基础 DPDK应用程序的一般处理流程如下&#xff1a; 初始化DPDK环境&#xff1a;调用rte_eal_init()初始化DPDK环境抽象层&#xff08;EAL&#xff09;&#xff0c;设置运行时环境和配置。 配置和绑定网卡…

2024最新版 Tuxera NTFS for Mac 2023绿色版图文安装教程

​ 在数字化时代&#xff0c;数据的存储和传输变得至关重要。Mac用户经常需要在Windows NTFS格式的移动硬盘上进行读写操作&#xff0c;然而&#xff0c;由于MacOS系统默认不支持NTFS的写操作&#xff0c;这就需要我们寻找一款高效的读写软件。Tuxera NTFS for Mac 2023便是其中…

超详图解 Apache HTTP Server(httpd)安装与验证

在OpenEuler 24.03系统中安装验证 Apache HTTP Server&#xff08;httpd&#xff09;的过程通常涉及以下步骤&#xff1a; 一、Apache HTTP Server&#xff08;httpd&#xff09;安装 1.检查是否已安装httpd: rpm -q httpd 2.更新系统包索引&#xff1a;更新您的系统包索引以…

基于深度学习的药品三期OCR字符识别

在药品生产线上,药品三期的喷码与条形码识别是保证药品追溯和安全管理的重要环节。传统的识别方法依赖于人工操作,不仅效率低下且容易出错。随着深度学习技术的不断发展,基于OCR(Optical Character Recognition,光学字符识别)的自动化识别系统逐渐成为主流。本文将以哪吒…

【Godot4.2】基于EasyTreeData解析的扩展Tree控件 - ETDTree

概述 基于EasyTreeData解析的扩展Tree控件。 EasyTreeData&#xff08;ETD&#xff09; EasyTreeData&#xff08;ETD&#xff09;是一种基于Tab缩进的简单层级结构数据&#xff0c;可以用于描述树形结构。能够被解析为Tree控件或表示树形结构的其他类或控件。 根目录 | 0节…

cadence SPB17.4 - allegro - 用板子外形创建整板铺铜

文章目录 cadence SPB17.4 - allegro - 用板子外形创建整板铺铜概述笔记先确定自己板子的 board Geometry/Design_Outline 是否有外形shape为了将软件提示看得更清楚&#xff0c;在每个操作之前&#xff0c;先将命令提示区内容先删了用Z-copy从外形层生成整板的铺铜备注END cad…

Maven 和 gradle JavaFX 项目的休眠行为差异

我一直在尝试将Hibernate与我的JavaFX Maven项目集成。它与Hibernate社区包、Jakarta和xerial配合得很好。我还将persistence.xml文件放在了src/main/resources/META-INF/persistence.xml。 我还尝试使用gradle创建另一个项目&#xff0c;并按照此maven项目的步骤操作&#xf…

《高等代数》行列式转置(应用)

说明&#xff1a;此文章用于本人复习巩固&#xff0c;如果也能帮助到大家那就更加有意义了。 注&#xff1a;1&#xff09;“行列式转置值不变”这一性质在求解行列式的过程中也有极大的作用。

代码随想录算法训练营第51天 | 岛屿数量、岛屿的最大面积

目录 岛屿数量 题目描述 输入描述 输出描述 输入示例 输出示例 提示信息 1. 深搜解法 2. 广搜解法 岛屿的最大面积 题目描述 输入描述 输出描述 输入示例 输出示例 提示信息 1. 深搜解法 2. 广搜解法 岛屿数量 题目描述 给定一个由 1&#xff08;陆地&…

Python和C++气候模型算法模型气候学模拟和统计学数据可视化及指标评估

&#x1f3af;要点 贝叶斯推理气候模型辐射对流及干湿能量平衡模型时间空间气象变化预测模型评估统计指标气象预测数据变换天气和气象变化长短期影响预估降低气候信息尺度评估算法气象行为模拟&#xff1a;碳循环、辐射强迫和温度响应温室气体排放碳循环温室诱导气候变化评估气…