整理了MMAsia2023 Cross-modal Consistency Learning with Fine-grained Fusion Network for Multimodal Fake News Detection 论文的阅读笔记
- 背景
- 模型
- 筛选模块
- 实验
- 消融实验
- 超参数讨论
- 可视化
背景
尽管以往的工作已经观察到假新闻中文字与图像的不匹配,但他们仍致力于探索多模态新闻的一致性,而没有研究多模态内容中细粒度片段之间的关系。为了获得公众的信任,假新闻往往在文字和图片中包含相关的部分,这使得多模态特征看起来似乎是一致的。本文提出了一种新的一致性学习细粒度融合网络(CFFN),该网络分别从高相关和低相关的词区域对中探索一致性和不一致性。
CFFN从高相关的词区对中提取真实新闻的一致性,并从低相关的词区对中揭示假新闻的不一致性。对于一致性部分,采用跨模态注意机制融合相关信息来探索一致性。对于不一致候选部分,计算每个词-区域对的不一致分数以捕获不一致点。最后,使用选择模块选择主要线索(一致性或不一致性)来识别多模态新闻的可信度。此外,通过构建一个分割损失,鼓励模型选择一致部分的线索来识别真实新闻,选择不一致候选部分的线索来识别假新闻
模型
CFFN的概述如图2所示。主要由三个部分组成:特征提取模块、融合模块和选择模块。对于特征提取,CFFN使用了细粒度的预训练模型BERT和Swin-T。CFFN旨在根据相关度得分将词-区域对分成两部分。从高相关部分探讨一致性,从低相关部分探讨不一致性:
传统的方法往往通过注意力机制获取另一模态的高相关信息,以此推断一致性,然而,他们忽视了低相关部分对假新闻检测的重要性。在这项工作中,作者试图从高相关部分探索真实新闻的一致性,从低相关部分探索假新闻的不一致性。首先利用余弦相似度来评估不同模态片段之间的相关性得分:
s
i
j
=
t
i
v
j
T
∣
∣
t
i
∣
∣
∣
∣
v
j
∣
∣
i
∈
[
1
,
N
]
,
j
∈
[
1
,
M
]
s_{ij}=\frac{t_iv^T_j}{||t_i||\ ||v_j||}\ \ \ \ \ i\in[1,N],j\in[1,M]
sij=∣∣ti∣∣ ∣∣vj∣∣tivjT i∈[1,N],j∈[1,M] ,其中,
s
i
j
s_{ij}
sij表示
t
i
t_i
ti(第i个文本片段)和
v
j
v_j
vj(第j个视觉片段)之间的相关程度,
M
,
N
M,N
M,N分别是视觉和文本片段的数量。为了将高低相关度的片段分离,作者使用一个阈值来将相关度矩阵
S
S
S分为两部分:
{
S
m
=
{
s
i
j
>
λ
}
S
c
=
{
s
i
j
<
=
λ
}
\begin{cases} S_m=\{s_{ij}>\lambda\} \\S_c=\{s_{ij}<=\lambda\}&\end{cases}
{Sm={sij>λ}Sc={sij<=λ} 其中,
𝑆
𝑚
𝑆_𝑚
Sm表示一致部分,词-视觉区域对高度相关,而
𝑆
𝑐
𝑆_𝑐
Sc表示不一致候选部分,其中词-视觉区域对弱相关或不相关。
对于一致性部分的词-区域对,通过注意机制来汇总这些区域的特征,从而获得成对信息:
t
^
i
=
∑
j
=
1
M
σ
(
s
i
j
)
v
j
+
t
i
{
i
,
j
}
∈
S
m
\hat t_i=\sum^M_{j=1}\sigma(s_{ij})v_j+t_i\ \ \ \ \{i,j\}\in S_m
t^i=j=1∑Mσ(sij)vj+ti {i,j}∈Sm 对于不一致区域,则直接进行加法:
c
i
j
=
t
i
⊕
v
j
{
i
,
j
}
∈
S
c
c_{ij}=t_i\oplus v_j\ \ \ \ \ \{i,j\}\in S_c
cij=ti⊕vj {i,j}∈Sc 为了探索一致部分和不一致候选部分的线索,本文分别计算一致分数和不一致分数,然后用这些分数聚合相应部分的特征。以不一致分数为例:
s
i
j
c
=
s
i
g
m
o
i
d
(
M
L
P
(
c
i
j
)
)
s_{ij}^c=sigmoid(MLP(c_{ij}))
sijc=sigmoid(MLP(cij)) 类似地,将
t
^
i
\hat t_i
t^i转换为一致分数
s
i
m
s_i^m
sim。最后,将聚合过程记为:
{
z
m
=
∑
i
=
1
N
s
i
m
t
^
i
i
∈
S
m
z
c
=
∑
i
=
1
N
∑
j
=
1
M
s
i
j
c
c
i
j
{
i
,
j
}
∈
S
c
\begin{cases} z_m=\sum^N_{i=1}s_i^m\hat t_i\ \ \ \ i\in S_m\\z_c=\sum^N_{i=1}\sum^M_{j=1}s_{ij}^cc_{ij}\ \ \ \ \{i,j\}\in S_c&\end{cases}
{zm=∑i=1Nsimt^i i∈Smzc=∑i=1N∑j=1Msijccij {i,j}∈Sc 其中,
𝑚
∈
R
1
×
𝑑
𝑚∈R^{1×𝑑}
m∈R1×d,
𝑐
∈
R
1
×
𝑑
𝑐∈R^{1×𝑑}
c∈R1×d分别表示一致部分和不一致候选部分。
筛选模块
到目前为止,我们的得到了一致性特征和不一致性特征 z m z_m zm z c z_c zc,本文的做法是根据这两个特征(拼接起来)获取权重: w m c = σ ( w m ∘ w c ) w_{mc}=\sigma(w_m\circ w_c) wmc=σ(wm∘wc) 其中, w m w_m wm和 w c w_c wc是 z m z_m zm z c z_c zc分别过了一个线性层映射,根据得到的 w m c w_{mc} wmc融合 z m z_m zm z c z_c zc: z = w m c [ z m ∘ z c ] T z=w_{mc}[z_m\circ z_c]^T z=wmc[zm∘zc]T 将 z z z送入分类器,我们可以获得预测值和交叉熵损失。此外,在本文中,作者试图从高相关部分探索真实新闻的一致性,从弱相关部分探索假新闻的不一致性。因此,为了鼓励模型从正确的部分中选择线索,构造了分区标签,并设计了分区损失函数: L p = ∣ ∣ y p − w m c ∣ ∣ 2 2 \mathcal{L}_p=||y_p-w_{mc}||^2_2 Lp=∣∣yp−wmc∣∣22 𝑤 𝑚 𝑐 𝑤_{𝑚𝑐} wmc是一个二维向量,第一维表示一致部分的权重,第二维表示不一致候选部分的权重。因此,标签 𝑦 𝑝 = ( 1 , 0 ) 𝑦_𝑝=(1,0) yp=(1,0)是真新闻扩大一致部分的权重,而 𝑦 𝑝 = [ 0 , 1 ] 𝑦_𝑝=[0,1] yp=[0,1]是假新闻扩大inconsistency-candidate部分的权重。最终的损失由交叉熵和分区损失共同组成: L f i n a l = L + β L p \mathcal{L}_{final}=\mathcal{L}+\beta\mathcal{L}_p Lfinal=L+βLp
实验
作者在微博和推特数据集上验证了CAFF的有效性,对比实验的结果如表1:
我们可以观察到:首先,对于单峰方法,VS和CNN分别从图像和文本中挖掘线索。VS在Twitter上优于CNN,而CNN在微博上优于VS。这意味着,对于不同的数据集,视觉内容和文本内容可能扮演不同的角色。必须考虑两种检测假新闻的方式的内容;其次,由于预训练模型的强大功能,SpotFake和HMCAN等方法具有预训练的语言模型和预训练的视觉模型,优于其他方法。此外,细粒度方法HMCAN优于SAFE、CAFE和SpotFake,后者在池化操作后利用了每种模式的全局特征。这些观察结果表明,预训练模型和不同模式之间的细粒度交互对于提高检测性能都很重要;最后,CFFN利用预训练模型BERT和Swin-T对不同的模态进行细粒度融合,达到了最好的性能。
消融实验
在消融实验部分,作者设计了四种CFFN的变体:(1)w/o consistent part:仅使用不一致性候选部分来探索不一致性;(2)w/o inconsistent part:变体只捕捉一致部分的一致性,用于假新闻检测;(3) w/o partition loss
L
p
\mathcal{L}_p
Lp:变体可以自适应地从一致部分和不一致候选部分推断线索;(4) w/o separation:变体直接利用跨模态注意融合相关区域作为文本内容中每个单词的补充信息。
在所有变体中,w/o separation的性能最差,这表明分离世界区域对在假新闻检测中探索一致性和不一致性的有效性。此外,我们观察到:(1)w/o consistent part和w/ow/o inconsistent part的性能都不如CFFN。这证明了从一致性部分探索一致性和从不一致性候选部分探索不一致性都是必要的。(2)与CFFN相比,w/ow/o partition loss
L
p
\mathcal{L}_p
Lp的性能分别下降了约1%和1.9%,证明了分配模型对真实新闻的一致性挖掘和对假新闻的不一致性推断的有效性。
超参数讨论
CFFN的超参数主要包括两个:权衡参数
β
\beta
β和阈值
λ
\lambda
λ,来训练我们的CFFN。结果如图3所示:
可视化
在CFFN中,不一致性和一致性分别是识别假新闻和真实新闻的必要条件。图4中量化了CFFN对不同新闻的多模式内容的关注:
对于图4 (a)中的三个假新闻示例,CFFN关注的是不一致点,即图像中的猪头和描述文本中的“鱼”,它们位于不一致候选部分。相比之下,对于图4 (b)文本中的单词“car”,CFFN捕获图像中的一致区域用于识别真实新闻,该词-区域对属于一致部分。©中的失效案例揭示了CFFN的局限性。由于缺乏外部知识,CFFN无法识别图片中的人物,只能捕捉到单词“Together”与两个人站在一起的区域的一致性,从而做出错误的决定。