论文浅尝 | 基于交互模态融合的多模态知识图谱补全

news2025/7/5 8:29:14

笔记整理：张溢驰，浙江大学硕士，研究方向为多模态知识图谱

链接：https://arxiv.org/abs/2303.10816

动机

多模态知识图谱补全需要将多种模态的信息（如图像和文本）融入到实体的结构表示中，以此来实现更好的链接预测，但是已有的方法往往通过将所有模态投影到一个统一的空间中，具有相同的关系来捕捉共性，这可能无法保存每个模态中的特定信息。因此，他们无法有效地模拟模式之间的复杂互动，以捕捉模态之间的交互性，这就导致这些方法的性能受到了限制。

贡献

为了解决上面提到的这个问题，提出了一种新的交互式多模式融合模型（IMF），用于知识图上的多模式链接预测。IMF可以在每个模态中单独学习知识，并通过两阶段融合对不同模态之间的复杂交互进行联合建模。

在多模态融合阶段，作者采用双线性融合机制，通过对比学习充分捕捉多模态特征之间的复杂交互。对于基本的链接预测模型，作者将关系信息作为上下文，将三元组列为每个模态中的预测。在最终决策融合阶段，作者整合来自不同模态的预测，并利用互补信息进行最终预测。本文的贡献总结如下：

作者提出了两个阶段性业务模型，即国际货币基金组织，它在整合不同模式的互补信息以进行链接预测方面发挥了作用。
作者设计了一个有效的多模态融合模块，通过对比学习来捕捉双线性交互，从而对共性和互补性进行联合建模。
作者在四个广泛使用的多模态链路预测数据集上进行了大量实验，证明了IMF的有效性和通用性。

方法

作者提出的方法的总体架构图如下图所示，该方法主要包括一个模态信息融合模块和一个决策融合模块（联合推理模块）。

在模态信息融合模块，作者参考Tucker张量分解模型设计了一种模态融合机制，将通过不同的模态特征编码器得到的三个模态表示（分别称为结构表示、图像表示和文本表示）先分别投影到一个新的表示空间中，再通过张量点乘运算得到每个实体的多模态表示向量，这个过程可以表示为：

然后作者提出了对三个模态两两之间进行对比学习，让不同模态之间可以充分交互，并实现互信息的最大化，这个对比学习的过程可以表示为：

同时，对于每个模态k，作者设计了一个上下文关系模型，利用关系投影矩阵将三元组的上下文信息引入实体的表示中，实体的表示通过关系投影矩阵投影得到上下文表示，并和所有的候选实体计算相似度，并使用交叉熵损失函数作为模型的训练目标，这个过程可以表示为：

在决策融合阶段，作者将每个模态的预测损失函数通过一组可学习的参数进行加权求和，并加上了前面提到的对比学习损失，这个过程可以表示为：

在推理阶段，模型就会利用学习到的权重，对不同模态的分数进行加权求和，并进行最终的链接预测，这个过程可以表示为：

实验

实验部分，作者在DB15K，FB15K，YAGO15K和FB15K-237四个多模态知识图谱数据集上进行了实验，并和多项baseline模型（包含若干单模态模型和多模态模型）进行了对比，实验结果如下：

从实验结果中可以看到，论文提出的方法相比于已有模型取得了巨大的进步，同时，作者通过消融实验表明，模态融合模块、决策融合模块以及对比学习模块都对模型最终的结果有着明显的提升，其中，模态融合模块给模型带来的增益是最明显的。

此外，作者通过在不同的打分函数上使用作者提出的交互式模态特征融合，来验证该方法的通用性，这一部分的实验结果通过上面的条形统计图来展现。同时，作者做了一项很有意思的可视化，将多个球队中的多干名球员的四种模态表示投影到二维空间中，如下图所示：

从可视化结果中可以发现，融合之前，不同球员的结构表示、图像表示和文本表示的分布难以找出规律，而模态特征融合之后的多模态表示中，不同球队的球员的表示向量的分布呈现出一定的规律，同个球队内的球员的表示向量相互靠近，而不同球队的球员的表示向量相互远离，这表明，作者设计的模态融合与对比学习等模块确实起到了一定的作用。

总结

本文研究了多模态知识图谱上的链接预测问题。具体而言，作者旨在改善不同模式之间的交互。为了实现这一目标，作者建议国际货币基金组织采用两阶段框架，通过（i）利用双线性融合来充分捕捉不同模态之间的互补性，并通过对比学习来增强同一实体的不同模态之间更强的相关性，从而实现多模态信息的有效融合；以及（ii）采用集合损失函数来联合考虑多模态表示的预测。在几个基准数据集上的实验结果证明了我们提出的模型的有效性。此外，作者还进行了深入的探索，以说明提出的方法的通用性以及将其应用于实际应用的潜在机会。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。