多模态知识图谱(MMKG)存储了包含有丰富的多模态描述信息的、结构化的世界知识。为了克服其固有的不完整性,多模态知识图谱补全(MMKGC)希望利用三元组的结构信息及实体的多模态信息,从给定的MMKG中发掘未观察到的信息。由于知识图谱的固有不完整性,现有的MMKGC方法通常使用预训练模型提取多模态特征,并通过融合模块整合这些特征进行三元组预测。然而,这种方法往往会忽略多模态数据中的细粒度语义细节及其相互作用。
1 MyGO框架
为了解决这一问题,论文中引入了一个新颖的框架MyGO,用于处理、融合和增强MMKG中的细粒度模态信息。MyGO首先将多模态的原始数据转换为细粒度的离散标记,然后通过跨模态实体编码器学习实体的表示。为了进一步增强多模态表现,MyGO引入了细粒度对比学习,以突出实体表现的特异性。
2 三个组成部分
MyGO框架旨在实现MMKGC模型中的细粒度多模态信息处理、交互和增强。MyGO首先使用模态标记模块将MMKG中的实体模态信息标记为细粒度离散标记序列,随后通过层次三元组建模架构进行MMKGC任务学习,包括跨模态实体编码器、上下文三元组编码器和关系解码器,以编码细粒度实体表示并评估三元组的合理性。此外,MyGO引入了细粒度对比学习模块,通过生成多样化的对比样本来增强模型性能。
-
模态标记(Modality Tokenization)模块:
该模块将多模态知识图谱(MMKG)中的实体模态信息标记化为细粒度离散标记序列。通过将非文本模态(如图像、视频)处理成token序列,然后使用向量量化技术将每个token映射到离散标记中,从而生成细粒度的多模态标记。 -
层次三元组建模(Hierarchical Triple Modeling)架构:
跨模态实体编码器:用于编码多模态实体信息,生成细粒度的实体表示。
上下文三元组编码器:用于捕捉实体间的上下文关系,进一步细化实体表示。
关系解码器:用于评估三元组的合理性,并生成预测结果。 -
细粒度对比学习(Fine Grained Contrastive Learning)模块:
该模块通过生成多样化的对比样本来增强模型性能,采用新的策略生成高质量的对比样本,从而实现更详细和有效的自监督对比学习。通过对比学习,模型能够更好地捕捉多模态数据中的细微差别和相互作用。
3 结语
在公共基准数据集上进行全面实验,MyGO在MMKGC任务中超过了20个最新基线方法,达到了新的最先进性能。
论文题目:MyGO: Discrete Modality Information as Fine-Grained Tokens for
Multi-modal Knowledge Graph Completion
论文链接:https://arxiv.org/pdf/2404.09468
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!