离散模态信息作为细粒度标记用于多模态知识图谱补全--MyGO

news2025/7/15 8:25:54

多模态知识图谱（MMKG）存储了包含有丰富的多模态描述信息的、结构化的世界知识。为了克服其固有的不完整性，多模态知识图谱补全（MMKGC）希望利用三元组的结构信息及实体的多模态信息，从给定的MMKG中发掘未观察到的信息。由于知识图谱的固有不完整性，现有的MMKGC方法通常使用预训练模型提取多模态特征，并通过融合模块整合这些特征进行三元组预测。然而，这种方法往往会忽略多模态数据中的细粒度语义细节及其相互作用。

1 MyGO框架

为了解决这一问题，论文中引入了一个新颖的框架MyGO，用于处理、融合和增强MMKG中的细粒度模态信息。MyGO首先将多模态的原始数据转换为细粒度的离散标记，然后通过跨模态实体编码器学习实体的表示。为了进一步增强多模态表现，MyGO引入了细粒度对比学习，以突出实体表现的特异性。

在这里插入图片描述

2 三个组成部分

MyGO框架旨在实现MMKGC模型中的细粒度多模态信息处理、交互和增强。MyGO首先使用模态标记模块将MMKG中的实体模态信息标记为细粒度离散标记序列，随后通过层次三元组建模架构进行MMKGC任务学习，包括跨模态实体编码器、上下文三元组编码器和关系解码器，以编码细粒度实体表示并评估三元组的合理性。此外，MyGO引入了细粒度对比学习模块，通过生成多样化的对比样本来增强模型性能。

模态标记（Modality Tokenization）模块：
该模块将多模态知识图谱（MMKG）中的实体模态信息标记化为细粒度离散标记序列。通过将非文本模态（如图像、视频）处理成token序列，然后使用向量量化技术将每个token映射到离散标记中，从而生成细粒度的多模态标记。
层次三元组建模（Hierarchical Triple Modeling）架构：

跨模态实体编码器：用于编码多模态实体信息，生成细粒度的实体表示。
上下文三元组编码器：用于捕捉实体间的上下文关系，进一步细化实体表示。
关系解码器：用于评估三元组的合理性，并生成预测结果。
细粒度对比学习（Fine Grained Contrastive Learning）模块：
该模块通过生成多样化的对比样本来增强模型性能，采用新的策略生成高质量的对比样本，从而实现更详细和有效的自监督对比学习。通过对比学习，模型能够更好地捕捉多模态数据中的细微差别和相互作用。