Multi‐modal knowledge graph inference via media convergenceand logic rule

摘要

媒体融合通过处理来自不同模式的信息并将其应用于不同的领域来实现。传统的知识图很难利用多媒体特征，因为从其他模态引入大量信息降低了表示学习的有效性，并降低了知识图推理的有效性。为了解决这一问题，提出了一种基于媒体融合和规则引导联合推理模型（MCRJI）的推理方法。作者不仅融合了实体的多媒体特征，而且引入了逻辑规则来提高链路预测的准确性和可解释性。首先，采用多头自注意方法获取实体在语义合成过程中对不同媒介特征的注意。其次，从知识图谱中挖掘不同长度的逻辑规则，学习新的实体表示；最后，基于融合多媒体特征的表示实体进行知识图推理。大量实验结果表明，MCRJI在使用多媒体特征和知识图推理方面优于其他先进的基线，表明MCRJI为融合多媒体特征的知识图推理提供了一种优秀的方法。

1.引言

媒介融合可以利用事物的多媒体特性，为人们提供更丰富的信息。随着多媒体技术的发展，媒体融合的研究正在积极开展。知识是在不同的收敛领域形成的[1]。多媒体信息本质上是指通过各种媒体上的文本、图像和视频提供的多模态信息。利用各种媒体的多模态特征来预测社会事件的进程或某个人的情感倾向的倾向也越来越多。针对这一任务，具有多模态信息的多模态知识图（MKGs）引起了人们的广泛关注。

传统的KG可以以三元组的形式清楚地显示现实世界中实体之间的关系，但它们的模态是单一的，不能完全覆盖现实世界的知识。MKG的概念已被提出，如图1所示，其中MKG将各种媒体的多模态信息链接到相应的实体上，并在一定程度上解决了这一问题。然而，实际上，每个实体对不同媒体的信息给予的关注是非常不同的，因此简单地将媒体特征包含在知识图中并不能保证它们得到有效的利用。目前，大多数结合多媒体功能的kg都没有考虑到这一点。这只是增加了知识图谱的多媒体特征，而没有充分利用多媒体信息。此外，作为目前主要的知识图推理方法之一，基于表示学习的推理可以将知识图中的实体和关系映射到低维空间，从而获得相应的向量。一些表征学习方法，如TransH[2]和TransR[3]，可以在很大程度上解决一对多和多对多问题。然而，当将这些方法应用于MKG推理时，这些问题显着放大。多模态知识图引入了大量其他模态特征（例如图片和文本描述），导致知识图的复杂性显著增加。因此，降低了现有表示模型的效率和推理结果的准确性。

多模态知识图增加了知识图谱的复杂性，但不能弥补传统知识图谱的信息局限性，在传统知识图谱表示学习中，向量只能表示不同实体之间的语义关系。但事实上，新事实的发现往往依赖于事物本身的特征，比如图像、文字描述等。因此，KG中的多媒体信息可以提高推理的准确性和有效性[4]。这些多媒体特征的引入丰富了实体的信息，提高了链路预测任务的效率，但并没有使实体的信息具有可解释性。

多头自注意是用来解决不能充分利用多媒体特征的问题，以及多媒体特征引入对表示模型的影响。此外，一些传统的KG表示学习方法只考虑单个三元组。kg中的路径总是在提供实体之间的额外关系方面发挥重要作用[5]。考虑到对逻辑规则附加语义信息的准确性和可解释性加以利用，将大大提高模型的有效性。图2展示了一个应用于表示学习的逻辑规则示例；规则R2 (x, BornInCounty, z)∧(y, CountryLanguage, z)→（x,PersonSpokenLanguage, y）和规则R1 （x, PersonMotherTongue, y）→（x,PersonSpokenLanguage, y）可用于迭代地将路径组成一个三元组（Freddy Rodriguez, PersonSpokenLanguage, American English）。

本文提出了媒体融合和规则引导联合推理（MCRJI）模型。通过多头自我注意学习个体对不同媒体特征的关注程度，从而将不同的媒体信息组合起来。此外，在语义层利用逻辑规则组合路径和关联关系进行表征学习。最后，利用融合多媒体特征信息的实体嵌入进行链接预测，充分利用实体的不同媒体特征。在这项工作中，我们的主要贡献可以概括如下：据我们所知，这是第一次尝试将媒体融合与MKG推理的逻辑规则结合起来，增加了可用信息，同时提高了推理的可解释性。
我们提出的MCRJI模型充分考虑了多媒体特性。它使用多头自注意来收敛实体的不同媒体特征，并将它们添加到它们的向量表示中。最后，在逻辑规则的指导下，根据新的实体表示进行推理。也就是说，我们充分利用了不同媒体的特点和逻辑规则，从而提高了链接预测的效率和可解释性。
我们对MKG的链路预测进行了大量的实验，MCRJI模型取得了良好的性能。各种规则置信度的影响表明，模型中考虑的规则置信度如何确保规则和多媒体特征的有效使用。此外，我们的模型对各种置信水平都具有良好的鲁棒性。

2.相关工作

2.1 多媒体信息融合

由于科技的进步，人们每天接触到的信息种类越来越多。媒体融合也越来越受欢迎。多媒体信息融合使机器能够充分利用多模态信息，类似于人类如何利用视觉、听觉、嗅觉和触觉等相同的多感官信息来感知世界。在多模态信息融合领域，近年来提出了许多模型来预测信息，扩大信息范围，提高结果的准确性和模型的鲁棒性。例如，Moon等人[6]使用卷积神经网络[7]和长短期记忆[8]从图像和文本中提取特征。然后，使用简单的注意力融合多模态信息，利用多模态信息消除命名实体的歧义。Yan等[9]提出了一种基于对象关系图和多模态特征收敛的视频字幕框架，该框架使用多模态特征收敛网络将不同模态的特征组合在一起。

随着多模态信息的深入应用，Aljunid等[10]提出了一种用于协同过滤推荐系统的多模型深度学习方法。Sun等[11]为了提高推荐系统的推荐效率，提出了MKG注意网络（MKGAT）。MKG关注网络包括MKG嵌入和推荐模块，其中MKG嵌入模块使用实体编码器和关注层来学习每个实体的新表示。在MKG中，针对多模态信息的收敛，提出了添加和连接聚合方法。因此，新实体可以在保留其信息的同时融合附近实体的信息。这种收敛的模态实体可以用来表示知识推理关系。然而，该模型在引入大量其他模态信息的同时，进一步增加了KG复杂度，降低了表示学习的效率。

为了对来自不同模态的信息给予不同的关注，Wang等[4]提出了通过多头自我注意（MKGRL - MS）模型融合多模态信息的多模态知识图表示学习。图像和文本模式的特征使用ResNet和RoBERTa‐www‐ext进行编码。特别地，使用多头自注意来获得不同模态特征的注意，从而得到一个新的实体表示，它是实体表示和实体的多模态特征表示的总和。

然而，上述模型只是通过多媒体特征来丰富实体的信息。表征学习中只考虑单个三元组的事实并不能使基于多媒体信息的预测任务具有可解释性。

2.2 Rule employment for knowledge graphs

逻辑规则包含丰富的语义信息，具有可解释性。如果我们想要在KG推理中应用逻辑规则，我们必须首先为KG定义一个规则集，并使用它来推断KG中已经存在的事实。然而，在处理结构更复杂的KG时，这种方法中使用的规则集通常是不完整的，不同的规则总是推断出一些完全矛盾的结论。因此，人们提出了几种从KGs中发现规则的方法，包括AMIE[12]、AMIE+[13]、RLvLR[14]和CARL[15]。Richardson和Domingos[16]将马尔可夫随机场网络与一阶逻辑相结合，提出了一种马尔可夫逻辑网络。它通过为规则分配可学习的权重来实现不确定性推理。无巧的是，贝叶斯逻辑编程[17]使用贝叶斯网络来演示逻辑规则。此外，它们通过发现这些变量之间的概率关系来实现推理。

这些方法的推理结果通常是可以解释的。然而，当KG结构庞大且复杂时，这些技术的效率较低。更重要的是，规则的敏感性导致经常无法推断缺失的有效三元组。

Minervini等[18]在关系嵌入上施加等价约束和逆约束，以提高KG推理的效率和准确性，但这种方法只考虑关系之间的两个约束，而不是一般规则，因此不具有通用性。Guo等人在KALE[19]中从t -范数中得到逻辑规则，并将这些规则转化为由三元组构成的复杂方程。然而，将逻辑规则转化为复杂方程时，降低了逻辑规则的可解释性和准确性。

2.3 Knowledge graph inference

2.3.1 Conventional knowledge graphs inference

知识推理是从图中已知的事实或关系中推断出未知事实或关系的过程。KG中有三种主要的推理形式：基于表示学习、基于神经网络和基于规则的推理。此外，还有一种混合推理方法，顾名思义，它将多种推理方法结合在一起，优势互补。在这些方法中，基于表示学习的推理和混合推理因其有效性而受到广泛关注。

基于表示学习的推理在不指示推理步骤的情况下自动捕获推理所需的特征，因此这种方法不可解释。TransE[20]在表示学习中被广泛使用，被认为是KG表示学习的基准。假设尾实体与头实体嵌入之间的距离大致等于关系嵌入的距离。然而，TransE不能准确地表示KG中的复杂关系，例如“一对多”和“多对一”。为了解决这一问题，人们还提出了一系列更高级的模型，如TransH[2]、TransR[3]、TransD[21]和TransG[22]。TransH[2]是第一个将实体表示投影到特定关系的超平面上的方法。TransR[3]通过投影矩阵引入了特定关系的空间。然后在空间上计算距离。TransD[21]做了更多的改进。它通过两个向量动态生成投影矩阵，从而提高了效率。TransG[22]也通过引入高斯分布来考虑不确定性。这些方法非常高效且可扩展，但由于损失函数简单，学习结果不理想[23]。

KG中的逻辑规则包含了丰富的信息，可以极大地提高表征学习的有效性。因此，近年来，已经引入了几种规则增强混合方法，可以解决基于规则和基于表示学习方法的缺点。例如，Guo等人[24]提出了规则引导的嵌入方法，该方法迭代地对知识图中三元组的观察进行建模。

同样，Zhang等人[25]提出了一种通过表示学习、方程归纳和注入的迭代嵌入方法。然而，这些模型需要使用近似嵌入结果的方法[22]或t -范数模糊逻辑[26]方法。因此，这些方法不适合用于具有复杂结构的大型kg。为了解决这些问题，Niu等[5]提出了一种规则与路径联合嵌入模型（RPJE），该模型充分利用逻辑规则来增强表征学习的有效性和可解释性。具体来说，从KG中挖掘的逻辑规则首先被编码为路径规则。然后使用编码规则组合路径，并执行表示学习以确保逻辑规则具有良好的可解释性。Tang等[27]提出RULE模型，将预先训练好的逻辑规则信息嵌入到向量空间中，提高KG嵌入的可靠性。此外，RULE通过学习规则的置信度分数和控制它们的权重来改进推理过程。

2.3.2 Multi‐modal knowledge graphs inference

目前，大多数MKG推理方法在学习实体和关系的表示时使用多模态知识。多模态知识图推理模型主要包括基于翻译的模型和基于神经网络的模型。基于翻译的模型在传统翻译模型的基础上引入多模态信息，实现基于表示学习的知识推理。Xie等[28]提出了考虑实体视觉信息的图像具身知识表示学习模型，首次将图像和KG结合起来进行知识图表示学习。Hatem等[29]提出了一种翻译模型，该模型将知识图的评分函数定义为结构知识、视觉知识和文本知识三个评分函数的总和。Wang等人[30]提出了TransAE，它结合了自编码器和TransE来学习MKG表示以进行知识推理。Lu等人[31]提出了多模态知识图表示学习模型，该模型引入了一种多模态知识对齐方案来关联和合并多模态知识，并使用对抗训练策略来增强其鲁棒性。Ning等[32]提出了PDRL模型，将知识图中的关系路径与实体描述信息相结合，提高了模型性能。

基础神经网络的MKG推理模型是基于神经网络作为知识图推理的评分函数。Zhang等[33]提出了一种用于医学知识图表示学习的多模态多关系特征聚合网络。对于实体的多模态内容，使用对抗特征学习模型通过将实体的文本和图像信息映射到相同的向量空间来学习多模态实体的公共表示。Tang等人[34]提出了一种多源知识图表示学习模型MKRL，该模型利用了KG的结构知识和层次类型、文本关系和实体描述的多模态知识。

3.方法

本节详细介绍我们提出的MCRJI模型，如图3所示。媒体融合和规则引导联合推理模型包括四个主要的子模块：多媒体特征矩阵编码、基于多头自注意的媒体融合、用于表征学习的规则运用和基于表征学习的具有多媒体特征的KG推理。左上部分为多媒体特征矩阵编码，左下部分为基于多头自注意的媒体收敛，右上部分为表征学习的规则运用，右下部分为基于表征学习的具有多媒体特征的KG推理。这四个子模块将在续集中详细介绍。