点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
点击 阅读原文 观看作者讲解回放!
作者简介
尹航,上海交通大学博士生
内容简介
我们研究了带有无标记悬挂问题的实体对齐(EA)任务,即部分实体在另一个知识图谱(KG)中没有对应实体,而这类实体尚未被标记。当待匹配的源图和目标图的规模不同时,这个问题就会出现,而且标记可匹配实体相比悬挂实体要容易得多。为了应对这一挑战,我们提出了一个名为Lambda的框架,用于悬挂检测和实体对齐。Lambda采用了一个基于图神经网络(GNN)的编码器KEESA,并结合了谱对比学习损失用于EA,以及一个名为iPULE的正无标记学习算法用于悬挂检测。iPULE具备无偏性、一致偏差界限和收敛性方面的理论保证。实验结果表明,Lambda的每个组件都有助于整体性能的提高,其性能优于基线方法,即使基线方法额外利用了30%的悬挂实体用作训练标记。
论文地址:https://arxiv.org/abs/2403.10978
Task Definition
本文研究的问题叫做实体对齐任务,这是一个在数据库领域中已经存在很长时间的任务。这个任务的主要目的是在不同的知识图谱中寻找等价的实体。
在算法上,我们可以将其直接建模为一个图匹配任务,只不过是针对节点的匹配任务。随着深度学习的发展,许多方法在实体对齐相关的数据集上已经取得了较好的性能。然而,这些方法普遍基于知识图谱之间的一对一假设,即假设图谱中的节点数量相等并具有一对一的对应关系。实际问题中,这种假设太过严格,会限制实体对齐方法在实际领域中的应用。
在实际应用中,有一部分实体被称之为Dangling实体(dangling entity),它们在另一个图谱中没有对应可匹配的实体节点。在此视角下,将图谱中的实体分为两类——可匹配实体和Dangling实体——可匹配实体的标记是更为直接且简单的,只需确定一组配对即可。然而,Dangling实体需要穷尽所有匹配可能性才能判定某个节点属于Dangling实体,因此这一类实体在实际任务中往往处于无法被标记的状态。
除了基于一对一假设的实体对齐方法之外,还有一些方法针对Dangling问题进行了研究,如右图所示。这些工作也存在两方面问题:一方面,它们过度依赖一些附加信息(如隐私敏感的节点名字或属性信息);另一方面,它们引入了一些不合理的假设,如认为Dangling实体应该可以被标记。实际上则恰恰相反。
Motivation
在上述背景下,作者进一步进行了实验探索。通过向已有的实体对齐方法的推理阶段中加入了更多的dangling 实体来进一步验证作者的观察。通过蓝色部分的数据可以看到,随着dangling 实体的引入,这些方法的性能出现了显著的下降。可以发现,dangling实体问题对实体对齐方法的性能影响非常严重。这进一步说明了该问题是值得探究的。
基于这些动机,本文希望在不依赖附加信息和dangling标签的条件下来实现更鲁棒的对齐方法,提升其实用性和应用效果。
Framework
在之前工作的基础上,本文提出了一个新的处理架构。由于需要面对无标记的问题,作者直觉上采用了PU学习(Positive-Unlabeled learning)方法。PU学习方法简单来说,是在只有正样本有标签的情况下进行预分类的方法。
之前的工作通常沿用左图所示的流程:将一些预对齐的种子节点和Dangling标签作为输入,同时进行实体对齐模型和Dangling实体检测组成的分类模型的学习。在推理阶段,才会将Dangling实体从推理集合中移除,以规避Dangling实体带来的推理代价。然而,这些方法忽略了在学习阶段Dangling实体对模型造成的额外学习代价。
因此,本文采用PU学习的方法,将问题进一步转化为右图所示的框架。新的处理架构中,仍然需要将一部分种子点作为输入,但不同的是将Dangling检测任务调整到实体对齐任务之前。此外,在Dangling检测中会额外输出一些值,这些值代表剩余实体中具有潜在对应关系的实体比例。如果这个比例过低,则实体对齐任务会提前停止,无需进行额外的对齐学习和推理过程。但如果发现剩余实体节点中有相当数量的实体是可以对齐的,则我们可以选择在Dangling检测后将检测出的Dangling实体进行移除,从而继续在剩余实体中进行实体对齐。
本文所提框架相比之前的方法有一个显著优点:在进行最终的实体对齐任务之前,该框架为下游任务提供了更多的选择,从而可以规避一些不必要的训练和推理代价。在此基础上,作者对问题进行了进一步的正则化定义。也就是说,给定一些预对齐的可匹配实体节点作为正样本,需要预测正样本的比例并同时识别它们。
Iterative Positive-Unlabeled Learning for Dangling Detection
在原有PU学习方法的基础上,作者做出进一步的改进,提出了一种迭代式的PU学习方法来处理Dangling检测问题。
PU学习方法通常沿袭如下思路:首先推导出一个无偏的风险估计函数,这个函数是对损失函数的抽象,这个函数的基本结构可以分解为类先验比例乘以对应的风险函数。本文的方法建立在对类先验比例信息进行更为细致划分的基础上。
定理1首先推导出无偏风险估计的基础形式,基于此无偏估计,作者在定理2中证明了所提方法相较于经典的非负风险估计(Non-negative Risk Estimator)具有更紧的一致方差界。这表明该方法不仅在概率上是无偏的,同时也具备一致性。通过定理1和定理2,作者将寻找Dangling实体的问题转化为估计这一类实体的类先验比例的问题。定理3表明这种迭代方法能够收敛到一个较为准确的类先验比例值。
Loss Function
具体而言,损失函数设计如图所示。PU学习的损失函数整体上由两部分构成:第一部分是正样本的损失函数,因为只有正样本有标签;第二部分是对负样本损失函数的近似。为了防止梯度消失问题,需要确保负样本的损失大于零,因此在计算中引入了max函数操作。在忽略max函数之后,剩余的项实际上由三部分构成:正样本被正确标记为正样本的损失、未标记样本被标记为负样本的损失以及正样本被误标记为负样本的损失。每一部分分别乘以相应的类先验比例,最终构成整体的损失函数。
类先验比例在本文的问题场景中是需要预先估计的,而在二分类的场景中,类先验比例之间存在较强的依赖关系。通过简单的算术运算,可以通过已知的一个类先验比例推导出其他所有的比例值。简化之后,作者发现只需要找到正类的先验比例估计,就可以完成整个损失函数的计算。
因此,图中展示了三种情况下的损失计算方法:正样本被正确标记为正样本乘以对数正类先验比例,未标记样本被标记为负样本乘以未标记对数类先验比例,以及正样本被误标记为负样本乘以未标记的正类对数先验比例。本研究的最终目的就是找到正类先验比例的最优估计,以便完善损失函数的计算。
Algorithm
作者提出了一种迭代式的PU学习方法,该方法具有估计类先验比例的能力。具体过程如下:首先,将训练集中已标记的可对齐实体的比例设定为初始化值,然后固定该比例来构造损失函数。通过对该固定损失函数进行若干轮数的训练,可以将模型参数优化到相对合理的区间。
算法通过迭代地进行E step和M step。在E step中,通过推理预测出类先验比例的值;在M step中,固定E step中推理出的值来构造新的损失函数,并根据此损失函数反向更新模型。这个过程类似于经典的EM算法,文中的证明思路也是将其作为EM算法的特例来证明其收敛性。由于该收敛性证明具有较强的条件限制,文中还通过实验进行了进一步验证了,并展示了其对于类先验比例估计的正确性。
如图所示,算法1描述了这一迭代式PU学习方法的具体流程。初始化阶段后,进入迭代训练,通过E step和M step交替进行,持续优化模型参数,直到模型收敛或者类先验比例达到预期。实验结果进一步验证了该算法在不同数据集上的性能和稳定性。
Selective Aggregation with Spectral Contrastive Learning
在上述基础上,需要注意以下几点。首先,PU学习方法并不是对所有二分类问题都有效。PU学习能发挥作用的前提是这两类在特征空间上已经有较为明显的区分度,即所谓的分类判别条件(Classification Discriminative)。其次,本研究的最终目标是实体对齐任务,它更依赖于一个理想的一对一嵌入空间。
为了同时满足这两点需求,本文提出了一种方法。对于第一个需求,由于在无标签的场景下进行计算,它可以通过一种经典的谱聚类方法来解决。对于第二个需求,可以通过一种经典的对比学习方法实现,即通过训练让正样本互相靠近、负样本互相远离来达到目的。最近的研究已经证明,对比学习和谱聚类之间存在等价性。因此,作者提出了一个新损失函数,可以同时发挥谱聚类和对比学习两方面的作用,同时满足了上述两种需求。
在文章中,该方法被命名为谱对比学习方法。这种方法能够在无标签的情况下实现分类判别,同时构建一个理想的实体对齐嵌入空间。新损失函数如图所示,它结合了谱聚类和对比学习的优点,实现了正样本和负样本在特征空间上的合理分布。
KEESA (KG Entity Encoder with Selective Aggregation)
上述内容得以实现的基础是本文中提出的一种神经网络架构——图学习编码器KEESA。KEESA主要由两部分组成,其中a模块用于建模图谱内的表征,b模块用于建模图谱间的学习表征。
在图谱内表征的建模部分,作者引入了一个动态调节的Dangling Indicator指示器,它代表当前实体作为dangling节点的概率。通过该模块,可以在邻域聚合中选择性地筛选掉一些dangling实体的特征,从而避免这些节点的特征对其邻居的影响,保证可匹配节点的特征不受污染,确保匹配精度。这是Dangling指示器的重要作用。
此外,作者设计了一个关系正交投影注意力机制,它能够针对不同关系的实体将其投射到不同的向量空间局部域中,从而实现更好的实体一对一对齐。a模块最终将网络的每一层表征拼接起来,得到最终的图谱内表征。
接着,b模块对图谱内表征和跨图谱表征进行学习。作者采用了一种在之前工作中提出的代理匹配向量法进行跨图谱表征计算(Dual-AMN方法中提出)。
最终的节点表征是通过对图谱内和跨图谱间的表征进行加权聚合,同时将之前提到的自适应Dangling Indicator作为额外的表征拼接起来。基于这些表征,计算损失函数并反向更新编码器,从而完成表征的更新和优化。
The Framework contains all above modules
本文最终的架构结合了上述提到的架构和对应损失函数,下图展示了本文所提框架的所有流程。
Experiments
本文首先在类先验比例估计方面进行了详细的实验,同时将所提方法与现有的实体对齐方法进行了比较。比较分为两类:第一类是与没有针对dangling问题进行额外设计的传统方法进行比较;第二类是与针对dangling问题设计的基线方法进行比较。在这两种比较中,该方法都达到了领先的性能。
首先,通过类先验的估计实验,展示了所提方法的准确性和收敛性。实验证明,本方法在不同数据集和预对齐比例下都表现出色,准确估计出类先验比例。如图1所示,不同预对齐比例下的类先验估计结果在迭代中逐渐收敛到真实先验比例。
其次,本文进行了基于dangling问题的比较。其中,一个是针对没有设计dangling检测的传统方法的比较,另一个是针对设计了dangling检测的方法进行的比较。在表2中,本方法在多个指标上均超过了基线方法,展示了其在处理dangling实体问题上的优势。
本文还通过消融实验验证了各模块的有效性。如图所示,作者分离并测试了不同模块,对比整体方法,验证了每个模块对最终性能的贡献。消融实验结果表明,每个模块在提高方法性能方面都发挥了关键作用。
在方法收敛性方面,文章进行了详细实验。如图5所示,本文方法在不同的数据集上均表现了良好的收敛性,理论证明以及实验结果均支持算法的稳定性和有效性。
最后,文章对方法的效率进行了验证,包括推理时间、训练时间和计算资源消耗。从表中可以看出,本文方法在CPU和GPU内存消耗方面表现较为经济,同时在推理和训练时间上也比其他方法更为高效。
本期文章由陈研整理
往期精彩文章推荐
EMNLP'24 最佳论文解读 | 大语言模型的预训练数据检测:基于散度的校准方法
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看作者讲解回放!