LESS IS MORE: ONE-SHOT-SUBGRAPH LINK PREDICTION ON LARGE-SCALE KNOWLEDGE GRAPHS(ICLR2024)
论文地址:https://arxiv.org/html/2403.10231v1
源码地址:https://github.com/tmlr-group/one-shot-subgraph
ABSTRACT
为了推断知识图 (KG) 上的新事实,链接预测器从图结构中学习并收集本地证据以找到给定查询的答案。 然而,由于利用整个知识图谱进行预测,现有方法面临严重的可扩展性问题,这阻碍了它们在大规模知识图谱上的应用,并且无法通过普通采样方法直接解决。
在这项工作中,我们提出了一次性子图链接预测来实现高效和自适应的预测。 设计原则是,预测过程不是直接作用于整个知识图谱,而是解耦为两个步骤,即(i)根据查询仅提取一个子图,以及(ii)对这个单一的、依赖于查询的子图进行预测。 我们发现,非参数和计算高效的启发式个性化 PageRank (PPR) 可以有效地识别潜在的答案和支持证据。
预测系统从知识图谱的局部结构中学习,现有的方法通常可以概括为两类:(1)语义模型,通过学习实体和关系的低维嵌入来隐式捕获局部证据(Bordes等,2017)。 ,2013;Dettmers 等,2017;Zhang 等,2017; (2) 基于关系路径或图的循环神经网络 (RNN) 或图神经网络 (GNN) 显式探索 KG 结构的结构模型(Das 等人,2017 年;Schlichtkrull 等人,2018 年;Sadeghian 等人) ., 2019;Teru 等人, 2021; Zhu 等人, 2022)。 尽管实现了领先的性能,但这些结构模型面临着严重的可扩展性问题,因为整个 KG 已被潜在或逐步用于预测。 这种低效的方式阻碍了它们在大规模知识图谱(例如 OGB)上的应用和优化(Hu et al., 2020)。 因此,它提出了一个悬而未决的问题:知识图谱预测所需的所有信息都是必要的吗? 直观上,人脑中存储的知识只有部分与给定问题相关,这些知识是通过回忆提取出来的,然后在仔细的思考过程中使用。 同样,生成候选者然后对有前途的候选者进行排名是拥有数百万甚至数十亿用户的大规模推荐系统的常见做法(Cheng et al., 2016;Covington et al., 2016)。 这些事实激励我们通过有效的知识图谱采样机制来进行有效的链接预测。
在这项工作中,我们提出了一种新颖的知识图上的一次性子图链接预测。 这个想法为从以数据为中心的角度缓解现有知识图谱方法的可扩展性问题提供了一种新方法:将预测过程解耦为具有相应采样器和预测器的两个步骤。 因此,特定查询的预测是通过(i)使用采样器对一个依赖于查询的子图进行快速采样和(ii)使用预测器对子图进行慢速预测来进行的。 然而,由于两大挑战,在大规模 KG 上实现高效且有效的链接预测并非易事。 (1) 采样速度和质量:一次性采样器的快速采样应能够覆盖支持查询的必要证据和潜在答案。 (2)联合优化:采样器和预测器应该联合优化,以避免琐碎的解决方案,并保证整个模型对特定KG的表达能力和适应性。
为了从技术上解决这些挑战,我们首先通过非参数和计算高效的个性化PageRank(PPR)实现一次性子图链接预测,它能够有效地识别潜在的答案,而无需学习。 通过有效的基于子图的预测,我们进一步建议在数据和模型空间中搜索数据自适应配置。 我们证明没有必要在推理中使用整个 KG; 同时,只需相对较小比例的信息(例如 10% 的实体)就足够了。
贡献:
• 我们在概念上形式化了 KG 上一次性子图链接预测的新方式(第 3 节),并在技术上用高效的启发式采样器和强大的 KG 预测器将其实例化(第 4.1 节)。
• 我们解决了一个重要的双层优化问题,即在数据和模型空间中搜索最优配置(第 4.2 节),并从理论上分析了外推能力(第 4.3 节)。
2 PRELIMINARIES
3 One-shot-subgraph LINK PREDICTION ON KNOWLEDGE GRAPHS
框架目的
大致思路:先根据带查询的三元组(h,r,?)生成一个子图, 将子图表示输入全连接层得到尾实体的概率分布
Comparison with existing manners of prediction
该论文模型相比于其他模型的优势:
Comparison with existing sampling methods
4 INSTANTIATING THE ONE-SHOT-SUBGRAPH LINK PREDICTION
4.1 REALIZATION: THREE-STEP PREDICTION WITH PERSONALIZED PAGERANK(实现:个性化 PAGERANK 的三步预测)
(1)根据采样器生成采样概率分布
(2)根据概率分布采样k个节点和边
(3通过预测器,预测根据采样生成的子图。
例子:连接预测任务(u,q,?) ,?是v。
Step-1. Generate sampling distribution
先前的研究表明,v通常接近u,并且支持查询的连接u和v的关系路径也接近u。 为了有效地捕获u的本地证据,我们选择启发式个性化PageRank(PPR)(Page et al., 1999; Jeh &Widom, 2003)作为抽样指标。 请注意,PPR 不仅因其非参数性质而高效,而且因其从 u 开始的单源评分而具有查询相关性和局部结构保留性。
具体来说,PPR 从 u 开始传播,以评估 u 的每个邻居的重要性,并生成 PageRank 分数作为对查询实体 u 的局部邻居进行编码的采样概率。 此外,它还可以通过利用来自大邻域的信息来保留子图的局部性和连通性。
Step-2. Extract a subgraph
有效消息从 u 传播到采样实体 o ∈ Vs。
表示的逐层更新被表述为
代码讲解
这个算法通过在知识图谱上生成与查询相关的子图,并在子图上进行多层次的图神经网络传播,最终计算每个节点与查询节点的关联性分数。整个过程包括生成采样分布、提取子图、节点表示传播和最终预测输出,每一步都紧密结合,以提高链路预测的准确性和效率。
注意:在子图上进行推理(该过程会推理L步,其推理过程不会添加新的节点和边)
传播过程指的是在已采样好的子图上进行多层次的图神经网络(GNN)传播操作。这包括节点表示的更新和消息传递。
损失函数:在预测输出的过程中,损失函数用于衡量模型预测结果与真实标签之间的差异,从而指导模型的优化。本文中采用的损失函数是二元交叉熵损失函数(Binary Cross-Entropy Loss),具体公式和解释如下:
汇总:
传播过程中是在预先采样好的子图上进行的。整个过程中,不会引入新的节点和边。所有的传播和消息传递操作都仅在这个固定的子图内进行。这种方法确保了计算的可控性和效率,同时保留了子图中有用的信息用于链路预测。