利用大模型改进知识图谱补全的研究

人工智能咨询培训老师叶梓转载标明出处

尽管现有的基于描述的KGC方法已经利用预训练语言模型来学习实体和关系的文本表示，并取得了一定的成果，但这些方法的性能仍然受限于文本数据的质量和结构的不完整性。

为了克服这些限制，中国科学技术大学、腾讯YouTu Lab、香港城市大学和北京大学的研究人员共同提出了MPIKGC框架，该框架通过从多个角度查询大模型，以补偿上下文知识的不足，从而改善KGC。具体为MPIKGC利用LLMs的推理、解释和总结能力，分别扩展实体描述、理解关系和提取结构。

方法

知识图谱（KG）是一个异构的直接图数据结构，可以表示为带有描述的三元组集合，记为G=(h,r,t,d)⊆E×R×E×D)，其中E代表实体集，R代表关系集，D为实体和关系的原始描述。三元组分类任务的目标是判断给定三元组的准确性。知识图谱补全（KGC）的链接预测任务是基于已知的文本和结构数据推断缺失的事实，这包括预测给定(h,r,?)时的尾实体，以及预测给定(?,r,t)时的头实体。为了实现这一目标，需要对所有实体进行排名，计算正负三元组的评分函数。基于描述的KGC模型利用预训练的语言模型来编码D并学习实体和关系的表示，而本文的目标是通过策划的提示查询大模型来增强KGC模型的文本和结构数据。

MPIKGC方法涉及通过改进实体、关系和结构数据来增强知识图谱补全，如图2所示。查询大模型的模板显示在表1中，其中用于查询大模型的提示遵循三个基本原则：清晰度、普适性和多样性。

从大模型中形式化实体的全面知识并非易事，因为很难确定大模型是否已经生成并包含了该实体的所有信息。同时，手动为每个实体设置许多查询指令既耗人力又常常导致过多的token输入到大模型中，从而增加了推理的计算负担。这样的长文本可能也不适合小规模大模型，并可能妨碍它们的性能。因此，提出了一种“思维链”（Chain-of-Thought, CoT）提示策略，使大模型能够将复杂查询分解成不同方向，并逐步生成描述，无需显式手动输入。它指导大模型隐式地查询相关信息，从而产生更有效和广泛的响应。如表1中MPIKGC-E的示例模板所示，请求大模型提供全面的实体描述，并在回答前提供理由，这作为答案的理由并提高了KGC模型的召回率。例如，图2展示了一个名人“Michael Bay”的示例，大模型生成了包含该个体各种职业和个人细节的描述，并为每个响应提供了理由，以增强大模型的陈述。

知识图中异构关系的存在在区分两个实体中起着至关重要的作用。然而，仅依赖关系名称可能导致模糊的解释，特别是对于复杂关系类别。此外，链接预测任务需要额外的反向预测，即在给定(?,r,t)时预测头实体。通常，多对一关系的反向预测性能明显低于正向预测。基于结构的KGC方法试图通过为每个正向关系添加反向关系来解决这个问题，从而翻倍了关系的可训练索引嵌入。相比之下，基于描述的KGC方法，如SimKGC，将字符串“reverse”附加到关系名称上。这种简单的方法并不能使模型完全理解关系的含义，导致性能不佳。因此，提出了三种提示策略，即全局、局部和反向，如图1中的MPIKGC-R所示。具体而言，MPIKGC-R全局旨在从整个知识图的角度推断关系的重要性，从而促进两个关系之间的更好关联。相比之下，MPIKGC-R局部旨在从三元组的角度推断关系的含义，从而在预测缺失事实时增强理解并建议可能的头/尾实体类型。例如，在查询“（头实体，发行区域，尾实体）”的含义时，大模型建议该关系可能与电影和区域有关。另外MPIKGC-R反向要求大模型将关系表示为动词，并将其转换为被动语态。例如，“produce”可以转换为“produced by”，从而增强理解并实现更好的反向预测。生成的文本附加到关系名称上，并根据每个KGC模型处理关系名称的工作流程进行处理。

KGC模型能够从训练三元组中学习结构模式，并推广到测试三元组中缺失的链接。例如，具有制片人或导演职业的个人实体可能与电影实体相关。然而，从图结构中学习模式受到稀疏链接的限制，特别是对于长尾实体。为了解决这个问题，提出了MPIKGC-S，它查询大模型生成额外的结构信息以丰富知识图。为了将大模型的生成型文本转换为基于图的数据，利用大模型的总结能力从描述中提取相关关键词，然后根据匹配关键词的数量计算实体之间的匹配得分：

其中k_h和k_t分别表示头/尾实体的关键词m是k_h和k_t的交集。在对匹配得分排序后，选择前k对，并创建了形式为(head,SameAs,tail)的新三元组，然后将其附加到训练集中。除了这些基于相似度的三元组外，还考虑为每个实体添加自环三元组与关系“SameAs”：(head,SameAs,head)。这样做的动机是增强KGC模型对“SameAs”关系的学习。这些额外的三元组构建了相关实体之间的关联，并允许在KGC模型中形成新的结构模式。例如，通过在“Ian Bryce”和“Michael Bay”之间添加“SameAs”关系，“Ian Bryce”可以明确地与“Transformers: Dark of the Moon”实体联系起来，从而为KGC模型的学习过程提供了宝贵的补充。

表2展示了用于本研究的知识图统计信息，包括实体数量、关系数量、训练集、验证集和测试集的大小。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”，即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory。关注享粉丝福利，限时免费录播讲解。

实验

数据集：实验在两个广泛使用的数据集上进行链接预测实验，分别是FB15k237和WN18RR，以及在FB13和WN11上进行三元组分类实验。

指标：使用以下指标评估KGC模型的性能：链接预测任务的平均排名（MR）、平均倒数排名（MRR）和Hits@n（H@n, n={1,3,10}），以及三元组分类任务的准确度。MR值越低表示性能越好，其他指标值越高表示性能越好。

基线：使用四种基于描述的KGC模型作为基线：KG-BERT、SimKGC、LMKE和CSProm-KG。选择基线的标准基于最新性能、模型的新颖性和实验时间成本。此外，还与包括TransE、DistMult、RotatE、ConvE、ConvKB和ATTH在内的传统基于结构的KGC模型进行了比较。

后端：主要使用Llama-2、ChatGLM2-6B、ChatGPT和GPT4作为文本生成的后端。在所有LLMs中，将温度设置为0.2，最大长度设置为256，并使用单精度浮点（FP32）进行推理。使用BERT（bert-based-uncased）作为所有基于描述的KGC模型生成文本的编码后端。

设置：为了确保公平比较，使用开源代码复现了每种方法，并使用“bert-based-uncased”版本作为所有模型的后端。为了考虑增强KGs中实体和关系的文本量增加，确保不同的增强实验具有相同的最大token长度和数据处理流程。此外，还包括了一些基线未报告的平均排名结果。其他参数设置遵循原始论文中提供的默认参数。

模型 FB15k237 WN18RR

MR↓ MRR↑ H@1↑ H@3↑ H@10↑ MR↓ MRR↑ H@1↑ H@3↑ H@10↑

结构化方法

TransE: 323 27.9 19.8 37.6 44.1 2300 24.3 4.3 44.1 53.2
DistMult: 512 28.1 19.9 30.1 44.6 7000 44.4 41.2 47.0 50.4
ConvE: 245 31.2 22.5 34.1 49.7 4464 45.6 41.9 47.0 53.1
RotatE: 177 33.8 24.1 37.5 53.3 3340 47.6 42.8 49.2 57.1
ATTH: - 34.8 25.2 38.4 54.0 - 48.6 44.3 49.9 57.3

描述基础方法

CSProm-KG: 188 35.23 26.05 38.72 53.57 545 55.10 50.14 57.04 64.41
+MPIKGC-E: 195 35.51 26.38 38.96 53.74 1244 53.80 49.19 55.65 62.81
+MPIKGC-R: 192 35.38 26.29 38.83 53.50 838 53.90 49.35 55.74 62.36
+MPIKGC-S: 179 35.95 26.71 39.52 54.30 528 54.89 49.65 56.75 65.24
LMKE: 135 30.31 21.49 33.02 48.07 54 55.78 42.91 64.61 79.28
+MPIKGC-E: 138 30.83 21.89 33.67 48.75 57 56.35 43.27 65.54 79.53
+MPIKGC-R: 145 30.99 22.21 33.70 48.83 59 57.60 45.10 65.95 79.35
+MPIKGC-S: 135 30.68 21.67 33.35 48.91 70 50.71 36.91 59.65 76.13
SimKGC: 146 32.66 24.13 35.42 49.65 148 65.64 57.08 71.20 80.33
+MPIKGC-E: 143 33.01 24.37 35.80 50.29 124 65.64 57.10 71.09 80.41
+MPIKGC-R: 156 31.05 22.63 33.62 47.65 129 66.41 57.90 72.08 81.47
+MPIKGC-S: 143 33.22 24.49 36.26 50.94 170 61.48 52.81 66.77 76.94

表3：链接预测任务的实验结果，每个块中最好的结果用粗体表示。↑：数值越高越好。↓：数值越低越好。如表3所示，ATTH在所有四个指标上都优于其他结构化方法。此外，可以观察到，在大多数情况下，结构化方法在FB15k237上表现更好，该数据集包含一般性世界事实（例如演员实体），而描述基础方法在WN18RR上表现更好，这是WordNet的一个子集，具有丰富的语言知识，适合PLMs。CSProm-KG提出关注文本和结构信息，因此在FB15k237上与LMKE和SimKGC相比表现出色。然而，在WN18RR上表现要差得多。特别是结构提取方法MPIKGC-S，改进了CSProm-KG的结构化方面，并在FB15k237上实现了所有其他基线相比最高的性能，甚至超过了结构化方法。然而，FB15k237和WN18RR数据集之间的差异确实值得注意。FB15k237在MPIKGC-S上表现出特别好的结果，这可能归因于FB15k237有15K实体和237种关系，而WN18RR有40K实体但只有11种关系。向WN18RR添加额外的关系可能会过度改变KG的稀疏性和三元组分布，导致性能下降。

另一方面，提出的理解关系的方法（MPIKGC-R）在WN18RR上与LMKE相比在MRR、Hits@1和Hits@3指标上展示了1%-2%的改进，而MPIKGC-E在Hits@10得分上达到了79.53%。在WN18RR上应用MPIKGC-R方法时也观察到了同样的改进趋势。原因是这两种方法都侧重于文本，并有能力学习丰富的增强数据。然而，MPIKGC-S在WN18RR上的LMKE和SimKGC上没有表现出改进。推测这可能是因为关系类型的数量少，添加新关系时可能会误导模型。此外，为FB15k237并入提取的结构数据取得了更好的性能。

实验还评估了所提出的方法在三元组分类任务上的性能，这是一项二元分类任务，用于确定给定三元组的正确性。基于表4中呈现的结果，结构化方法在FB13数据集上表现良好，而在WN11数据集上与基于描述的方法相比显著表现不佳。这一结果与链接预测任务的发现一致，可以归因于Freebase和WordNet之间的差异。

另一方面，结果表明扩展描述（MPIKGC-E）是提高KG-BERT性能的有前途的技术，因为它在FB13上产生了1.55%更高的准确度得分，在WN11上产生了0.79%更高的准确度得分。该方法还在LMKE上表现出微小的增强，并在FB13上实现了91.81%的最高准确度得分。总体结果表明MPIKGC框架的普适性，能够提升各种KGC模型在链接预测和三元组分类任务中的性能。

实验还评估了在提取结构数据时超参数top k的重要性。在FB15k237上呈现了获得的结果，并与有无自环的设置进行了比较。增加k的值意味着将更多的三元组添加到训练集中。例如，当k设置为1时，通过计算匹配得分来确定每个实体的最佳匹配实体。此外，自环设置涉及包含实体本身的三元组。如图3所示，随着k的增加，两种设置的所有三个指标的曲线均呈上升趋势，这表明结构的增强视角确实提高了KGC在FB15k237数据集上的性能。此外，可以看到自环设置始终优于无自环设置。这一观察表明，增强KGC对“SameAs”关系的学习是有希望的提高性能策略。然而，当k达到4或5时，性能开始下降。这种趋势表明训练集包含过多的无关三元组，这可能会对其他数据的学习产生负面影响。

消融分析呈现了描述扩展（MPIKGC-E）、关系理解（MPIKGC-R）和结构提取（MPIKGC-S）的性能分析，以及将它们组合在一起时的性能。例如，MPIKGC-E&R表示MPIKGC-E和MPIKGC-R的组合，而其余方法遵循相同的命名约定。在FB15k237数据集上使用Llama-2生成的文本进行了消融实验，以LMKE作为基线。结果表明，在从实体、关系和结构的角度增强后，KGC模型在所有四个指标上都实现了近0.5%的改进。此外，MPIKGC-E&R将生成的实体描述与关系描述文本结合起来，比单独使用任一方法略有改进，表明这两种方法的兼容性。此外，MPIKGC-E&S在H@10得分上达到了最高，而MPIKGC-R&S在MRR和H@1上表现最佳。MPIKGC-E&R&S在H@3上得分最高。加入结构提取方法进一步提高了性能，大多数指标提高了近0.5%。例如，MPIKGC-E&R&S得到了49.28%的H@10得分，比MPIKGC-E&R高出0.51%。添加关系文本‘-R’时也可以看到同样的现象。综合发现表明，多样化的增强方法是兼容的，并且可以集成以提升整体性能。

实验还评估了WN18RR数据集上各种消融设置下关系理解的性能，如表6所示。具体来说，MPIKGC-R G&L表示全局和局部描述的组合，它们使用单独的token‘[SEP]’连接。同时，其他方法遵循相同的规则。结果表明，MPIKGC-R Global在所有四个指标上都比基线SimKGC高出近1%。此外，MPIKGC-R Local实现了最高的H@10得分81.57%，但MRR和H@1得分最低。相反，MPIKGC-R Reverse在MRR和H@1上取得了超过1%的改进，但在H@10上表现较差。这些结果表明，MPIKGC-R Local优先考虑正确实体的前10个召回率，而MPIKGC-R Reverse专注于提高最佳实体（即，top-1）的性能。在结合这三种策略后，可以观察到MPIKGC-R G&L在MRR和H@1上取得了显著改进，表明全局和局部提示具有互补效果。然而，其他组合策略表现不佳。因此，认为加入太多关系描述可能会增加学习关系含义的难度。

最后探讨了使用不同的大模型来增强FB15k237上的KGC。由于在四个基准上查询每个实体和关键词的时间较长且成本较高，因此将分析限制在仅对MPIKGC-R应用ChatGPT和GPT4。如表7所示，结果表明本框架在所有三个角度上一致地改进了基于LMKE的KGC，使用了各种大模型生成的文本。这表明设计提示的有效性，这些提示对大规模（ChatGPT和GPT4）和小规模（Llama-2和ChatGLM2）大模型都是通用的。ChatGLM2为MPIKGC-E和MPIKGC-S产生了优越的结果，与Llama-2相比，表明ChatGLM2在推理和总结能力方面的优势。然而，Llama-2和ChatGPT在理解关系方面优于ChatGLM2。另一方面，可以看到将GPT4应用于MPIKGC-R在所有指标上都带来了显著改进，这归因于更大的模型规模，有助于更全面地理解KG关系。

项目链接：https://github.com/quqxui/MPIKGC

论文链接：https://arxiv.org/pdf/2403.01972