笔记整理:金龙,浙江大学硕士,研究方向知识图谱
链接:https://aclanthology.org/2022.coling-1.156/
动机
知识图谱上回答自然语言问题(KGQA)仍然多跳推理面临的一个巨大的挑战。以前的方法通常是利用大规模的实体相关文本体或知识图谱嵌入(KGE)作为辅助信息,却忽略了关系路径所隐含的丰富语义。本文提出利用关系路径的混合语义来改进多跳KGQA,通过在旋转和放缩实体链接预测,整合了关系路径的显性文本信息和隐性KG结构特征。
贡献
(1)利用现成关系路径的混合特征的新角度提出了 KGQA 方法。通过系统地融合显式文本信息和基于新型旋转缩放 KG 链接预测的候选关系路径的隐式 KG 嵌入特征。
(2)揭示了问题和关系路径作为主题实体和目标实体之间对应关系的两个方面,两者高度相关但又是相互补充。
方法
本论文提出的方法如下图所示:
文章通过KG嵌入模块获得KG中实体和关系的表示,通过问题编码器获得问题的表示。然后,文章使用路径编码器,通过整合显式文本语义和关系路径的隐式KG嵌入特征来编码关系路径。注意力机制被用来在众多的候选路径中选择与问题语义一致的适当关系路径。旋转和缩放模块将问题和所选择的关系路径的表征投射到KG嵌入的复杂空间中。最后,实体预测器以链接预测的方式对所有候选实体进行评分。
首先通过 KG 嵌入模块获得实体和关系的表示。文章中作者选择了RotatE模型来挖掘关系路径的隐式 KG 结构语义,模拟关系的组成。
在问题编码器中设计中,问题编码模型旨在将自然语言问题 Q 嵌入到固定维度向量 q中训练好的语言模型。具体公式如下所示:
在路径编码器中,使用路径编码模块对主题实体和候选实体之间的关系路径中的显式和隐式语义进行建模。考虑到相同的关系路径在不同的查询上下文中可能具有不同的语义,在关系路径的文本描述之前额外添加了问题文本。将文本问题 Q 与文本关系路径 Pt 连接起来,并将它们输入编码器以提取显式关系路径的文本特征。同时,从关系的嵌入中获得隐式语义pl,具体公式表示如下:
由于在一个主题实体和一个答案实体之间可能有多个最短路径。在TERP中,文章使用一个缩放点积关注机制来选择与问题语义一致的适当关系路径。
但是,由于在多跳 KBQA 场景中,多跳关系路径会放大主题和答案实体之间的差异,因此仅通过旋转变换来匹配答案可能具有挑战性。文章提出了一个旋转和缩放框架,将 <topic entity, target entity> 对的隐含关系事实的两个视图建模为复杂空间中的旋转变换和缩放变换。
使用实体预测器对所有候选实体进行评分。给定问题Q,候选路径P,主题实体h,候选实体c,得分函数计算为。
最终的得分函数为:
整体训练目标结合了交叉熵(CE)损失表示:
实验
在六项任务中的四项上取得了最佳表现。在这里,文章主要将 TERP 与两种工作进行比较:基于嵌入的方法(例如,EmbedKGQA)和路径搜索方法(例如,SQALER 和 TransferNet)。
与基于嵌入的方法的比较。除了在MetaQA 1-hop 任务上的相似表现外,TERP 在其他任务上的表现明显优于 EmbedKGQA。结果验证了将关系路径信息纳入链接预测框架的有效性。
与路径搜索方法的比较。一般来说,TERP 在 WebQSP 和ComWebQ 上表现更好,而 SQALER 和TransferNet 在 MetaQA 上更有竞争力。可能的原因是链接预测框架依赖于高质量的 KG 嵌入,因此对于更大规模的知识图更有效。
通过对关系路径的混合特征的总体影响分析,得到结论:1) 结合关系路径信息可以在完整和不完整的 KGs 下持续改进不同跳的回答问题。2) 2 跳问题的改进大大超过 1 跳问题,验证了关系路径信息的潜力用于多跳推理。
为了进一步研究关系路径和问题如何协作,计算了 WebQSP 的关系路径文本和问题文本表示之间的余弦相似度。由于候选关系路径可能有多个,因此选择相似度最大的关系路径。根据余弦相似度分数将测试集中的数据样本平均分为五组。每个组的两个比较模型(有路径和无路径)的性能如上图所示,从中观察到两个的趋势。(1)模型性能随着余弦相似度的降低而降低。(2)其次,关系路径信息为更难的问题提供了更显着的改进。这些结果清楚地表明关系路径为难题提供补充信息,方法有效地提取和综合了关系路径的基本特征。
总结
文章提出的KGQA方法提供了一个利用现成的关系路径的混合特征的新视角。通过融合显性文本信息和隐性结构特征,以问题意识的方式提炼出基本的关系路径特征。通过将自然语言问题以及获得的候选关系路径的混合特征投射到一个新的旋转和规模的实体链接预测框架中,可以有效地协调问题和关系路径来选择答案实体。问题和关系路径可以看作是主题实体和目标实体之间对应关系的两个相关但互补的信息补充。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。