笔记整理:张钊源,天津大学硕士,研究方向为知识图谱
链接:https://virtual2023.aclweb.org/paper_P4210.html
动机
知识图嵌入(KGE)已被广泛研究,用于嵌入大规模关系数据以满足许多现实世界的应用。现有方法长期以来忽略了许多知识图谱包含两种根本不同视图的事实:高级本体视图概念和细粒度实例视图实体。它们通常将所有节点作为向量嵌入一个潜在空间。然而,单一的几何表示法无法捕捉两种视图之间的结构差异,也缺乏针对概念粒度的概率语义。本文提出了Concept2Box,这是一种使用双几何表示联合嵌入KG的两个视图的新方法。Concept2Box使用box嵌入对概念进行建模,box嵌入可以学习概念的层次结构和复杂关系,例如概念之间的重叠和不相交。方框体积可以解释为概念的粒度。与概念不同,Concept2Box将实体建模为向量。为了弥补概念box嵌入和实体向量嵌入之间的差距,提出了一种新的向量到box的距离度量,并联合学习这两种嵌入。
亮点
Concept2Box的亮点主要包括:
(1)提出了一种新的模型,通过将概念和实例与不同的几何对象联合嵌入来学习双视图KG表示。
(2)设计了一个新的度量函数来测量概念框和实体向量之间的距离,以连接两个视图。
(3)构建了一个新的工业配方相关KG数据集。
概念及模型
本文提出的Concept2Box的整体框架包括3个模块,具体如下图所示。首先使用概率box嵌入对本体视图的KG进行建模,捕捉分层结构并保留概念的粒度(左侧上图)。其次,通过应用基于向量的KG嵌入方法对实例视图KG进行建模(左侧下图)。第三,为了连接这两种视图设计了一种新颖的距离度量,定义了从方框到向量的距离(右图)。该模型通过联合优化每个相应模块的三个损失函数来学习。每个模块的具体技术实现如下:
(1) 基于本体视图的box式知识图谱嵌入模块,通过知识图谱完成损失训练捕获概念的层次结构和复杂关系;
(2) 基于实例视图的矢量知识图谱嵌入模块,通过知识图谱完成损失训练捕获概念的层次结构和复杂关系。
(3) 跨视图模块通过S上的概念链接损失进行训练。该模块依赖于一种新的距离度量,用于弥合向量和方框之间的语义。
图1 Concept2Box架构
不同模块核心建模
本体视图KG嵌入模块的Loss函数如下所示,函数后半部分的三元组代表由真实三元组替换的负采样三元组。
跨视图 KG 建模模块的距离函数定义如下,具体来说,给定一个概念 c 和一个实体 e,如果将概念框的最小和最大位置参数表示为 μm、μM ,将实体的向量定义为 e,将距离函数 fd 定义为。
跨视图模块是通过负采样最小化以下损失来训练的:
总体损失函数是实例视图和本体视图KG补全损失以及跨视图损失的线性组合,如下所示:
实验
数据集的设置:实验在两个数据集上进行:一个是来自DBpedia的公开数据集,该数据集描述了从DBpedia抓取的一般概念和细粒度实体。此外本文还创建了一个新的食谱相关数据集,其中概念是食谱、一般配料和器皿名称等,实体是通过Amazon.com搜索到的烹饪每个食谱的具体产品,以及一些选定的属性(如品牌)。
针对Concept2Box模型进行了两种实验,分别是概念链路预测任务和模型泛化能力测试。
概念链路预测任务是给定实体的关联概念,其中每个实体可能被映射到多个概念,需要测试所学嵌入的质量。具体实验结果如下:
由实验结果可知,能够在大多数情况下实现最高的性能,与实体和概念都被建模为box子的Box4ET相比,Concept2Box表现得更好,这表明实体和概念确实是两种根本不同类型的节点,理应用不同的几何模式进行建模。另外,通过实验结果可以观察到Box4ET和Concept2Box能够超越未使用box嵌入的方法,这表明box嵌入在学习不同粒度的实体(概念和实例)的层次结构和复杂行为等方面具有优势。
Diversity-Aware评估。为了验证Concept2Box学习得到的嵌入可以捕获概念之间的复杂关系和层次结构,本文在泛化实验中使用了多样性感知评估。具体实验结果如下:
可以看到,在不同的设置中,Concept2Box都能达到最好的效果,显示出它强大的泛化能力。注意,当改变类型的数量时,Concept2Box能够带来比JOIE更多的性能增益。这可以理解为概念的层次结构被box嵌入很好地捕获,当适当选择类型的数量时,首先将概念(配方)缩小到相关概念(成分)的集合,以便更好地理解,从而产生更好的结果。
总结
本文提出的Concept2Box是一种新颖的双视角知识图谱嵌入方法。将高级概念建模为方框,以捕捉它们之间的层次结构和复杂关系,并基于方框体积反映概念粒度。对于实例视图KG,Concept2Box将细粒度实体建模为矢量,并提出了一种新的度量函数来定义实体与实体之间的距离,从而弥合两种视图的语义。Concept2Box经过联合训练,可以对实例视图KG、本体视图KG和跨视图链接进行建模。在两个真实世界数据集(包括一个新创建的食谱数据集)上的经验实验结果验证了Concept2Box的有效性。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。