用于实体对齐的联合学习实体和关系表示2019 AAAI 8.7

news2024/11/24 13:27:04

用于实体对齐的联合学习实体和关系表示

  • 摘要
  • 介绍
  • 相关工作
    • 实体对齐
    • 图卷积网络
  • 问题公式
  • 我们的方法
    • 整体架构
    • 初步实体对齐
      • 图卷积层
      • 近似关系表示
      • 联合实体和关系对齐
  • 实验
  • 总结

在这里插入图片描述

摘要

实体对齐是在不同知识图之间集成异构知识的一种可行方法。该领域的最新发展通常采用基于嵌入的方法来对KGs的结构信息建模,从而可以在嵌入空间中进行实体对齐。然而,大多数现有工作并没有明确利用有用的关系表示来辅助实体对齐,正如我们将在文中展示的那样,这是改进实体对齐的一种简单而有效的方法。

本文提出了一种新的实体对齐联合学习框架。我们方法的核心是一个基于图卷积网络(GCN)的框架,用于学习实体表示和关系表示。而不是依赖于 预先对齐的关系种子 来学习关系表示。我们首先使用 GCN引导的实体嵌入 来近似它们。然后,我们将关系映射合并到实体中,以迭代地学习两者更好的表示。

预先对齐的关系种子
指的是在知识图谱对齐任务中提前确定的一组已知的关系对。这些关系对被认为是在不同的知识图谱或数据集中表示相同语义关系的示例。预先对齐的关系种子通常是由领域专家或人工标注的数据生成的。这些种子关系对可以基于先验知识、词汇相似性、语义相似性或其他相似性指标进行选择和匹配。
假设我们有两个知识图谱,一个是关于电影的知识图谱A,另一个是关于演员的知识图谱B。我们的目标是将这两个知识图谱进行对齐,以建立电影和演员之间的关联。为了辅助对齐过程,我们可以使用一些预先对齐的关系种子。
首先,我们可以手动选择一些已知的电影-演员对,这些对在两个知识图谱中表示相同的关系。例如,我们知道知识图谱A中的电影"Avengers: Endgame"与知识图谱B中的演员"Robert Downey Jr."有关联。
这个电影-演员对可以作为一个预先对齐的关系种子,我们将它们作为已匹配的关系对输入到知识图谱对齐算法中。算法可以通过学习这个种子关系对中的模式、属性和语义特征,来识别和匹配其他相似的电影-演员关系对。
接下来,知识图谱对齐算法可以利用各种匹配和相似性度量方法,如实体名称相似度、关系语义相似度、属性匹配等,来寻找其他电影-演员关系对。通过与预先对齐的关系种子进行比较,算法可以确定哪些关系对是相似的,并将它们加入到已对齐的关系集合中。

GCN引导的实体嵌入
是指使用图卷积网络(Graph Convolutional Network,GCN)来生成实体的向量表示或嵌入。
GCN模型的核心思想是通过聚合相邻节点的信息来更新每个节点的表示。在每一层GCN中,节点的表示是通过将其自身特征与其邻居节点的特征进行聚合得到的。这样,每个节点可以获得来自其邻居节点的信息,并且这些信息会在多层GCN模型中进行迭代和传播。
在实体嵌入任务中,GCN模型可以将实体的局部邻域信息和全局图结构信息结合在一起,生成具有丰富语义的实体向量表示。
假设我们有一个电影知识图谱,其中包含电影实体和它们之间的关系。
首先,我们将电影作为图的节点,并根据电影之间的关系构建图结构。例如,我们可以使用电影之间的导演、演员、类型等关系作为图的边。
接下来,我们使用GCN模型来学习电影的嵌入向量。在GCN的每一层,节点的表示是通过聚合其邻居节点的表示来更新的。例如,对于一个电影节点,它的邻居节点可以是与之有共同演员或共同导演的其他电影。
通过多层GCN的迭代,电影节点的表示会逐渐融合来自不同邻居节点的信息,从而生成具有丰富语义的电影嵌入向量。这些嵌入向量可以捕捉到电影之间的关联、类型、演员等特征,从而提供了电影的语义表示。
学习得到的电影嵌入向量可以用于各种任务。例如,我们可以使用这些向量来计算电影之间的相似度,从而实现电影推荐系统。或者,我们可以将这些向量作为输入特征,用于电影分类或预测电影的票房收入等任务。

在三个真实世界的跨语言数据集上进行的实验表明,我们的方法实质上执行了最先进的实体对齐方法。

介绍

知识图谱(KGs)将非结构化知识转换为简单明了的三元组<头部实体,关系,尾部实体>,用于快速响应和推理知识。它们是支持各种支持 NLP-enabled 的任务的有效方式。比如机器阅读(Yang和Mitchell,2017)、信息提取(Wang et al.,2018a)和问答(Zhang et al.,2018 b)。

“NLP-enabled” 是指某个系统、工具或应用程序具备自然语言处理(Natural Language Processing,NLP)功能或能力。
当一个系统或应用程序被称为 “NLP-enabled”,意味着它具备了一定程度的自然语言处理能力,可以处理和分析文本数据,从中提取信息,进行文本理解和生成,或者与用户进行自然语言交互。

尽管许多KGs来自同一资源(例如维基百科),但它们通常是独立创建的。因此,不同的KGs经常使用不同的表达和表面形式来表示等价的实体和关系,更不用说来自不同资源或语言的那些了。这种常见的异构问题使得在不同的KGs之间整合知识变得困难。解决这个问题的一种强大技术是实体对齐,是将来自不同KGs的具有相同真实世界身份的实体连接起来的任务。

实体对齐的经典方法通常涉及劳动密集且耗时的特征构建过程或依赖于他人构建的外部信息。最近,人们致力于所谓的基于嵌入的方法,代表作包括JE、MTransE、JAPE、IP TransE,和BootEA。还有使用图卷积网络(GCN)来联合嵌入多个KGs。

最近的大多数工作(如JE、MTransE、JAPE、IPTransE和BootEA)都依赖于 基于翻译的模型 ,如TransE,这些模型使这些方法能够对KGs的实体和关系进行编码。这些方法通常更强调实体嵌入,但没有明确地利用关系嵌入来帮助实体对齐。这种方法的另一个缺点是,它们通常依赖于 预先对齐的关系 (JAPE和IPTransE)或三元组(MTransE)。这限制了模型可以有效地每次形成的规模,因为 为大型KG构建种子排列 的开销也大。不幸的是,基于GCN的模型等替代方法无法直接获得关系表示,留下了很大的改进空间。

基于翻译的模型(Translation-based models)
是指一类在自然语言处理中用于处理语义关系和语义表示的模型。这类模型通过将语义关系转化为翻译任务,将语义表示转化为翻译模型的中间表示来进行处理。
基于翻译的模型的基本思想是将语义关系建模为源语言到目标语言的翻译过程。通常,模型将实体之间的关系或实体属性等信息表示为源语言句子,然后使用翻译模型将源语言句子翻译成目标语言句子,最后利用目标语言句子的表示来进行后续的任务处理。

“预先对齐的关系”(Pre-aligned relationship)是指在进行知识图谱对齐任务之前,已经进行过部分实体对齐或关系对齐的关系。

“为大型KG构建种子排列”(Building seed alignment for large-scale KG)
是指为两个或多个大型知识图谱之间的实体进行初始对齐,以建立种子(seed)实体对的对应关系。在知识图谱对齐任务中,种子对是已知或预先对齐的实体对,其对应关系是已知的或可以被假设为正确的。构建种子排列的目的是通过这些已知对应关系来指导和启动大规模知识图谱对齐的过程。

最近的研究表明,在单个框架中对实体和关系进行联合建模 可以改进信息提取等任务。我们认为,实体对齐也将是这种情况,也就是说,丰富的关系信息可能有助于提高实体的一致性,并且它们的关系通常是密切相关的。我们的实验表明,这甚至是一个保守的目标:通过联合学习实体和关系表示,我们可以促进实体和关系对齐的结果。

"在单个框架中对实体和关系进行联合建模"是指将实体和关系作为一个整体进行建模和表示的方法。传统的知识图谱表示方法通常独立地对实体和关系进行建模,而在联合建模中,实体和关系被同时考虑并嵌入到一个统一的表示空间中。
在TransE模型中,实体和关系都被嵌入到一个共享的向量空间中。每个实体和关系都被表示为一个固定维度的向量。模型的目标是通过学习这些向量,使得在知识图谱中的事实(三元组)得到最好的表示和预测。
具体地,TransE模型假设实体和关系之间存在着平移关系。对于给定的三元组(头实体,关系,尾实体),模型会计算头实体向量与关系向量之和,然后与尾实体向量进行比较。模型的目标是通过学习向量表示,使得正确的三元组满足头实体向量加上关系向量的结果接近尾实体向量。
举个例子来说明,假设有一个知识图谱中有以下三元组:
(“猫”, “是宠物”, “动物”)
(“狗”, “是宠物”, “动物”)
(“猫”, “是哺乳动物”, “动物”)
对于上述三元组,TransE模型会学习到将实体和关系嵌入到向量空间中,例如将实体"猫"表示为向量v1,关系"是宠物"表示为向量v2,实体"动物"表示为向量v3。模型的目标是使得v1 + v2 接近 v3。
当给定头实体"猫"和关系"是宠物"时,模型会通过计算v1 + v2的结果,并与尾实体"动物"的向量v3进行比较。如果v1 + v2与v3的距离较小,即它们在向量空间中较接近,那么模型将预测这个三元组为真实的事实。

我们的目标是建立一个学习框架,共同学习实体和关系表示,以实现实体对齐,我们希望只通过一小部分预先对齐的实体而不是关系来实现这一点。这样做将允许我们利用关系信息来改进实体比对,而无需为构建种子关系比对支付额外成本。

GCN最近的成果使我们的工作成为可能,它不从图结构中提取有用的表示。但是由于原始GCN是对无向图和无标记图进行运算的,所以像基于GCN的模型会忽略KGs形成中的有用关系。虽然关系图卷积网络(R-GCN)可以对多关系图进行建模,但现有的R-GCN对每个关系使用权重矩阵。这意味着R-GCN将需要一组过多的参数来对典型的真实世界KG中的数千个关系进行建模,这使得在大型KG上学习有效的模型变得困难。

我们的联合学习框架的一个关键挑战是如何在没有种子关系比对的情况下生成有用的关系表示,并确保框架能够扩展到大量类型的关系。我们通过首先使用通过少量种子实体比对学习的实体嵌入来近似关系表示来实现这一点。进一步构造了一个新的联合实体表示,该表示由实体的关系信息和相邻结构信息组成。联合表示使我们能够迭代地提高模型生成更好的实体和关系表示的能力,这不仅会导致更好的实体对齐,而且会导致更准确关系对齐(作为副产品)。

我们通过将其应用于三个真实世界的数据集来评估我们的方法。效果显著。本文的主要贡献是一种新的实体和关系对齐的联合学习模型。该方法减少了人类在构建种子比对中的参与和相关成本,但比以前的工作产生了更好的性能。

相关工作

实体对齐

直到最近,实体对齐还需要高度的人类参与来设计手工制作的特征、规则或依赖外部来源。在更广泛的文本中,模式和本体匹配的工作也通过使用额外的数据源、本体描述或网络本体语言的语义来寻求额外信息的帮助。此类方案的性能受目标KG的额外信息的质量和可用性的限制,但对于大型KG来说,获得足够高质量的注释数据可能很困难。

最近,提出了基于嵌入的实体对齐方法来减少人为干扰。JE学习不同KG在均匀向量空间中的嵌入,在该空间中可以执行实体对齐。MTransE将KG编码在独立的嵌入中,并学习KG之间的转换。BootEA利用bootstrap ping过程来学习KG嵌入。SEA提出了一种程度感知的KG嵌入模型来嵌入KG。KDCoE是一种半监督学习方法,用于多语言KGs和实体描述的协同训练嵌入。它们都使用基于翻译的模型作为嵌入KGs的主干。

基于非翻译嵌入的方法包括最近关于基于GCN的模型的工作和NTAM。此外,最近的工作RDGCN介绍了对KG的关系信息进行建模的 对偶关系图。通过主对偶图之间的多轮交互,RDGCN可以有效地将更复杂的关系信息转化为实体表示,并在实体对齐方面取得有希望的结果。然而,现有的方法只关注实体嵌入,而忽略了关系表示在这个任务上可以提供的帮助。TransE和NTAM是少数尝试执行关系和实体对齐的方法中的两种。然而,这两种方法都需要高质量的种子比对。诸如预对准的三元组或关系。我们的方法通过仅使用一小组预先对齐的实体(但不使用关系)来同时执行实体和关系对齐,从而联合建模实体和关系,从而推进了先前的工作。

对偶关系图(Dual Relationship Graph)
是指在知识图谱中,用于表示实体和关系之间的双向关联的图结构。
传统的知识图谱中,通常使用三元组(头实体,关系,尾实体)来表示实体之间的关系。然而,某些情况下,一个关系也可以被看作是两个实体之间的双向关联,即一个实体是另一个实体的关系的头实体,同时也是另一个实体的关系的尾实体。这种双向关联可以通过对偶关系图来进行建模。
在对偶关系图中,实体和关系都被表示为节点,而双向关联则由边来表示。每条边连接两个节点,并表示它们之间的关联。例如,如果有一个三元组(A,关系1,B),其中A和B是实体,关系1是它们之间的关系,那么对偶关系图中将有两条边,一条连接A和关系1,另一条连接关系1和B。

图卷积网络

GCN是一种基于未标记图并基于其邻域结构诱导节点特征的神经网络。最近,GCN在节点分类、关系提取、语义角色标签等任务中表现出了良好的性能。作为GCN的扩展,最近提出了R-GCN来建模关系数据,用于链接预测和实体分类。然而,当应用于多关系图时,R-GCN需要大量的参数,这些参数通常很难训练。

在这项工作中,我们选择使用GCN来首先对KG实体进行编码,并基于实体嵌入来近似关系表示。我们的工作是第一次利用GCN来联合调整异构KGs的实体和关系。

问题公式

介绍本文中使用的符号,并定义这项工作的范围。
一个KG规范为:G=(E,R,T),T是类型。
G1=(E1,R1,T1),G2=(E2,R2,T2)是两个已知的不同的KG,KGs之间已知的一些等价实体被表示为 对齐种子 L={(ei1,ei2)|ei1∈E1,ei2∈E2}。

我们定义实体对齐或关系对齐的任务为:自基于已知的对齐种子动找到更多等价的实体或关系。在我们的模型中,我们仅仅使用了对齐实体对作为对实体对齐和关系对齐的训练数据。在我们的框架中,关系对齐的过程是无监督的,它不需要用于训练的预对齐关系对。

我们的方法

给出两个目标KG,G1和G2,以及一组已知对齐实体对L,我们的方法是使用GCN和 高速公路网络门来嵌入两个KG的实体和基于实体表示的近似关系。通过将实体表示与关系表示联系起来,它们在我们的框架中相互促进,最终实现更好的对齐结果。

整体架构

在这里插入图片描述

如图所示,我们的方法由三个阶段组成:(1)初步实体对齐;(2)近似关系表示;(3)联合实体和关系对齐。

在第一阶段,我们利用GCN将各种KGs的位置嵌入到统一的向量空间中进行初步实体对齐。接下来,我们使用实体嵌入来近似关系表示,该关系表示可用于对齐KGs之间的关系。在第三阶段,我们将关系表示合并到实体嵌入中,以获得联合实体表示,并继续使用GCN迭代集成相邻的结构信息,以获得更好的实体和关系表示。

初步实体对齐

将 G1和G2放入一个图Ga中,来作为模型的输入。利用预对齐实体对来训练该模型,然后发现潜在的对齐实体。

图卷积层

我们的实体对齐模型利用GCN来将实体嵌入Ga中。

近似关系表示

联合实体和关系对齐

实验

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/845455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决Error running XXXApplicationCommand line is too long.报错

测试IDEA版本&#xff1a;2019.2.4 &#xff0c;2020.1.3 文章目录 一. 问题场景二. 报错原因2.1 为什么命令行过长会导致这种问题? 三. 解决方案3.1 方案一3.2 方案二 一. 问题场景 当我们从GitHub或公司自己搭建的git仓库上拉取项目代码时&#xff0c;会出现以下错误 报错代…

红队钓鱼技术之Flash网页钓鱼

简介 Flash钓鱼攻击是一种网络攻击手段&#xff0c;旨在欺骗用户访问伪造的Flash更新页面&#xff0c;并诱使他们下载并安装恶意软件。这种攻击通常利用用户对Flash更新的需求&#xff0c;以及对合法更新网站的信任。攻击者通常会模仿Adobe Flash Player的官方更新页面&#x…

YOLOv5基础知识入门(2)— YOLOv5核心基础知识讲解

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。YOLOV4出现之后不久&#xff0c;YOLOv5横空出世。YOLOv5在YOLOv4算法的基础上做了进一步的改进&#xff0c;使检测性能得到更进一步的提升。YOLOv5算法作为目前工业界使用的最普遍的检测算法&#xff0c;存在着很多可以学习…

Qt扫盲-Model/View入门

Model/View 编程入门 一、概述二、介绍1. 标准部件2. Model/View 控件3. Model/View控件概述4. 在表格单和 model 之间使用适配器 Adapters 三、 简单的 model / view 应用程序示例1. 一个只读表2. 使用role扩展只读示例3. 表格单元中的时钟4. 为列和行设置标题5. 最小编辑示例…

Unity数字可视化学校_昼夜(三)

1、删除不需要的 UI using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI;public class EnvControl : MonoBehaviour {//UIprivate Button btnTime;private Text txtTime; //材质public List<Material> matListnew Li…

php-cgi.exe - FastCGI 进程超过了配置的请求超时时限

解决方案一&#xff1a; 处理(php-cgi.exe - FastCGI 进程超过了配置的请求超时时限)的问题 内容转载&#xff1a; 处理(php-cgi.exe - FastCGI 进程超过了配置的请求超时时限)的问题_php技巧_脚本之家 【详细错误】&#xff1a; HTTP 错误 500.0 - Internal Server Error C:…

棒球网络宣传平台建设规划·野球1号位

棒球网络宣传平台建设规划 棒球网络宣传平台简介棒球网络宣传平台是什么&#xff1f; 棒球网络宣传平台的目标是什么&#xff1f; 棒球网络宣传平台的目标是提高公众对棒球的认知度、促进棒球运动的发展。平台致力于提供优质的棒球资讯、赛事直播、教练和球员的个人专访、棒球…

解决 idea maven依赖引入失效,无法正常导入依赖问题

解决 idea maven依赖引入失效&#xff0c;无法正常导入依赖问题_idea无法导入本地maven依赖_普通网友的博客-CSDN博客 解决 idea maven依赖引入失效&#xff0c;无法正常导入依赖问题 idea是真的好用&#xff0c;不过里面的maven依赖问题有时候还真挺让人头疼&#xff0c;不少小…

使用eXosip+ffmpeg、ffplay命令行实现sip客户端

文章目录 前言一、关键实现1、主要流程2、解决端口冲突&#xff08;1&#xff09;、出现原因&#xff08;2&#xff09;、解决方法 3、解析sdp&#xff08;1&#xff09;、定义实体&#xff08;2&#xff09;、解析视频&#xff08;3&#xff09;、解析音频 4、命令行推拉流&am…

Linux 中利用设备树学习Ⅳ

系列文章目录 第一章 Linux 中内核与驱动程序 第二章 Linux 设备驱动编写 &#xff08;misc&#xff09; 第三章 Linux 设备驱动编写及设备节点自动生成 &#xff08;cdev&#xff09; 第四章 Linux 平台总线platform与设备树 第五章 Linux 设备树中pinctrl与gpio&#xff08;…

AEM接插件|插头测试仪获得中国信通院-泰尔实验室认可

AEM矢量网分及其rj45插头、插座获得中国信通院-泰尔实验室认可。并采购了一套原厂全新设备&#xff0c;进行试验研究。 与keysight矢量网分横向和纵向的对比&#xff0c;确定AEM此套测试方案&#xff0c;完全满足接插件测试标准的验证。并月7月份&#xff0c;正式向AEM厂家采购…

django处理分页

当数据库量比较大的时候一定要分页查询的 在django中操作数据库进行分页 queryset models.PrettyNum.objects.all() #查询所有 queryset models.PrettyNum.objects.all()[0:10] #查询出1-10列 queryset models.PrettyNum.objects.filter(mobile__contains136)[0:10] …

uni-app:实现数字文本框,以及左右加减按钮

效果 代码 <template><view><view classline3><view classline3_position><view classleft>数量<text>*</text></view> <view class"right"><view class"quantity_btn"><view class"…

Splunk Enterprise for mac(可视化数据分析软件)详细安装教程

Splunk Enterprise for Mac是一款可视化数据分析软件&#xff0c;为你提供强大的搜索、 分析和可视化功能&#xff0c;可以帮助您获得有价值的业务情报&#xff0c;从你机器生成的数据。还在等什么&#xff1f;有需要的朋友&#xff0c;欢迎前来下载&#xff01; 实时监测和搜…

React Dva 操作models中的subscriptions讲述监听

接下来 我们来看一个models的属性 之前没有讲到的subscriptions 我们可以在自己有引入的任意一个models文件中这样写 subscriptions: {setup({ dispatch, history }) {console.log(dispatch);}, },这样 一进来 这个位置就会触发 这里 我们可以写多个 subscriptions: {setup…

【重温老古董——Strust2框架】基于Idea使用maven创建Strust2项目

1、新建项目 红色圈出的部分是【强制】,其他部分看个人喜好。 2、修改 pom 文件,管理依赖 <dependency><groupId>org.apache.struts</groupId><artifactId>struts2-core</artifactId><version>2.5.22</version></dependency&g…

C#,数值计算——用于从连续的数据值流估计任意分位数的计算方法与源程序

1 分位数Quantile 分位数&#xff08;Quantile&#xff09;&#xff0c;亦称分位点&#xff0c;是指将一个随机变量的概率分布范围分为几个等份的数值点&#xff0c;常用的有中位数&#xff08;即二分位数&#xff09;、四分位数、百分位数等。 2 常见各类分位数 2.1 二分位…

SQL SERVER ip地址改别名

SQL server在使用链接服务器时必须使用别名&#xff0c;使用ip地址就会把192.188.0.2这种点也解析出来 解决方案&#xff1a; 1、物理机ip 192.168.0.66 虚拟机ip 192.168.0.115 2、在虚拟机上找到 C:\Windows\System32\drivers\etc 下的 &#xff08;我选中的文件&a…

组合模式(C++)

定义 将对象组合成树形结构以表示部分-整体’的层次结构。Composite使得用户对单个对象和组合对象的使用具有一致性(稳定)。 应用场景 在软件在某些情况下&#xff0c;客户代码过多地依赖于对象容器复杂的内部实现结构&#xff0c;对象容器内部实现结构(而非抽象接口)的变化…

推荐一个OI的维基百科网站

推荐一个关于OI的维基百科网站&#xff1a; https://oi-wiki.org/ 链接: OI Wiki 这里面有很多关于竞赛的知识&#xff0c;还有各种讲解哦&#xff01;&#xff01;&#xff01; 当然&#xff0c;里面要是有什么看不懂的也可以问我哦&#xff01;&#xff01;&#xff01;