论文浅尝 | 超越实体对齐: 通过实体关系协同实现完整的知识图谱对齐

news2024/9/21 14:34:28

639f221c1e16029ae0029585ee7a2e33.png

笔记整理:米尔扎提·阿力木,天津大学硕士,研究方向为大模型

论文链接:https://arxiv.org/abs/2407.17745

摘要

知识图谱对齐(Knowledge Graph Alignment, KGA)旨在整合来自多个来源的知识,以解决单个知识图谱在覆盖范围和深度方面的局限性。然而,当前的KGA模型在实现“完整”的知识图对齐方面存在不足。现有的模型主要强调交叉图实体之间的联系,而忽略了跨KGs的对齐关系,因此只能提供部分的KGA解决方案。嵌入在关系中的语义相关性在很大程度上被忽视了,这可能会限制对跨kg信号的全面理解。在本文中,我们建议将关系对齐概念化为一个独立的任务,并通过将其分解为两个不同但高度相关的子任务:实体对齐和关系对齐来进行KGA。为了捕捉这些目标之间相互加强的相关性,我们提出了一个新的基于期望最大化的模型,EREM,它迭代地优化这两个子任务。在真实世界数据集上的实验结果表明,EREM在实体对齐和关系对齐任务中始终优于最先进的模型。

1. 引言

(知识图(Knowledge Graphs, KGs)结构为三元组(头部实体、关系实体和尾部实体)的集合,作为从现实世界数据中提取的事实知识的概念表示。KGs通常作为跨不同领域的重要参考和补充知识库。单独的KG通常缺乏充分支持各种需求所需的信息的广度和深度应用程序,在单一图结构中全面捕获和表示不同的知识领域面临固有的挑战。因此,迫切需要制定策略来解决这一不足,并实现来自多个来源的知识的有效集成,称为知识图对齐(KGA)。现有的KGA模型主要集中于连接不同KGs之间的实体。最初,文本描述和关系被编码成低维嵌入来表示实体。随后,使用少量或不使用对齐种子来训练匹配函数,以最小化成对实体之间的距离。匹配函数根据实体嵌入推断出等效实体,通常形式化为全局分配问题或最优运输问题。尽管现有的方法具有先进的性能,但它们本质上关注实体对齐而不是知识图对齐。kg由两个基本组成部分组成:实体和关系。实体表示对应对象的内在属性,而关系表示实体之间的语义关联。直观地说,一个最佳的KGA模型应该能够在一个统一的框架内对齐实体和关系。然而,现有的研究主要集中在实体对齐上,往往忽略了关系对齐。这一缺陷导致只解决了所研究问题的部分方面,从而导致来自不同知识图的知识的不充分或错误集成。此外,关系仅用于提高实体嵌入的质量,而忽略了关系中固有的重要跨kg语义。

在下图中,关系“父亲”在KG-ZH中的语义与KG-EN中的“父亲”关系具有相同的语义。这种嵌入在关系中的语义相关性在很大程度上被忽视了,这可能限制了对跨kg信号的全面理解。与现有的实体对齐模型不同,本文旨在解决KGA的“完整”任务。我们的动机在于将KGA形式化为两个相互关联的子任务:实体对齐(EA)和关系对齐(RA)。与实体对齐类似,关系对齐旨在匹配不同kg之间的相同关系。这两个子任务相互依存,相互加强,产生协同效应,从而增强整体对齐过程。一方面,准确的实体对齐提供了有价值的上下文,极大地帮助了关系的对齐。例如,给定对齐的实体对<“拿破仑一世”,“Napoleon”>和<“拿破仑二世”,“Napoleon_II”>,可以直观地推断出连接这些实体的关系(即KG-ZH关系“父亲”和KG-EN关系“父亲”)倾向于共享相同的含义。另一方面,关系的精确对齐可以帮助加强实体对齐的一致性约束。例如,如果我们确定头部实体对<“拿破仑一世”,“拿破仑”>和关系对<“父亲”,“父亲”>是对齐的,则可以直接推断出尾部头部实体对<“卡洛·波拿巴”,“路易_波拿巴”>指的是同一个人。

虽然EA-RA对齐任务代表了具有共同进化潜力的全面努力,但它面临着几个挑战。首先,设计一个关系匹配模块来有效地对齐跨kg关系仍然很重要,特别是考虑到现有工作有限。一种直接的方法是基于文本相似度对关系进行对齐,这种方法忽略了关系的结构特征和相互关系实体在关系匹配中的文本重要性。其次,为EA和RA之间的相互迭代增强设计一个集成的框架提出了重大的挑战。实体对齐需要利用多个关系来实现更健壮的实体表示。相反,关系对齐需要考虑相互连接的实体,以有效地捕获与关系相关的上下文细微差别。在统一框架内平衡这些需求是一项复杂的任务,需要考虑实体和关系对齐的不同特征和目标。

为了应对上述挑战,我们提出了一个新的集成框架,用于EA和RA之间的相互增强,称为EREM。EREM由两个模块组成:实体匹配(E-step)模块和关系匹配(Mstep)模块,定义为变分期望最大化框架。在e步骤中,使用RA学习到的关系锚点对EA进行优化,目标是最大化实体锚点对应。在m步中,通过利用EA预测的实体锚点来优化RA,目的是最大化关系锚点之间的对应关系。EA和RA的匹配过程被表述为最优运输(OT)对齐任务,该任务通过Sinkhorn算法有效解决。在几个广泛使用的数据集上的实验结果证明了我们提出的框架的优越性能。值得注意的是,七种SOTA EA方法可以无缝地集成到EREM中,一致地显示性能改进。本文的贡献有三个方面:•据我们所知,我们是第一个将关系对齐概念化为一项独立任务的人。“完整的”知识图谱对齐任务被分解为两个不同但高度相关的子任务。

94e3c61d87061a718d5ee2579c1b2651.png

2. 方法

本节提供了拟议的EREM框架的详细说明。EREM包括三个基本组件:混合嵌入模块、实体匹配模块和关系匹配模块。混合嵌入模块负责将实体和关系编码到低维表示空间中,并生成实体锚点和关系锚点的初始集合。实体匹配模块和关系匹配模块旨在对齐跨kg的实体和关系,这两个匹配模块通过在e步(EA)和m步(RA)之间交替的迭代过程进行联合训练。

2.1 混合嵌入模块

现有的EA模型采用了各种类型的实体编码器,包括纯基于文本的模型(例如BERT、RoBERTa和DeBERTa)以及关系感知模型(例如TransD、TransH、TransR、PTransE)。为了适应这种多样性并增强通用性,构建了混合嵌入模块以支持多种类型的实体和关系编码器。对于实体,该模块集成了基于文本和关系感知的编码器。关系的嵌入是通过使用多语言语言模型对其标题进行编码来学习的。形式上,所选择的嵌入模块g旨在将实体e和关系r嵌入到嵌入  和  中,具体如下:

db49390142e6338f45abd8e64c35ef15.png

混合嵌入模块能够利用不同的编码器类型,从而促进所提出的训练框架的泛化。

2.2 实体匹配模块

这项工作将EA任务定义为最优运输(OT)问题,其目标是最小化全球运输距离。给定G中有m个实体,G '中有n个实体,实体成本矩阵  ∈R m×n由实体嵌入矩阵  、关系感知矩阵  和实体结构感知矩阵  之和计算,OT对齐过程形式为:

cdea872aad6923ad9236ea47feea01ad.png

其中Ψe为实体传输矩阵。

给定实体和关系锚点的输入,通过关系对齐来增强实体对齐的一种直接方法是根据对齐关系的条件获得高质量的实体锚点。这种方法的灵感来自于一个概率场景:“如果来自不同知识图的两个实体,共享相同的关系,连接到相同的实体,那么这两个实体很有可能是相同的”。这种概率场景强调了对齐关系在准确识别不同知识图中对应实体方面的重要性。鉴于我们的对齐目标是最大化基础真值对应,我们的工作将我们的实体对齐目标制定为最小化实体锚点和关系感知硬实体锚点的负对数似然。因此,EA的优化函数为:

9873bba93380bea44ef4dbfd4e8f34d4.png

3. 实验

3.1 数据集

DBP15K_ZH-EN数据集包含997对对齐关系对,而DBP15K_JAEN和DBP15K_FR-EN数据集分别包含684对和274对对齐关系对。表1提供了这些数据集的详细信息。为了验证EA和RA任务,我们的工作手动标记了DBP15K数据集中的数据以进行关系对齐。

3.2 评测指标

根据之前的研究(Yang et al., 2021), EA和RA的评价指标包括Hits@k (k = 1,10)和Mean Reciprocal Rank (MRR)。

3.3 基准线

我们的工作采用七种竞争性的KG对齐方法作为基线,包括基础的基于KG的技术和最新的先进方法。keg、GCNAlign、RotatE 和BootEA 是基于keg的方法。BERT-INT是基于SOTA bert的方法。FGWEA采用“嵌入模块和实体匹配模块”策略,即SOTA无监督方法。将法学硕士纳入我们的工作中,我们的工作利用ChatGLM-6b构建了一个基础模型。

3.4 实验设置

我们的工作使用Pytorch实现了我们的框架。对于我们的方法,常见的超参数如下:嵌入模块可以是LaBSE、keecg、BootEA、RotatE和GCN-Align,其嵌入维数为768、128、75、200和100。我们的工作更新了EA OT对齐的8次迭代(T = 8), RA OT对齐采用Sinkhorn算法求解(熵正则化权值设为0.1)。λ设为1e-5。λ设为1。奖励α设置为2。使用LaBSE作为嵌入模块,将实体和关系的名称和属性信息编码为文本语义向量。对于keecg, BootEA, RotatE和GCN-Align, 30%的监督标记实体信息被删除以构建测试集,以防止在验证阶段数据泄漏。在我们的实验中,我们的工作没有使用DBP15K的翻译版本。我们的实验是在使用GeForce GTX 3090 GPU的工作站上进行的。

3.5 实验结果

实体对齐的性能分析。所有模型在实体对齐任务上的结果如表2所示。从结果来看,我们的工作有以下发现。与所有三个数据集上最强基线FGWEA相比,我们的EREM在Hits@1上实现了0.1%至0.4%的相对改进,在Hits@10上实现了0.1%的相对改进。对于BERT-INT, EREM在Hits@1上实现了0.4%到2.9%的相对改进,在Hits@10上实现了0.2%到1.0%的相对改进。基于kge的模型可视为嵌入模型,并使用EREM对其进行优化。通过EREM, keecg可以提高平均Hits@1分数34.2%,GCNAlign可以提高平均Hits@1分数33.6%,RotatE可以提高平均Hits@1分数25.4%,BootEA可以提高平均Hits@1分数27.9%。ChatGLM6b可以将平均Hits@1分数提高5.6%。这些改进证明了我们的建议的优越性,以及利用EM优化联合训练EA和RA的有效性。

5caf948cb29b55950419999fa0bafead.png

4. 总结

EREM主要由实体匹配模块和关系匹配模块组成,使用EM优化框架对EA和RA进行多重增强。EREM通过e -步骤和m -步骤交替更新EA和RA。在每个步骤中,EA和RA都通过学习其他模块预测的锚点来相互增强。此外,我们的工作将llm应用于eem并设计CoT策略。在EA和RA验证数据集上进行的大量实验证明了EREM的有效性和效率。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

4d8f90f3a7014b66077b3b34f8359013.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2085398.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文带你了解可观测领域中APM与eBPF的技术差异

近年来&#xff0c;随着eBPF技术的兴起&#xff0c;很多人有这样的疑惑&#xff1a;eBPF和APM有什么区别&#xff1f;他们是竞争关系还是合作关系&#xff1f;本文将就此展开讨论&#xff0c;并给出切实有效的落地方案。 01APM APM全称&#xff1a;Application Performance Ma…

vulhub xxe靶机

步骤一&#xff0c;访问浏览器 步骤二&#xff0c;输入/robots.txt 步骤三&#xff0c;发现存在用户登录的一个界面/xxe 我们登录进去 步骤四&#xff0c;随便输入一个数字或者字母打开BP 抓到包之后发送的重放器里边 通过抓包发现是XML数据提交 步骤五&#xff0c;通过php…

【采集软件】抖音根据关键词批量采集搜索结果工具

这是我用Python开发的抖音关键词搜索采集工具软件。 软件界面截图&#xff1a; 爬取结果截图&#xff1a; 软件演示视频&#xff1a; https://www.bilibili.com/video/BV1Fc41147Be 完整讲解文章&#xff1a; https://www.bilibili.com/read/cv33750458

高翔【自动驾驶与机器人中的SLAM技术】学习笔记(九)imu运动学;lambda表达式;bind;function;std::move()

一、IMU运动学 1、测量值&#xff1a; 常用六轴IMU是由陀螺仪&#xff08;Gyroscope&#xff09;和加速度计&#xff08;Acclerator&#xff09;两部分组成。 陀螺仪测量&#xff1a;角速度。加速度计&#xff1a;加速度。 安装要尽量保证IMU的安装位置在车辆中心。避免由I…

基于SOA-BP海鸥优化BP神经网络实现数据预测Python实现

BP神经网络是一种多层前馈神经网络&#xff0c;它通过反向传播算法来训练网络中的权重和偏置&#xff0c;以最小化预测误差。然而&#xff0c;BP神经网络的性能很大程度上依赖于其初始参数的选择&#xff0c;这可能导致训练过程陷入局部最优解。海鸥优化算法因其探索和开发能力…

基于vue框架的残疾人就业帮扶平台97c5w(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户,企业,招聘信息,类型,求职信息,投递信息,邀请信息,通知信息,帮扶政策,申请信息,意见反馈 开题报告内容 基于Vue框架的残疾人就业帮扶平台开题报告 一、选题背景与意义 随着社会的文明进步和经济的快速发展&#xff0c;残疾人群体…

flannel,etcd,docker

bridge容器 听有容器连接到桥就可以使用外网&#xff0c;使用nat让容器可以访问外网使用ipas指令查看桥&#xff0c;所有容器连接到此桥&#xff0c;ip地址都是172.17.0.0/16网段&#xff0c;桥是启动docker服务后出现&#xff0c;在centos使用bridge-utils安装 跨主机的容器…

第一次使用PyCharm写C++(失败)

前言&#xff1a; 由于我已经非常习惯使用PyCharm远程连接服务器了&#xff0c;我认为非常方便&#xff0c;所以希望C也能直接用Pycharm。于是尝试在PyCharm上部署C环境。 但是&#xff0c;我失败了。如果您知道问题所在&#xff0c;欢迎给我留言。我认为Pycharm并没有编译C/C…

Windows电脑微信可以登录发消息,但是网页打不开的解决方法:刷新DNS缓存

遇到的问题 今天实验室的电脑突然网页打不开&#xff0c;baidu上不了&#xff0c;chrome浏览器也上不了。但是ping baidu.com能够ping通&#xff0c;github pull也可以&#xff0c;网易云可以听歌。也就是说网络是通的&#xff0c;但是浏览器无法上网。 解决方法 我是通过 W…

直播商城APP开发指南:基于多商户商城系统源码的实现

对于开发者而言&#xff0c;构建一个功能完备、性能优越的直播商城APP已经成为当前技术领域的一个重要方向。本文将以多商户商城系统源码为基础&#xff0c;深入探讨如何高效开发一个直播商城APP。 一、多商户商城系统的核心概念 多商户商城系统是一种支持多个商家在同一平台…

深度解读SGM41511电源管理芯片I2C通讯协议REG09寄存器解释

REG09 是 SGM41511 的第十个寄存器&#xff0c;地址为 0x09。这是一个只读&#xff08;R&#xff09;寄存器&#xff0c;用于报告各种故障状态。上电复位值&#xff08;PORV&#xff09;为 xxxxxxxx&#xff0c;表示上电时的初始状态是不确定的。这个寄存器提供了充电器当前故障…

【Python机器学习】NLP词频背后的含义——从词频到主题得分

目录 TF-IDF向量及词形归并 主题向量 一个思想实验 一个主题评分算法 一个LDA分类器 LDiA TF-IDF向量&#xff08;词项频率—逆文档频率向量&#xff09;可以帮助我们估算词在文本块中的重要度&#xff0c;我们使用TF-IDF向量和矩阵可以表明每个词对于文档集合中的一小段…

【hot100篇-python刷题记录】【跳跃游戏】

R6-贪心算法 符合贪心的原因是&#xff1a; 我们要走到最后可以每次都选择尽可能远的来走&#xff0c;其次&#xff0c;能走到该步意味着该步以前都能到达。因此&#xff0c;局部最优解可以代表全局最优解。 class Solution:def canJump(self, nums: List[int]) -> bool:#最…

全志/RK安卓屏一体机:智能家居中控屏,支持鸿蒙国产化

智能家居中控屏 智能家居中控屏功能 智能中控屏作为全屋智能解决方案中的重要组成部分&#xff0c;融合智能开关面板、智能音箱、万能遥控、可视对讲、智能网关等设备&#xff0c;用一块屏承担起联动控制、人机交互、信息显示、个性化服务等功能。 智能中控屏是智能家居控制管…

cesium 轨迹线

在智慧城市项目中&#xff0c;轨迹线一般用来表现城市道路的流动效果。和cesium动态线篇效果类似&#xff0c;只是这里是通过设置高亮占比&#xff0c;而不是通过传入一张图片。 1. 自定义TrialFlowMaterialProperty类 1.1. 自定义 TrialFlowMaterialProperty 类 /** Descri…

MES管理系统助力印刷企业实现智能化工艺流程

在印刷这一古老而充满活力的行业中&#xff0c;科技的浪潮正以前所未有的速度重塑着每一个生产环节。随着制造业数字化转型的深入&#xff0c;引入MES管理系统&#xff0c;为印刷企业带来了从原材料入库到成品出库的全流程智能化变革&#xff0c;不仅提升了生产效率&#xff0c…

基于SpringBoot+Vue+MySQL的网上商城系统

系统背景 随着社会的快速发展&#xff0c;计算机的影响是全面且深入的。人们生活水平的不断提高&#xff0c;日常生活中人们对网上商城购物系统方面的要求也在不断提高&#xff0c;购物的人数更是不断增加&#xff0c;使得网上商城购物系统的开发成为必需而且紧迫的事情。网上商…

无人机图传通信模组,抗干扰、稳定传输,8公里图传模组原理

在蔚蓝的天空下&#xff0c;无人机如同自由的精灵&#xff0c;穿梭于云间&#xff0c;为我们捕捉那些令人心动的瞬间。而在这背后&#xff0c;有一项技术正悄然改变着航拍的世界&#xff0c;那就是无人机图传通信模组。今天&#xff0c;就让我们一起揭开它的神秘面纱&#xff0…

在蓝桥云课ROS中快速搭建Arduino开发环境

普通方式 一步步慢悠悠的搭建和讲解需要5-6分钟&#xff1a; 如何在蓝桥云课ROS中搭建Arduino开发环境 视频时间&#xff1a;6分40秒 高效方式 如何高效率在蓝桥云课ROS中搭建Arduino开发环境 视频时间&#xff1a;1分45秒 配置和上传程序到开发板 上传程序又称为下载程序h…

匠心服务·智启新程丨2025华清远见新品发布会在北京隆重举行

2024年8月23日&#xff0c;华清远见教育科技集团的“匠心服务智启新程”2025新品发布会在北京隆重举行。云集多位行业专家学者、知名企业代表&#xff0c;聚焦市场新动向&#xff0c;站在行业技术最前沿&#xff0c;以多元化视角深入解读当前行业面临的新机遇新挑战&#xff0c…