ZeroEA阅读笔记

news2024/9/19 22:10:57

ZeroEA阅读笔记

摘要

实体对齐(EA)是知识图(KG)研究中的一项关键任务,旨在识别不同知识图谱中的等效实体,以支持知识图谱集成、文本到SQL和问答系统等下游任务。考虑到KG中丰富的语义信息,预训练语言模型(PLM)凭借其卓越的上下文感知编码功能,在EA任务中展现出了良好的前景。然而,当前基于PLM的解决方案遇到了一些障碍,例如需要大量培训、昂贵的数据注释以及结构信息的结合不足。在本研究中,我们引入了一种新颖的零训练EA框架ZeroEA,它可以有效地捕获PLM的语义和结构信息。具体来说,Graph2Prompt模块通过将KG拓扑转换为适合PLM输入的文本上下文,充当图结构和纯文本之间的桥梁。此外,为了向PLM提供简洁、清晰、长度合理的输入文本,我们设计了一个基于motif的邻域过滤器来消除嘈杂的邻域。对5个基准数据集的综合实验和分析证明了ZeroEA的有效性,超越了所有领先的竞争对手,并在实体对齐方面实现了最先进的性能。值得注意的是,我们的研究强调了EA技术在提高下游任务性能方面的巨大潜力,从而使更广泛的研究领域受益。

引言

大多数现有的EA解决方案通过强化训练将来自不同知识图谱的实体和关系编码到同一向量空间中,然后根据相似性测量进行预测。成功 EA 的关键是正确编码结构信息和语义信息。这两个维度构成了现有EA方法的两大类。大多数现有的EA方法属于基于结构的方法,该方法精心设计了图拓扑编码器,例如TransE和图神经网络(GNN),如图 2(a)所示。

另一方面,基于语义的方法利用PLM(例如 BERT)来捕获KG的文本语义信息,如图2(b)所示。该小组在现有解决方案中实现了最先进的性能。例如,BERT-INT对KG语义信息上的PLM进行微调(在第2节中定义),但无法组合结构信息。SDEA利用PLM对实体属性信息进行编码,并训练基于变压器的神经网络来捕获邻居的语义信息。

经过对流行的基于语义的方法的详细调查和比较:(a) 它们高度依赖于PLM上的强化训练或微调,并依赖于大量数据标签注释,这在网络规模的KG中成本高昂,甚至有时在现实世界中无法实现。(b) 他们对邻居的定义是基于边连接的。然而,流行的实体节点在大规模KG中具有太多边连接的邻居,这会分散EA模型的注意力并引入噪声,导致性能较差。此外,鉴于不同的邻居对目标节点的贡献不同,它们应该被分配不同程度的关注,正如最近的研究所建议的。© 在现有文献中,尚未研究EA对下游任务的影响。在这项工作中,我们将文本到SQL作为我们的主要下游任务,目标是弥合这一研究差距,并为EA增强型下游应用程序的开发提供有价值的见解。

在这项工作中,我们提出了ZeroEA,一种使用PLM的新型零训练EA框架,如图2© 所示,它通过提供高质量的离散提示(即输入PLM的文本序列)来唤起PLM中固有的知识。ZeroEA采用Graph2Prompt模块将KG拓扑信息转换为具有大量上下文的离散提示。 Graph2Prompt 模块使PLM能够理解和使用图形技术(例如,频繁的小的子图或motif)。 由于motif可以识别抗噪声的稳定结构(或高阶结构),因此我们提出的基于motif的邻域过滤器可以与PLM一起使用,以消除噪声并精确捕获信息。因此,与其他基于语义的监督方法相比,ZeroEA 无需微调,可以捕获更丰富的结构信息,同时不会丢失语义信息。

image-20240818222439480

相关工作

近几十年来的实体对齐研究可以分为基于规则的、基于众包的、深度学习(DL)和基于PLM的方法。基于深度学习的方法,特别是基于嵌入的策略,已经表现出优越的性能。这些方法通常使用TransE来训练KG 嵌入,但较新的方法考虑KG结构并使用图神经网络或基于注意力的机制。最近的一些工作侧重于多模式EA,例如MEAformer。有些还结合了语义信息或属性值以提高性能。然而,PLM训练成本高昂且耗时,因此我们的工作旨在使用KG中的结构和语义信息,而无需进行大量训练。

尽管实体对齐(EA)任务取得了进展,但它们对下游任务(例如文本到SQL中的模式链接和基于知识图的问答(KGQA))的影响尚未得到充分研究。EA对于这些复杂的任务至关重要,通过精确的实体对齐可以显着改善这些任务。我们是第一个研究EA对下游任务影响的人。

本文方法

image-20240818222520605

ZeroEA 框架由三个主要组件组成:

(1)提示生成模块(PGM),它将 KG 拓扑转换为文本离散提示,其中包含来自过滤邻域的大量上下文信息。

(2)嵌入模块 (EM) 将 PGM 生成的离散提示作为所选 PLM 的输入,并输出每个目标实体的上下文感知嵌入。使用 BERT作为编码器。

(3)EA预测模块,计算候选实体之间的相似度并据此进行对齐预测。

3.1 Prompt Generation Module (PGM)

基于Motif的邻域过滤器。 邻域过滤器旨在滤除目标节点的嘈杂邻居。捕获结构信息最流行的方法是聚合来自邻居的信息。此外,PLM 还具有输入长度限制。为了滤除噪声并控制 PLM 的输入长度,提出了一种基于Motif的邻域过滤器。

对于基于Motif的邻域过滤器,通过以下方式计算每个图节点的嵌入:(1)找到其Motif邻居及其边缘;(2) 将这些边翻译成一个句子;(3) 将句子组合成段落,(4) 将段落传递到 PLM 模型以生成节点的嵌入。为了枚举Motif实例,使用E-CLoG,这是一种最先进的局部子图枚举算法,可以有效地找到大型子图的实例。

为了维持具有合理大小的高质量邻域,我们为邻域分配不同的重要性值并选择最重要的邻域。使用以下基线方法来选择邻域过滤器模块中的邻居: (1)n-hop neighbors:选择所有n跳邻居,其中n是用户决定的整数。 (2)n-hop motif neighbors:选择所有n跳motif邻居(即具有到目标节点的n-hop 主题路径的所有邻居,其中主题路径是一个或多个主题实例的串联)。 (3) IND:基于边的邻居根据节点度进行排序。 (4) M-IND:Motif邻居根据Motif度(即包括给定节点的基序实例的数量)值进行排序。

Graph2Prompt. 应用Graph2Prompt操作后,从邻域过滤器中选择前k个邻居被连接在一起成为离散提示,然后可以输入到 PLM。

嵌入模块(EM) 。输入标记列表T的嵌入(即语义表示)由多层双向 Transformer进行编码。 每个Transformer 层都有两个子层,即多头自注意力网络(MHA)和全连接前向网络(FFN)。 综上所述,可以获取实体ei的最后一层BERT语义隐藏状态。
E e i = E n c Θ ( P r o m p t e i ) \mathbf{E}_{e_i}=\mathrm{Enc}_\Theta(Prompt_{e_i}) Eei=EncΘ(Promptei)
实体对齐预测。获取所有实体嵌入后,目标实体嵌入Et和候选实体嵌入Ec之间的相似度得分可以通过余弦相似度来测量。
cos ⁡ ( E t , E c ) = E t ⋅ E c ∥ E t ∥ ∥ E c ∥ \cos(\mathbf{E}_t,\mathbf{E}_c)=\frac{\mathbf{E}_t\cdot\mathbf{E}_c}{\|\mathbf{E}_t\|\|\mathbf{E}_c\|} cos(Et,Ec)=Et∥∥EcEtEc
自动工具使用策略:为了解决PLM的局限性,例如无法访问最新知识,提出了一种基于工具的新颖框架,在该框架下ZeroEA可以自动使用工具来扩展其能力。提出了使用应满足以下要求的工具的感知策略:(1)工具的使用应以自动方式进行,无需任何人工监督注释。(2)工具的使用应该是按需使用,决定何时使用、如何使用工具,而不是到处使用所有工具。以网页搜索工具为例。直观上,当翻译质量不理想或者特定实体的节点度较低时,应该使用该工具。

对于翻译质量测量过程,当给定长度为m的源文本序列S和长度为n的目标文本序列T时,Rouge-L分数测量如下:其中LCS(S,T)表示公共子序列S和T的最大长度,并且 β = P l c s / R l c s \beta=P_{lcs}/R_{lcs} β=Plcs/Rlcs

令Flcs表示Rouge-L分数, α \alpha α表示Rouge-L阈值, γ \gamma γ表示用户设置的实体度阈值。如果Flcs低于 α \alpha α或实体度小于 γ \gamma γ,则应用网络搜索工具。在这种情况下,Web搜索工具会输出附加信息以增强实体表示。
WebSearch ( e i ) = { K E , if F l c s < α or degree ( e i ) < γ None , otherwise \text{WebSearch}(e_i)=\begin{cases}K_E,&\text{if}F_{lcs}<\alpha\text{or degree}(e_i)<\gamma\\\text{None},&\text{otherwise}\end{cases} WebSearch(ei)={KE,None,ifFlcs<αor degree(ei)<γotherwise

实验

数据集

(1)DBP15K

(2)DWY100K

(3)DBP1M

(4)SPIDER:SPIDER是一个大规模、复杂、跨域的文本到SQL数据集。

评估指标:hits@K和平均倒数排名(MRR)。

比较方法:将ZeroEA与: 1.需要使用100%EA训练集数据的监督方法。 2.无监督和自监督,不需要利用EA的任何训练集数据。

image-20240818223007057

ZeroEA的表现显着优于监督基线组、无监督基线组和自监督基线组。 1.与监督组相比,ZeroEA在ZH-EN、JA-EN和FR-EN上表现均优于最佳基线,这表明强化训练并不是必需的,并且通过适当的上下文信息,PLM处理结构化KG数据的能力非常出色。 2.在无监督和自监督组中,ZeroEA在ZHEN、JA-EN和FR-EN上的表现均优于基于GNN的新型无监督解决方案SelfKG,这表明ZeroEA可以在相同的低资源条件下以更有效的方式对知识图谱的结构和语义信息进行编码。并且ZeroEA成为EA中新的最先进模型,甚至没有训练过程,展示了ZeroEA在零样本条件下强大的泛化能力。

image-20240818223022515

消融研究。(1)如果没有我们提出的模型的基础Graph2Prompt,性能会急剧下降约50%。这表明预训练语言模型(PLM)擅长处理文本数据而不是结构化图形数据。(2)当去除邻域过滤模块时,性能从2.7%降低到3.8%,表明motif带来的高阶信息对于EA任务非常有益。(3)网络搜索工具的性能下降了4.6%至15%,这表明其处理低质量翻译噪音的强大能力以及拥有有限结构和语义信息的实体比例相当大。DBP15k中大约40%的实体的度数小于5,因此拥有有限的结构信息。这一观察结果强调了利用外部知识来补充单个知识图(KG)中不完整信息的重要性,最终有利于依赖这些知识的任务。(4)去掉Translator工具后,性能下降很大,甚至下降70%以上。这种减少与两种语言之间的相似性相关。它表明BERT处理低资源(即非英语)语言的能力有限。

image-20240818223116764

image-20240818223125197

image-20240818223135298

图8显示了SPIDER数据集上的文本到SQL性能,配备了各种EA增强模式链接。Base表示称为Graphix-base的普通模型,而ZeroEA_𝛼表示带有用于包含新关系的𝛼阈值的Graphix-base模型。结果表明,(a)使用ZeroEA的Graphix-base模型在下游任务中优于标准Graphix-base模型,当阈值设置为0.6时实现最佳性能。(b)此外,表4显示EA为基于Graphix的模型的模式链接提供了最显着的增强。©值得注意的是,模式链接F1与最终文本到SQL的性能之间存在明显的正相关性,如图8所示。这表明EA可以使下游任务受益,从而激发对其进行进一步探索。对下游各项任务的影响。

image-20240818223104058image-20240818223054719

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2056023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用SSMS操作AdventureWorks 示例数据库

简介 AdventureWorks 示例数据库&#xff0c;官方文档&#xff1a;https://learn.microsoft.com/zh-cn/sql/samples/adventureworks-install-configure?viewsql-server-ver16&tabsssms 下载备份文件 OLTP 数据适用于大多数典型的联机事务处理工作负载。数据仓库 (DW) 数据…

网络设备监控工具 PIGOSS BSM 网络设备-Ruijie设备SNMP配置及监控

目录 1. 全局模式 2. 配置SNMP V2 3. 配置SNMP V3 4. 配置SNMP Trap 5. 保存配置 6. 查看配置结果 7. 锐捷设备监控 1. 全局模式 SNMP 的配置工作在网络设备的全局配置模式下完成&#xff0c;在进行SNMP 配置前&#xff0c;请先进入全局配置模式。 Ruijie>enable …

Excel“取消工作表保护”忘记密码并恢复原始密码

文章目录 1.前言2.破解步骤3. 最终效果4.参考文献 1.前言 有时候别人发来的Excel中有些表格不能编辑&#xff0c;提示如下&#xff0c;但是又不知道原始密码 2.破解步骤 1、打开您需要破解保护密码的Excel文件&#xff1b; 2、依次点击菜单栏上的视图—宏----录制宏&#xf…

Spring Boot内嵌Tomcat处理请求的链接数和线程数

Spring Boot内嵌Tomcat处理请求的连接数和线程数 处理请求的连接数和线程数配置 Spring Boot的配置项 #等待连接数 server.tomcat.accept-count100 #最大链连接数 server.tomcat.max-connections8192#最小备用线程数 server.tomcat.threads.min-spare10 #最大工作线程数 ser…

【git命令相关】git上传和删除文件步骤

&#xff08;一&#xff09;git登录 1. git bash窗口输入 git config --global user.name "你的Git账号" git config --global user. Email "你的Git邮箱"2. 生成密钥 ssh-keygen -t rsa -C "你的Git邮箱"在此命令执行的返回结果中找到key存放…

海康VisionMaster使用学习笔记11-VisionMaster基本操作

VisionMaster基本操作 VM示例方案 1. 工具拖拽及使用方式 分别从采集和定位栏里拖拽图像源,快速匹配,Blob分析工具 2. 模块连线 依次连线 3.如何订阅 点击快速匹配,可以看到输入源已订阅了图像1的图像,Blob分析类似 4. 方案操作及全局触发 点击快速匹配,创建特征模版,框选…

vue-cli搭建过程,elementUI搭建使用过程

vue-cli vue-cli 官方提供的一个脚手架&#xff0c;用于快速生成一个 vue 的项目模板&#xff1b;预先定义 好的目录结构及基础代码&#xff0c;就好比咱们在创建 Maven 项目时可以选择创建一个 骨架项目&#xff0c;这个骨架项目就是脚手架&#xff0c;我们的开发更加的快速。…

深兰科技荣获CFS第十三届财经峰会“2024杰出出海品牌引领奖”

近日&#xff0c;以“向新而行&#xff0c;新质生产力激发新活力”为主题的“CFS2024第十三届财经峰会暨Amazing 2024创新企业家节”在北京隆重开幕。峰会揭晓了第十三届“CFS 2024企业奖”的评选结果&#xff0c;深兰科技凭借自身在AI机器人出口和海外市场开拓等品牌全球化方面…

60KW~180KW一体式充电桩电路方案!

本次小编给大家带来了一款60KW~180KW的一体式充电桩电路方案&#xff0c;本方案包含接线图&#xff0c;电路原理图&#xff0c;PCB图&#xff0c;BOM&#xff0c;协议说明&#xff0c;产品标准等资料&#xff01; 下载链接&#xff01;https://t.1yb.co/KW1R 本方案采用STM32F…

std::wcout,std::cout控制台输出中文乱码,std::cerr字符串的字符无效

系列文章目录 文章目录 系列文章目录前言一、中文乱码原因二、解决方法1.如果是windos11下&#xff0c;使用英文语言&#xff0c;需要加以下代码2.如果是中文语言只需要一行关键代码3.如果在异常处理中显示宽字符中文4.完整代码如下&#xff1a;实现文件测试代码输出打印 前言 …

【图像特效系列】图像毛玻璃特效的实践 | 包含代码和效果图

目录 一 毛玻璃特效 1 代码 2 效果图 图像特效系列主要是对输入的图像进行处理,生成指定特效效果的图片。图像素描特效会将图像的边界都凸显出来;图像怀旧特效是指图像经历岁月的昏暗效果;图像光照特效是指图像存在一个类似于灯光的光晕特效,图像像素值围绕光照中心点呈…

极光推送(JPush)携手中大英才,打造智慧教育新模式

随着互联网技术的快速发展&#xff0c;在线教育行业蓬勃兴起&#xff0c;用户对学习体验的要求也越来越高。作为国内领先的职业技能知识培训服务商&#xff0c;中大英才(北京)网络教育科技有限公司(简称“中大英才”)始终致力于为多层次求知学习人士提供专业化、智能化和科学化…

实战演练:通过API获取商品详情并展示

实战演练&#xff1a;通过API获取商品详情并展示&#xff0c;通常涉及以下几个步骤&#xff1a;确定API接口、发送HTTP请求、处理响应数据、以及将数据展示给用户。这里我们以一个假想的商品详情API为例&#xff0c;使用Python语言和requests库来完成这个任务。 步骤 1: 确定A…

DMHS数据同步工具

DMHS数据同步工具 ​ 本章节主要介绍DM数据同步工具DMHS的使用&#xff0c;通过将oracle11g的数据同步到DM8的过程来理解DMHS的功能和作用。 安装前的准备 端口、服务信息 IP地址服务名称版本端口安装路径192.168.19.136OracleOracle11.0.21521/opt/oracle/DMHS源端dmhs_V3…

第100+22步 ChatGPT学习:概率校准 Platt Scaling

基于Python 3.9版本演示 一、写在前面 最近看了一篇在Lancet子刊《eClinicalMedicine》上发表的机器学习分类的文章&#xff1a;《Development of a novel dementia risk prediction model in the general population: A large, longitudinal, population-based machine-learn…

MapBox Android版开发 1 配置

MapBox Android版开发 1 配置 前言MapBox V9 配置创建工程配置地图配置私钥配置公钥配置仓库配置依赖配置权限地图初始化 显示地图布局文件地图Activity 运行效果 MapBox V11 配置创建工程配置地图配置私钥配置公钥配置仓库配置依赖配置权限 显示地图布局文件 运行效果 前言 本…

ee trade:黄金投资与股票投资的区别

黄金和股票&#xff0c; 是金融市场中两种常见的投资工具&#xff0c; 它们拥有截然不同的特点和风险&#xff0c; 了解它们的差异&#xff0c; 可以帮助投资者制定更合理的投资策略。 一、 投资性质&#xff1a; 避险与成长&#xff0c; 两种投资方向 黄金&#xff1a; 被视…

金价徘徊高位,市场聚焦美联储降息预期

现货黄金高位震荡 周二亚市早盘&#xff0c;现货黄金在2500美元/盎司关口附近徘徊&#xff0c;交投于2503.23美元/盎司附近。金价周一在创纪录的高位后出现回调&#xff0c;投资者从涨势中获利了结&#xff0c;并根据美联储的线索调整仓位&#xff0c;现货黄金最终收报2504.1…

Vue - 详细介绍 vue-monoplasty-slide-verify vue3-puzzle-vcode 滑动验证组件

Vue - 详细介绍 vue-monoplasty-slide-verify & vue3-puzzle-vcode 滑动验证组件 在日常的账号登录所需要的大部分是滑动验证来检验人为操作&#xff0c;免于字母验证码的繁琐输入&#xff0c;下面介绍在Vue2和Vue3中适用的滑动验证组件。 1、vue-monoplasty-slide-verif…

【GitLab】使用 Docker 安装 3:gitlab-ce:17.3.0-ce.0 配置

参考阿里云的教程docker的重启 sudo systemctl daemon-reload sudo systemctl restart docker配置 –publish 8443:443 --publish 8084:80 --publish 22:22 sudo docker ps -a 當容器狀態為healthy時,說明GitLab容器已經正常啟動。 root@k8s-master-pfsrv:~