ZeroEA阅读笔记
摘要
实体对齐(EA)是知识图(KG)研究中的一项关键任务,旨在识别不同知识图谱中的等效实体,以支持知识图谱集成、文本到SQL和问答系统等下游任务。考虑到KG中丰富的语义信息,预训练语言模型(PLM)凭借其卓越的上下文感知编码功能,在EA任务中展现出了良好的前景。然而,当前基于PLM的解决方案遇到了一些障碍,例如需要大量培训、昂贵的数据注释以及结构信息的结合不足。在本研究中,我们引入了一种新颖的零训练EA框架ZeroEA,它可以有效地捕获PLM的语义和结构信息。具体来说,Graph2Prompt模块通过将KG拓扑转换为适合PLM输入的文本上下文,充当图结构和纯文本之间的桥梁。此外,为了向PLM提供简洁、清晰、长度合理的输入文本,我们设计了一个基于motif的邻域过滤器来消除嘈杂的邻域。对5个基准数据集的综合实验和分析证明了ZeroEA的有效性,超越了所有领先的竞争对手,并在实体对齐方面实现了最先进的性能。值得注意的是,我们的研究强调了EA技术在提高下游任务性能方面的巨大潜力,从而使更广泛的研究领域受益。
引言
大多数现有的EA解决方案通过强化训练将来自不同知识图谱的实体和关系编码到同一向量空间中,然后根据相似性测量进行预测。成功 EA 的关键是正确编码结构信息和语义信息。这两个维度构成了现有EA方法的两大类。大多数现有的EA方法属于基于结构的方法,该方法精心设计了图拓扑编码器,例如TransE和图神经网络(GNN),如图 2(a)所示。
另一方面,基于语义的方法利用PLM(例如 BERT)来捕获KG的文本语义信息,如图2(b)所示。该小组在现有解决方案中实现了最先进的性能。例如,BERT-INT对KG语义信息上的PLM进行微调(在第2节中定义),但无法组合结构信息。SDEA利用PLM对实体属性信息进行编码,并训练基于变压器的神经网络来捕获邻居的语义信息。
经过对流行的基于语义的方法的详细调查和比较:(a) 它们高度依赖于PLM上的强化训练或微调,并依赖于大量数据标签注释,这在网络规模的KG中成本高昂,甚至有时在现实世界中无法实现。(b) 他们对邻居的定义是基于边连接的。然而,流行的实体节点在大规模KG中具有太多边连接的邻居,这会分散EA模型的注意力并引入噪声,导致性能较差。此外,鉴于不同的邻居对目标节点的贡献不同,它们应该被分配不同程度的关注,正如最近的研究所建议的。© 在现有文献中,尚未研究EA对下游任务的影响。在这项工作中,我们将文本到SQL作为我们的主要下游任务,目标是弥合这一研究差距,并为EA增强型下游应用程序的开发提供有价值的见解。
在这项工作中,我们提出了ZeroEA,一种使用PLM的新型零训练EA框架,如图2© 所示,它通过提供高质量的离散提示(即输入PLM的文本序列)来唤起PLM中固有的知识。ZeroEA采用Graph2Prompt模块将KG拓扑信息转换为具有大量上下文的离散提示。 Graph2Prompt 模块使PLM能够理解和使用图形技术(例如,频繁的小的子图或motif)。 由于motif可以识别抗噪声的稳定结构(或高阶结构),因此我们提出的基于motif的邻域过滤器可以与PLM一起使用,以消除噪声并精确捕获信息。因此,与其他基于语义的监督方法相比,ZeroEA 无需微调,可以捕获更丰富的结构信息,同时不会丢失语义信息。
相关工作
近几十年来的实体对齐研究可以分为基于规则的、基于众包的、深度学习(DL)和基于PLM的方法。基于深度学习的方法,特别是基于嵌入的策略,已经表现出优越的性能。这些方法通常使用TransE来训练KG 嵌入,但较新的方法考虑KG结构并使用图神经网络或基于注意力的机制。最近的一些工作侧重于多模式EA,例如MEAformer。有些还结合了语义信息或属性值以提高性能。然而,PLM训练成本高昂且耗时,因此我们的工作旨在使用KG中的结构和语义信息,而无需进行大量训练。
尽管实体对齐(EA)任务取得了进展,但它们对下游任务(例如文本到SQL中的模式链接和基于知识图的问答(KGQA))的影响尚未得到充分研究。EA对于这些复杂的任务至关重要,通过精确的实体对齐可以显着改善这些任务。我们是第一个研究EA对下游任务影响的人。
本文方法
ZeroEA 框架由三个主要组件组成:
(1)提示生成模块(PGM),它将 KG 拓扑转换为文本离散提示,其中包含来自过滤邻域的大量上下文信息。
(2)嵌入模块 (EM) 将 PGM 生成的离散提示作为所选 PLM 的输入,并输出每个目标实体的上下文感知嵌入。使用 BERT作为编码器。
(3)EA预测模块,计算候选实体之间的相似度并据此进行对齐预测。
3.1 Prompt Generation Module (PGM)
基于Motif的邻域过滤器。 邻域过滤器旨在滤除目标节点的嘈杂邻居。捕获结构信息最流行的方法是聚合来自邻居的信息。此外,PLM 还具有输入长度限制。为了滤除噪声并控制 PLM 的输入长度,提出了一种基于Motif的邻域过滤器。
对于基于Motif的邻域过滤器,通过以下方式计算每个图节点的嵌入:(1)找到其Motif邻居及其边缘;(2) 将这些边翻译成一个句子;(3) 将句子组合成段落,(4) 将段落传递到 PLM 模型以生成节点的嵌入。为了枚举Motif实例,使用E-CLoG,这是一种最先进的局部子图枚举算法,可以有效地找到大型子图的实例。
为了维持具有合理大小的高质量邻域,我们为邻域分配不同的重要性值并选择最重要的邻域。使用以下基线方法来选择邻域过滤器模块中的邻居: (1)n-hop neighbors:选择所有n跳邻居,其中n是用户决定的整数。 (2)n-hop motif neighbors:选择所有n跳motif邻居(即具有到目标节点的n-hop 主题路径的所有邻居,其中主题路径是一个或多个主题实例的串联)。 (3) IND:基于边的邻居根据节点度进行排序。 (4) M-IND:Motif邻居根据Motif度(即包括给定节点的基序实例的数量)值进行排序。
Graph2Prompt. 应用Graph2Prompt操作后,从邻域过滤器中选择前k个邻居被连接在一起成为离散提示,然后可以输入到 PLM。
嵌入模块(EM) 。输入标记列表T的嵌入(即语义表示)由多层双向 Transformer进行编码。 每个Transformer 层都有两个子层,即多头自注意力网络(MHA)和全连接前向网络(FFN)。 综上所述,可以获取实体ei的最后一层BERT语义隐藏状态。
E
e
i
=
E
n
c
Θ
(
P
r
o
m
p
t
e
i
)
\mathbf{E}_{e_i}=\mathrm{Enc}_\Theta(Prompt_{e_i})
Eei=EncΘ(Promptei)
实体对齐预测。获取所有实体嵌入后,目标实体嵌入Et和候选实体嵌入Ec之间的相似度得分可以通过余弦相似度来测量。
cos
(
E
t
,
E
c
)
=
E
t
⋅
E
c
∥
E
t
∥
∥
E
c
∥
\cos(\mathbf{E}_t,\mathbf{E}_c)=\frac{\mathbf{E}_t\cdot\mathbf{E}_c}{\|\mathbf{E}_t\|\|\mathbf{E}_c\|}
cos(Et,Ec)=∥Et∥∥Ec∥Et⋅Ec
自动工具使用策略:为了解决PLM的局限性,例如无法访问最新知识,提出了一种基于工具的新颖框架,在该框架下ZeroEA可以自动使用工具来扩展其能力。提出了使用应满足以下要求的工具的感知策略:(1)工具的使用应以自动方式进行,无需任何人工监督注释。(2)工具的使用应该是按需使用,决定何时使用、如何使用工具,而不是到处使用所有工具。以网页搜索工具为例。直观上,当翻译质量不理想或者特定实体的节点度较低时,应该使用该工具。
对于翻译质量测量过程,当给定长度为m的源文本序列S和长度为n的目标文本序列T时,Rouge-L分数测量如下:其中LCS(S,T)表示公共子序列S和T的最大长度,并且 β = P l c s / R l c s \beta=P_{lcs}/R_{lcs} β=Plcs/Rlcs
令Flcs表示Rouge-L分数,
α
\alpha
α表示Rouge-L阈值,
γ
\gamma
γ表示用户设置的实体度阈值。如果Flcs低于
α
\alpha
α或实体度小于
γ
\gamma
γ,则应用网络搜索工具。在这种情况下,Web搜索工具会输出附加信息以增强实体表示。
WebSearch
(
e
i
)
=
{
K
E
,
if
F
l
c
s
<
α
or degree
(
e
i
)
<
γ
None
,
otherwise
\text{WebSearch}(e_i)=\begin{cases}K_E,&\text{if}F_{lcs}<\alpha\text{or degree}(e_i)<\gamma\\\text{None},&\text{otherwise}\end{cases}
WebSearch(ei)={KE,None,ifFlcs<αor degree(ei)<γotherwise
实验
数据集
(1)DBP15K
(2)DWY100K
(3)DBP1M
(4)SPIDER:SPIDER是一个大规模、复杂、跨域的文本到SQL数据集。
评估指标:hits@K和平均倒数排名(MRR)。
比较方法:将ZeroEA与: 1.需要使用100%EA训练集数据的监督方法。 2.无监督和自监督,不需要利用EA的任何训练集数据。
ZeroEA的表现显着优于监督基线组、无监督基线组和自监督基线组。 1.与监督组相比,ZeroEA在ZH-EN、JA-EN和FR-EN上表现均优于最佳基线,这表明强化训练并不是必需的,并且通过适当的上下文信息,PLM处理结构化KG数据的能力非常出色。 2.在无监督和自监督组中,ZeroEA在ZHEN、JA-EN和FR-EN上的表现均优于基于GNN的新型无监督解决方案SelfKG,这表明ZeroEA可以在相同的低资源条件下以更有效的方式对知识图谱的结构和语义信息进行编码。并且ZeroEA成为EA中新的最先进模型,甚至没有训练过程,展示了ZeroEA在零样本条件下强大的泛化能力。
消融研究。(1)如果没有我们提出的模型的基础Graph2Prompt,性能会急剧下降约50%。这表明预训练语言模型(PLM)擅长处理文本数据而不是结构化图形数据。(2)当去除邻域过滤模块时,性能从2.7%降低到3.8%,表明motif带来的高阶信息对于EA任务非常有益。(3)网络搜索工具的性能下降了4.6%至15%,这表明其处理低质量翻译噪音的强大能力以及拥有有限结构和语义信息的实体比例相当大。DBP15k中大约40%的实体的度数小于5,因此拥有有限的结构信息。这一观察结果强调了利用外部知识来补充单个知识图(KG)中不完整信息的重要性,最终有利于依赖这些知识的任务。(4)去掉Translator工具后,性能下降很大,甚至下降70%以上。这种减少与两种语言之间的相似性相关。它表明BERT处理低资源(即非英语)语言的能力有限。
图8显示了SPIDER数据集上的文本到SQL性能,配备了各种EA增强模式链接。Base表示称为Graphix-base的普通模型,而ZeroEA_𝛼表示带有用于包含新关系的𝛼阈值的Graphix-base模型。结果表明,(a)使用ZeroEA的Graphix-base模型在下游任务中优于标准Graphix-base模型,当阈值设置为0.6时实现最佳性能。(b)此外,表4显示EA为基于Graphix的模型的模式链接提供了最显着的增强。©值得注意的是,模式链接F1与最终文本到SQL的性能之间存在明显的正相关性,如图8所示。这表明EA可以使下游任务受益,从而激发对其进行进一步探索。对下游各项任务的影响。