论文解读 | NeurIPS'24 Lambda:学习匹配先验以处理无标记垂悬问题场景下的实体对齐任务...

news2025/1/5 8:42:00

点击蓝字

55c5daea1f2c94ece29baadd46cab632.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

f6d44814c3a29354f6142daf983d9fff.png

点击 阅读原文 观看作者讲解回放!

作者简介

尹航,上海交通大学博士生

内容简介

我们研究了带有无标记悬挂问题的实体对齐(EA)任务,即部分实体在另一个知识图谱(KG)中没有对应实体,而这类实体尚未被标记。当待匹配的源图和目标图的规模不同时,这个问题就会出现,而且标记可匹配实体相比悬挂实体要容易得多。为了应对这一挑战,我们提出了一个名为Lambda的框架,用于悬挂检测和实体对齐。Lambda采用了一个基于图神经网络(GNN)的编码器KEESA,并结合了谱对比学习损失用于EA,以及一个名为iPULE的正无标记学习算法用于悬挂检测。iPULE具备无偏性、一致偏差界限和收敛性方面的理论保证。实验结果表明,Lambda的每个组件都有助于整体性能的提高,其性能优于基线方法,即使基线方法额外利用了30%的悬挂实体用作训练标记。

论文地址:https://arxiv.org/abs/2403.10978

Task Definition

本文研究的问题叫做实体对齐任务,这是一个在数据库领域中已经存在很长时间的任务。这个任务的主要目的是在不同的知识图谱中寻找等价的实体。

在算法上,我们可以将其直接建模为一个图匹配任务,只不过是针对节点的匹配任务。随着深度学习的发展,许多方法在实体对齐相关的数据集上已经取得了较好的性能。然而,这些方法普遍基于知识图谱之间的一对一假设,即假设图谱中的节点数量相等并具有一对一的对应关系。实际问题中,这种假设太过严格,会限制实体对齐方法在实际领域中的应用。

e7053bc67ebf8028492d6113d12a7f43.png

在实际应用中,有一部分实体被称之为Dangling实体(dangling entity),它们在另一个图谱中没有对应可匹配的实体节点。在此视角下,将图谱中的实体分为两类——可匹配实体和Dangling实体——可匹配实体的标记是更为直接且简单的,只需确定一组配对即可。然而,Dangling实体需要穷尽所有匹配可能性才能判定某个节点属于Dangling实体,因此这一类实体在实际任务中往往处于无法被标记的状态。

除了基于一对一假设的实体对齐方法之外,还有一些方法针对Dangling问题进行了研究,如右图所示。这些工作也存在两方面问题:一方面,它们过度依赖一些附加信息(如隐私敏感的节点名字或属性信息);另一方面,它们引入了一些不合理的假设,如认为Dangling实体应该可以被标记。实际上则恰恰相反。

Motivation

在上述背景下,作者进一步进行了实验探索。通过向已有的实体对齐方法的推理阶段中加入了更多的dangling 实体来进一步验证作者的观察。通过蓝色部分的数据可以看到,随着dangling 实体的引入,这些方法的性能出现了显著的下降。可以发现,dangling实体问题对实体对齐方法的性能影响非常严重。这进一步说明了该问题是值得探究的。

基于这些动机,本文希望在不依赖附加信息和dangling标签的条件下来实现更鲁棒的对齐方法,提升其实用性和应用效果。

0d70c285d5af5c27b8d9356f0bfabff9.png

Framework

在之前工作的基础上,本文提出了一个新的处理架构。由于需要面对无标记的问题,作者直觉上采用了PU学习(Positive-Unlabeled learning)方法。PU学习方法简单来说,是在只有正样本有标签的情况下进行预分类的方法。

之前的工作通常沿用左图所示的流程:将一些预对齐的种子节点和Dangling标签作为输入,同时进行实体对齐模型和Dangling实体检测组成的分类模型的学习。在推理阶段,才会将Dangling实体从推理集合中移除,以规避Dangling实体带来的推理代价。然而,这些方法忽略了在学习阶段Dangling实体对模型造成的额外学习代价。

f7bbc7cebb08ce9dcef3c313b86f7eb7.png

因此,本文采用PU学习的方法,将问题进一步转化为右图所示的框架。新的处理架构中,仍然需要将一部分种子点作为输入,但不同的是将Dangling检测任务调整到实体对齐任务之前。此外,在Dangling检测中会额外输出一些值,这些值代表剩余实体中具有潜在对应关系的实体比例。如果这个比例过低,则实体对齐任务会提前停止,无需进行额外的对齐学习和推理过程。但如果发现剩余实体节点中有相当数量的实体是可以对齐的,则我们可以选择在Dangling检测后将检测出的Dangling实体进行移除,从而继续在剩余实体中进行实体对齐。

本文所提框架相比之前的方法有一个显著优点:在进行最终的实体对齐任务之前,该框架为下游任务提供了更多的选择,从而可以规避一些不必要的训练和推理代价。在此基础上,作者对问题进行了进一步的正则化定义。也就是说,给定一些预对齐的可匹配实体节点作为正样本,需要预测正样本的比例并同时识别它们。

Iterative Positive-Unlabeled Learning for Dangling Detection

在原有PU学习方法的基础上,作者做出进一步的改进,提出了一种迭代式的PU学习方法来处理Dangling检测问题。

PU学习方法通常沿袭如下思路:首先推导出一个无偏的风险估计函数,这个函数是对损失函数的抽象,这个函数的基本结构可以分解为类先验比例乘以对应的风险函数。本文的方法建立在对类先验比例信息进行更为细致划分的基础上。

定理1首先推导出无偏风险估计的基础形式,基于此无偏估计,作者在定理2中证明了所提方法相较于经典的非负风险估计(Non-negative Risk Estimator)具有更紧的一致方差界。这表明该方法不仅在概率上是无偏的,同时也具备一致性。通过定理1和定理2,作者将寻找Dangling实体的问题转化为估计这一类实体的类先验比例的问题。定理3表明这种迭代方法能够收敛到一个较为准确的类先验比例值。

ed187ef13236158d76460748b401581c.png

Loss Function

具体而言,损失函数设计如图所示。PU学习的损失函数整体上由两部分构成:第一部分是正样本的损失函数,因为只有正样本有标签;第二部分是对负样本损失函数的近似。为了防止梯度消失问题,需要确保负样本的损失大于零,因此在计算中引入了max函数操作。在忽略max函数之后,剩余的项实际上由三部分构成:正样本被正确标记为正样本的损失、未标记样本被标记为负样本的损失以及正样本被误标记为负样本的损失。每一部分分别乘以相应的类先验比例,最终构成整体的损失函数。

类先验比例在本文的问题场景中是需要预先估计的,而在二分类的场景中,类先验比例之间存在较强的依赖关系。通过简单的算术运算,可以通过已知的一个类先验比例推导出其他所有的比例值。简化之后,作者发现只需要找到正类的先验比例估计,就可以完成整个损失函数的计算。

因此,图中展示了三种情况下的损失计算方法:正样本被正确标记为正样本乘以对数正类先验比例,未标记样本被标记为负样本乘以未标记对数类先验比例,以及正样本被误标记为负样本乘以未标记的正类对数先验比例。本研究的最终目的就是找到正类先验比例的最优估计,以便完善损失函数的计算。

82c8d99a9a9ccbe3a4eda6d4b08cf5c5.png

Algorithm

作者提出了一种迭代式的PU学习方法,该方法具有估计类先验比例的能力。具体过程如下:首先,将训练集中已标记的可对齐实体的比例设定为初始化值,然后固定该比例来构造损失函数。通过对该固定损失函数进行若干轮数的训练,可以将模型参数优化到相对合理的区间。

算法通过迭代地进行E step和M step。在E step中,通过推理预测出类先验比例的值;在M step中,固定E step中推理出的值来构造新的损失函数,并根据此损失函数反向更新模型。这个过程类似于经典的EM算法,文中的证明思路也是将其作为EM算法的特例来证明其收敛性。由于该收敛性证明具有较强的条件限制,文中还通过实验进行了进一步验证了,并展示了其对于类先验比例估计的正确性。

如图所示,算法1描述了这一迭代式PU学习方法的具体流程。初始化阶段后,进入迭代训练,通过E step和M step交替进行,持续优化模型参数,直到模型收敛或者类先验比例达到预期。实验结果进一步验证了该算法在不同数据集上的性能和稳定性。

647adb577e8317e7086724b9a168c9c3.png

Selective Aggregation with Spectral Contrastive Learning

在上述基础上,需要注意以下几点。首先,PU学习方法并不是对所有二分类问题都有效。PU学习能发挥作用的前提是这两类在特征空间上已经有较为明显的区分度,即所谓的分类判别条件(Classification Discriminative)。其次,本研究的最终目标是实体对齐任务,它更依赖于一个理想的一对一嵌入空间。

为了同时满足这两点需求,本文提出了一种方法。对于第一个需求,由于在无标签的场景下进行计算,它可以通过一种经典的谱聚类方法来解决。对于第二个需求,可以通过一种经典的对比学习方法实现,即通过训练让正样本互相靠近、负样本互相远离来达到目的。最近的研究已经证明,对比学习和谱聚类之间存在等价性。因此,作者提出了一个新损失函数,可以同时发挥谱聚类和对比学习两方面的作用,同时满足了上述两种需求。

在文章中,该方法被命名为谱对比学习方法。这种方法能够在无标签的情况下实现分类判别,同时构建一个理想的实体对齐嵌入空间。新损失函数如图所示,它结合了谱聚类和对比学习的优点,实现了正样本和负样本在特征空间上的合理分布。

55c4ce03856060985a26c56c627c597f.png

KEESA (KG Entity Encoder with Selective Aggregation)

上述内容得以实现的基础是本文中提出的一种神经网络架构——图学习编码器KEESA。KEESA主要由两部分组成,其中a模块用于建模图谱内的表征,b模块用于建模图谱间的学习表征。

在图谱内表征的建模部分,作者引入了一个动态调节的Dangling Indicator指示器,它代表当前实体作为dangling节点的概率。通过该模块,可以在邻域聚合中选择性地筛选掉一些dangling实体的特征,从而避免这些节点的特征对其邻居的影响,保证可匹配节点的特征不受污染,确保匹配精度。这是Dangling指示器的重要作用。

此外,作者设计了一个关系正交投影注意力机制,它能够针对不同关系的实体将其投射到不同的向量空间局部域中,从而实现更好的实体一对一对齐。a模块最终将网络的每一层表征拼接起来,得到最终的图谱内表征。

接着,b模块对图谱内表征和跨图谱表征进行学习。作者采用了一种在之前工作中提出的代理匹配向量法进行跨图谱表征计算(Dual-AMN方法中提出)。

最终的节点表征是通过对图谱内和跨图谱间的表征进行加权聚合,同时将之前提到的自适应Dangling Indicator作为额外的表征拼接起来。基于这些表征,计算损失函数并反向更新编码器,从而完成表征的更新和优化。

8006f5a8b8366a5c6aa4abd30b9d19de.png

The Framework contains all above modules

本文最终的架构结合了上述提到的架构和对应损失函数,下图展示了本文所提框架的所有流程。

4a67c0d1f946eb7ed4eb0f7c182ebd3f.png

Experiments

本文首先在类先验比例估计方面进行了详细的实验,同时将所提方法与现有的实体对齐方法进行了比较。比较分为两类:第一类是与没有针对dangling问题进行额外设计的传统方法进行比较;第二类是与针对dangling问题设计的基线方法进行比较。在这两种比较中,该方法都达到了领先的性能。

首先,通过类先验的估计实验,展示了所提方法的准确性和收敛性。实验证明,本方法在不同数据集和预对齐比例下都表现出色,准确估计出类先验比例。如图1所示,不同预对齐比例下的类先验估计结果在迭代中逐渐收敛到真实先验比例。

6e600d5c0b785f0f352bf7bab1c677dd.png

其次,本文进行了基于dangling问题的比较。其中,一个是针对没有设计dangling检测的传统方法的比较,另一个是针对设计了dangling检测的方法进行的比较。在表2中,本方法在多个指标上均超过了基线方法,展示了其在处理dangling实体问题上的优势。

本文还通过消融实验验证了各模块的有效性。如图所示,作者分离并测试了不同模块,对比整体方法,验证了每个模块对最终性能的贡献。消融实验结果表明,每个模块在提高方法性能方面都发挥了关键作用。

在方法收敛性方面,文章进行了详细实验。如图5所示,本文方法在不同的数据集上均表现了良好的收敛性,理论证明以及实验结果均支持算法的稳定性和有效性。

最后,文章对方法的效率进行了验证,包括推理时间、训练时间和计算资源消耗。从表中可以看出,本文方法在CPU和GPU内存消耗方面表现较为经济,同时在推理和训练时间上也比其他方法更为高效。

b23a47519e56265b8a37e1a658131c2c.png

本期文章由陈研整理

往期精彩文章推荐

cf27ff5fec23fac1d3592009b0fc12e9.png

EMNLP'24 最佳论文解读 | 大语言模型的预训练数据检测:基于散度的校准方法

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 83b038d2c5390937bcf9ed7d7cb7656f.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

0b8cd9ea3cbd34dda8c9c97734016ad6.gif

点击 阅读原文 观看作者讲解回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2268287.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

评分模型在路网通勤习惯分析中的应用——提出问题(1)

1、问题的由来、目标和意义 最近一段时间和公司其它业务部门讨论时,发现一个有趣的交通路网问题,车辆从S点行驶到V点共用时40分钟,这段时间内路网中的卡口摄像头识别到了车辆通过的信息。如下图所示: 设计师需要通过这些有限的路…

Spring Security day 11.23

ok了今天学习一个关于登录角色权限的管理框架,我们一起取看看吧 一.权限控制 1.1 认证和授权概念 前面我们已经完成了后台管理系统的部分功能,例如检查项管 理、检查组管理、套餐管理、预约设置等。接下来我们需要思 考 2 个问题: 问题 1 …

【IC验证】verilog及systemverilog特殊特性的分析

verilog及systemverilog特殊特性的分析 1.概述2.赋值延迟(0)总结(1)情况一:initial中进行阻塞赋值和非阻塞赋值(不延迟)a代码b 电路图c 结果 (2)时钟a 代码b 电路图c 结果…

FPGA流水线考虑因素

流水线考虑因素 另一种提升性能的方法是对拥有多个逻辑级数的长数据路径进行重新组织,并将其分配在多个时钟周期上。这种方法 以时延和流水线开销逻辑管理为代价,来达到加快时钟周期和提高数据吞吐量的目的。 由于 FPGA 器件带有大量的寄存器&#x…

关于 PCB线路板细节锣槽问题 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/144783817 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

SQL创建和操纵表

本文介绍创建、更改和删除表的基本知识。 1. 创建表 SQL 不仅用于表数据操纵,而且还用来执行数据库和表的所有操作,包括表本身的创建和处理。一般有两种创建表的方法: 多数DBMS 都具有交互式创建和管理数据库表的工具;表也可以…

RPA系列-uipath 学习笔记4

使用Uipath 处理hover的问题 备注:使用uipath stversion:2024.10.6,所有学习来源自uipath Academy 首先,打开uipath给我们提供的一个网站 ACME,这个网站呢,需要提前注册一下的哈。 今天呢,就是记录一下,怎…

Unity编译Android apk包进度奇慢或gradle报错的解决方案

最近遇到Unity编译Android apk进度卡在"Calling IPostGenerateGradleAndroidProject callbacks"进度一直不变,如下图: 最后提示编译失败,类似错误如下: Picked up JAVA_TOOL_OPTIONS: -Dfile.encodingUTF-8FAILURE: Bu…

探究音频丢字位置和丢字时间对pesq分数的影响

丢字的本质 丢字的本质是在一段音频中一小段数据变为0 丢字对主观感受的影响 1. 丢字位置 丢字的位置对感知效果有很大影响。如果丢字发生在音频信号的静音部分或低能量部分,感知可能不明显;而如果丢字发生在高能量部分或关键音素上,感知…

CAT3D: Create Anything in 3D with Multi-View Diffusion Models 论文解读

24年5月的论文,上一版就是ReconFusion 目录 一、概述 二、相关工作 1、2D先验 2、相机条件下的2D先验 3、多视角先验 4、视频先验 5、前馈方法 三、Method 1、多视角扩散模型 2、新视角生成 3、3D重建 一、概述 该论文提出一种CAT3D方法,实现…

模型工作流:自动化的模型内部三角面剔除

1. 关于自动减面 1.1 自动减面的重要性及现状 三维模型是游戏、三维家居设计、数字孪生、VR/AR等几乎所有三维软件的核心资产,模型的质量和性能从根本上决定了三维软件的画面效果和渲染性能。其中,模型减面工作是同时关乎质量和性能这两个要素的重要工…

黑马程序员Java笔记整理(day08)

1.代码块 静态代码块 实例代码块 2.内部类 成员内部类 静态内部类 局部内部类 匿名内部类 认识 常见使用形式 应用场景 简化版本 另一个应用场景 3.函数式编程 Lambda 函数简化 方法引用 4.常用API String ArrayList 5.GUI编程 快速认识 事件处理 三种常用写法 第一种 第二…

redis延迟队列

Redis延迟队列 Redis延迟队列是基于Redis构建的消息队列,用来处理需延迟执行的任务。 基本原理 它借助Redis的有序集合(Sorted Set)数据结构达成目的。会把任务及其执行时间分别当成成员与分值存进有序集合,由于执行时间作为分值&…

爱思唯尔word模板

爱思唯尔word模板 有时候并不一定非得latex https://download.csdn.net/download/qq_38998213/90199214 参考文献书签链接

【JDBC】入门增删改查

JDBC JDBC概述 JDBC(Java DataBase Connectivity, java数据库连接)是一种用于执行SQL语句的Java API。JDBC是Java访问数据库的标准规范,可以为不同的关系型数据库提供统一访问,它由一组用Java语言编写的接口和类组成。 XML方式…

Java开发-后端请求成功,前端显示失败

文章目录 报错解决方案1. 后端未配置跨域支持2. 后端响应的 Content-Type 或 CORS 配置问题3. 前端 request 配置问题4. 浏览器缓存或代理问题5. 后端端口未被正确映射 报错 如下图,后端显示请求成功,前端显示失败 解决方案 1. 后端未配置跨域支持 …

Dify服务器部署教程

Dify的github地址: https://github.com/langgenius/dify 服务器要求:2c4g 1、克隆仓库 可以通过命令或者下载zip解压后上传服务器都行 git clone https://github.com/langgenius/dify.git 2、docker启动 cd dify/dockercp .env.example .envdocker compose up -d…

砝码称重(2021年蓝桥杯)

【问题描述】 你有一架天平和N个砝码,这N个砝码的重量依次是w1,w2,……,wn。(1~n为下标) 请你计算利用N个砝码一共可以称出多少种不同的重量? 【注意】砝码可以放在天平的两边 【输入格式】 第一行包含一个整数N。 第二行包含N个…

KaiOS 4.0 | DataCall and setupData implemention

相关文档 1、KaiOS 3.1 系统介绍 KaiOS 系统框架和应用结构(APP界面逻辑)文章浏览阅读842次,点赞17次,收藏5次。对于Java开发者而言,理解JS的逻辑调用是有点困难的。而KaiOS webapp开发又不同于现代的web开发,更像chrome浏览器内嵌模式。在这里梳理一下kaios平台web应用…

ArcGIS Pro地形图四至角图经纬度标注与格网标注

今天来看看ArcGIS Pro 如何在地形图上设置四至角点的经纬度。方里网标注。如下图的地形图左下角经纬度标注。 如下图方里网的标注 如下为本期要介绍的例图,如下: 图片可点击放大 接下来我们来介绍一下 推荐学习:GIS入门模型构建器Arcpy批量…