基于历史对比学习的时序知识图谱推理(AAAI2023)

news2024/12/23 11:34:47

知识图谱顶会小记

论文标题

Temporal Knowledge Graph Reasoning with Historical Contrastive Learning

论文链接

https://arxiv.org/pdf/2211.10904.pdf

GitHub地址

https://github.com/xyjigsaw/CENET

关键词

Linked Open Data, Knowledge Graphs & KB Completion, Applications, Mining of Spatial, Temporal or SpatioTemporal Data, Web Search & Information Retrieval

主要内容

时序知识图谱

传统的知识图谱是一个静态知识库,它使用图结构的数据拓扑,以三元组(s,p,o)的形式集成时间,s是主体实体,o是对象实体,p是一个关系类型。在现实世界中,知识不断发展,形成了时序知识图谱的应用,从三元组变成了四元组。
从下面图A可以看出来,一个时序知识图谱由多个快照组成,同一快照中的事实同时出现,一些事情会重复发生或者出现新的事件。
时序知识图谱为许多应用提供了新的视角,比如决策、股票预测和对话系统。
在这里插入图片描述
在本文中,关注使用时序知识图谱预测未来,也被称为图谱外推。作者的目标是预测在训练集中没有观测到的未来时间戳t,比如(s,p,?,t)等查询的缺失实体。

提出问题

本文专注于在TKG上预测未来事件。为了对TKG的结构和时间特征进行建模以用于未来事件预测,一些主流模型利用自回归的方法可以和容易的预测重复或者周期性事件 。然而,在ICEWS也就是综合危机预警系统中,以前从来没有发生的新时间约占40%。
预测这些新事件很有挑战性的,因为他们在整个时间轴上有更少的时间交互痕迹。但是在这些事件中,由于关注频繁出现的事件,大多数现有方法经常在这些查询中获得不正确的结果;此外,在推理过程中,现有的方法对整个图中整体候选实体的概率分数进行排序,没有任何偏差,但是我们认为当接近不同事件的缺失实体时,偏差是必要的。
对于重复的或周期性的事件,模型被期望优先考虑一些频繁发生的实体,而对于新的事件,模型应该更多地关注那些具有较少历史交互的实体。

本文工作

在这篇文章中,将超越历史信息的极限,从整个知识中挖掘潜在的时间模式。为了更清晰地阐述我们的设计,我们将与当前查询中的实体相关联的过去事件称为该查询历史事件,其他事件称为非历史事件,它们对应的实体分别被称为历史实体和非历史实体。我们直观的认为,TKG不仅与历史事件有关,而且还与未观察到的潜在因素间接相关
我们提出一种新的TKG推理模型,称为CENET(对比事件网络)。给定真实的尾实体为 o 的查询(s, p, ?, t)。CNENT 考虑其历史和非历史事件,并通过对比学习识别重要实体。特别地,将采用基于复制机制的评分策略来建模历史和非历史事件的相关性。此外,所有的查询都可以分为两个类:为实体为历史实体或者非历史实体。
因此,CENET自然地使用监督对比学习来训练这两类查询的表示,进一步帮助训练输出为布尔值的分类器,以识别哪种实体应该得到更多的关注。在推理过程中,CENET结合了历史和非历史依赖关系的分布,并根据分类结果进一步考虑了基于掩码策略的高度相关的实体。

CENET能够同时学习历史和非历史依赖性,以区分最有潜力的实体,这些实体可以最好地匹配给定的查询。同时,它还训练查询的表示,通过对比学习来判断当前时刻是更依赖于历史事件还是非历史事件。这些表示进一步帮助训练一个二元分类器,其输出是一个布尔掩码,用于指示搜索空间中的相关实体。在推理过程中,CENET采用基于掩码的策略来生成最终结果。

本文贡献如下:

  1. 我们提出了一个被称为CENET的TKG模型,用于事件预测。CENET可以通过联合调查历史和非历史信息,不仅可以预测重复的和周期性的事件,还可以预测潜在的新事件;
  2. CENET是第一个将对比学习应用于TKG推理的模型,训练查询的对比来识别高度相关的实体;
  3. 作者在五个基准图上评估了他们提出的模型,结果表明,CENET在大多数指标上显著优于所有现有方法,在基于事件的数据集上至少相对于先前最先进的baseline提高了8.3%的Hits@1

related work

时序知识图谱推理

有两种方法,第一种是插值:目标在t0-tn之间,也是TKG补全;第二种是外推,预测tn之后可能发生的事件,比如tn之后的y q = (s, p, ?, t) (or (?, p, o, t))。

对比学习

是一个自监督的学习范式,大多数方法都是从随机抽样的N个小样本中获得增例,得到2N给样本,优化 一对正样本的损失函数。
在这里插入图片描述

method

在这里插入图片描述
左边的部分是从历史和非历史的的依赖关系中学习实体的分布;右边的部分说明了历史对比学习的两个阶段,旨在识别高度相关的实体,输出一个布尔掩码向量;中间是基于掩码的推理过程,它结合了从两种依赖性中学习到的分布和掩码向量来生成最终结果。

CENET捕获了历史和非历史的依赖关系,同时它利用对比学习来识别高度相关的实体,进一步采用了基于掩码的推理过程进行推理。

准备工作

在这里插入图片描述

  • (2)是历史事件集
  • (3) 是历史实体集
历史和非历史的依赖关系

模型采用基于复制机制的评分策略来建模历史事件和非历史事件相关性
在这里插入图片描述
在这里插入图片描述

从历史和非历史事件中学习的训练目标是尽量减少一下损失
在这里插入图片描述
推理过程中,CENET将上述俩个潜在上下文向量的softmax结果作为所有对象实体的预测概率
在这里插入图片描述

其中具有最大值的实体是组件预测的最可能的实体

历史对比学习

许多重复的和周期性的事件只与历史实体相关联,此外对于新的事件,现有的模型很可能会忽略那些历史交互较少的实体并预测那些经常与其它事件交互的错误实体。所提出的历史对比学习训练查询的对比表示,以在查询级别上识别少量高度相关的实体。
在有监督的对比学习中包括俩个阶段,引入Iq来表示缺失的对象是否在历史实体中,1的话就是在,0就是不在。引入两个阶段的目的是训练一个二值分类器,以推断查询q的布尔标量的值。

  1. 学习对比性表征:通过最小化有监督的对比损失来学习查询的对比表示。
  2. 训练二进制分类器:第一阶段训练结束之后,CENET冻结第一阶段的相应参数的权重,包括E,P及其编码器;然后将vq也就是给定查询q的嵌入向量输入到一个线性层,根据真实值Iq使用交叉熵损失训练一个二元分类器。现在,分类器可以识别查询q的缺失对象实体是否存在于历史实体集合中。推理过程中生成的布尔向量根据预测的Iq确定应该关注哪些类型的实体,以及尾实体是不是在历史实体中;布尔向量等于1的时候,实体在正位置中的概率增加,反之亦然,也就是说,如果缺失的对象被预测在历史实体中,那么历史集中的实体将得到更多关注否则非历史实体更有可能被考虑。

在这里插入图片描述

实验

数据集和baseline

在这里插入图片描述
选取了15个业界最新的TKG推理模型作为基线,并采用Mean Reciprocal Ranks (MRR) 和 Hits@1/3/10 (the proportion of correct predictions ranked within top 1/3/10)作为评价指标。下表给出了结果。结果表明,CENET在大多数指标上明显优于所有现有方法,在基于事件的数据集上,与以前最先进的基线相比,Hits@1至少获得了8.3%的相对提升。

基于事件的TKG对比实验结果

在这里插入图片描述

公共KG对比实验结果

在这里插入图片描述

消融实验

在这里插入图片描述

超参数分析

在这里插入图片描述

结论

在本文中,作者提出了一种新的时间知识图表示学习模型,对比事件网络(CENET),为事件预测。CENET的关键思想是学习整个实体集的一个令人信服的分布,并在对比学习的框架下从历史和非历史的依赖中识别出重要的实体。实验结果表明,CENET在大多数指标上都明显优于所有现有的方法,特别是对于Hits@1。

展望未来

探索知识图谱中的对比学习的能力比如找到更加合理的对比对。

引用

[1] Xu, Y., Ou, J., Xu, H., & Fu, L. (2023). Temporal Knowledge Graph Reasoning with Historical Contrastive Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 37(4), 4765-4773.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/852235.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java多线程(七)

目录 一、线程池参数介绍 二、线程池的工作流程 三、使用Executors创建常见的线程 一、线程池参数介绍 为了深入的了解线程池,这里就需要明白线程中的各种参数的含义。下述的图片中是来自于Java标准库中对线程池描述。 1.corePoolSize 与 maximumPoolSize 其中core…

机器学习-自定义Loss函数

1、简介 机器学习框架中使用自定义的Loss函数, 2、应用 (1)sklearn from sklearn.metrics import max_error from sklearn.metrics import make_scorer from sklearn.model_selection import cross_val_score from sklearn.linear_model …

Flowable-泳池泳道

目录 说明视频教程 说明 流程图描述一个过程的步骤,当这个过程涉及许多不同的人,部门或功能区域时,很难跟踪每 个步骤的负责人。解决此问题的一个有用方法是把流程图分栏,BPMN 中提供了泳池、泳道来支持 这种场景。泳池泳道在流程…

机器学习(十八):Bagging和随机森林

全文共10000余字,预计阅读时间约30~40分钟 | 满满干货(附数据及代码),建议收藏! 本文目标:理解什么是集成学习,明确Bagging算法的过程,熟悉随机森林算法的原理及其在Sklearn中的各参数定义和使用方法 代码…

国内什么牌子的ipad手写笔好用?适合绘画电容笔推荐

对于那些想要用ipad来学习的人来说,苹果Pencil是必不可少的。但是,Apple Pencil的价格真的太贵了,以至于很多人都买不起。所以,最好的办法就是选用一支平替的电容笔。本人从前几年就开始使用iPad,同时本身也是一位数码…

图 ML 中的去噪扩散生成模型

Denoising Diffusion Generative Models in Graph ML | by Michael Galkin | Towards Data Science (medium.com) 一、说明 AI DDPM 代表【"Adaptive Importance Density Power Mixture Model" 】即“自适应重要性密度幂混合模型”,是一种用于密度估计的机…

检测代理IP匿名程度的实用方法

在当今数字化的世界中,使用代理IP已成为保护个人隐私和增强网络安全的常见做法。然而,不同代理IP的匿名程度各异,有些可能具有较高的匿名性,而另一些则可能暴露了用户的真实身份和位置。 因此,了解如何检测代理IP的匿…

动态内存空间管理

欢迎来到我的 世界 ^ _ ^希望作者的文章对你有所帮助,有不足的地方还请指正,大家一起学习交流 ! 文章目录 前言:动态内存是什么一、动态内存介绍:动态内存有关函数介绍1.malloc和free2.calloc函数3.realloc函数 二、一些常见的动态…

虹科案例 | 台积电为保证光罩运输质量选择MSR冲击振动记录仪!内含台积电工程师专访

晶圆运输需要注意什么? 晶圆运输是半导体制造过程中极为关键和敏感的一环。在晶圆运输过程中,需要注意以下几点: 1、静电防护 晶圆非常容易受到静电的干扰,因此在运输过程中需要遵守严格的静电防护措施。使用适当的静电防护包装…

数据库|同城双中心 DR Auto-Sync 主中心意外故障恢复

一、前言 最近,我一直在各个地方进行 TiDB 的 Poc 测试。在这些测试中,客户特别关注同城双中心或者两地三中心的架构体系,经常会找我了解 TiDB 灾备架构的实现方案和底层逻辑。基于客户对 RPO 0 的要求,我一般会向他们介绍 DR Au…

Flume原理剖析

一、介绍 Flume是一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制&…

软件安全测试包含哪些内容和方法?安全测试报告的必要性

软件安全测试是一种通过模拟真实攻击的方式,对软件系统进行全面的安全性评估和测试,以发现潜在的安全漏洞和弱点,是确保软件系统安全性的重要措施。在进行软件安全测试时,我们需要了解测试的内容和方法,以及为什么进行…

《高性能MySQL》——查询性能优化(笔记)

文章目录 六、查询性能优化6.1 查询为什么会慢6.2 慢查询基础:优化数据访问6.2.1 是否向数据库请求了不需要的数据查询不需要的记录多表关联时返回全部列总是取出全部列重复查询相同的数据 6.2.2 MySQL 是否在扫描额外的记录响应时间扫描的行数与返回的行数扫描的行…

项目经理和PMO如何穿越低谷,激活自己与团队——WOOP给你答案

2023年,已经还剩下不到5个月了。因为今年整体大环境不好,很多人会因为遇到各种问题,让自己掉入低谷,也有可能让自己带的团队毫无生气。我期待这篇文章能够给你带来向上的力量,在困境中看到希望与可能性。 相信有很多人…

如何在轻量级RTSP服务支持H.264扩展SEI发送接收自定义数据?

为什么开发轻量级RTSP服务? 开发轻量级RTSP服务的目的是为了解决在某些场景下用户或开发者需要单独部署RTSP或RTMP服务的问题。这种服务的优势主要有以下几点: 便利性:通过轻量级RTSP服务,用户无需配置单独的服务器,…

无涯教程-Perl - formline函数

描述 格式功能和相关的运算符使用此功能。它根据PICTURE的内容将LIST格式化为输出累加器变量$^ A。写入完成后,该值将写出到文件句柄中。 语法 以下是此函数的简单语法- formline PICTURE, LIST返回值 该函数总是返回1。 Perl 中的 formline函数 - 无涯教程网无涯教程网提…

中小企业在数字化转型上所面对的问题都有哪些?_光点科技

随着科技的飞速发展,数字化转型已经成为企业持续发展的必由之路。尤其是中小企业,数字化转型不仅可以提高效率,降低成本,还可以拓展市场,增强竞争力。然而,数字化转型并非一帆风顺,中小企业在这…

arcgis更改图层字段名脚本

话不多说,上脚本源码,复制黏贴即可 #-*- coding:utf-8 -*- __author__ lumen import arcpy #输入图层 InputFeature arcpy.GetParameterAsText(0) #原始字段 oldField arcpy.GetParameterAsText(1) # 获取原始字段类型 oldFieldType desc arcpy.…

电机基础知识::(1、电磁力;2力与运动)

永磁同步电机基础知识(一)_哔哩哔哩_bilibili

led台灯哪些牌子性价比高?推荐几款性价比高的护眼台灯

作为学龄期儿童的家长,最担心的就是孩子长时间学习影响视力健康。无论是上网课、写作业、玩桌游还是陪伴孩子读绘本,都需要一个足够明亮的照明环境,因此选购一款为孩子视力发展保驾护航的台灯非常重要。为大家推荐几款性价比高的护眼台灯。 …