Simple negative sampling for link prediction inknowledge graphs

news2025/1/13 3:07:32

摘要

知识图嵌入方法学习知识图中实体和关系的低维向量表示,便于知识图中的链接预测任务。在学习嵌入过程中,采样负三元组是很重要的,因为KGs只观察到正三元组。据我们所知,均匀随机、基于生成对抗网络(GAN)和nscach、结构感知负抽样(SANS)是文献中提到的四种负抽样方法。不幸的是,它们存在计算和内存效率低下的问题。此外,由于采样的负三元组质量差,它们的预测性能受到“梯度消失”问题的影响。在本文中,我们提出了一种简单的负采样(SNS)方法,该方法基于在嵌入空间中离损坏实体更近的实体能够提供高质量的负三重组的假设。此外,SNS具有良好的开发潜力,因为它使用采样的高质量底片来提高负三元组的质量。在WN18、WN18RR、FB15K、FB15K-237、YAGO3-10这5个已知的知识图数据集上,通过链路预测任务对我们的采样方法进行了评价。该方法还在一个新的生物KG数据集(FIGHT-HF-23R)上进行了评估。实验结果表明,SNS提高了KG嵌入模型的预测性能,优于现有的采样方法。

3 The proposed SNS method

在下文中,我们描述了我们提出的用于负样本生成的SNS方法。SNS方法旨在生成高质量的负三元组,以避免均匀随机抽样的“梯度消失”问题、基于gan的抽样的复杂参数优化问题和nscach的内存需求过大问题。图2a给出了SNS采样的基本步骤。步骤如下所示:

Step 1. Triple perturbation: 

从图2a开始,SNS首先通过positive triple perturbation生成正三重的初始负集。这一步与其他抽样方法类似。在triple perturbation中,正三重的头/尾通过用实体集(E)中的其他实体替换头/尾而被破坏。同时,检查负集合是否包含任何正三元组。为了说明这一点,考虑正三重,破坏尾部(t)得到初始负集;

Step 2. Candidate set generation

一般情况下,由于KG包含大量实体,所以集合的大小较大。Zhang等人[4]描述了只有一些初始底片的质量是好的。由于每个正三元组需要很少的负值,我们从中随机抽取N1个三元组来生成候选负集。随着训练的进行,我们希望下一个步骤的负向量的质量会更好或接近当前步骤的负向量的质量。为此,在当前步骤中采样的负极性存储在称为最近最少选择(LRS)的小结构中。保存了采样负,其中q0t和q0h分别是上一步中通过正反破坏采样的负。保存的底片将在下一步用于采样高质量的底片。将候选负集q0 1 (t)更新为包含LRS负集的。LRS的使用旨在支持所提出的SNS方法的开发行为。它确保当前步骤的负极质量优于或至少接近前一步的负极质量。

Step 3. Sampling probability computation:

在这一步中,我们计算候选负集q0 1 (t)中每个负的抽样概率。具有较高概率的底片被认为是高质量底片。概率是根据每个负号的距离得分来定义的。负三组的距离得分(h;r;t0 i) 2q0 1 (t)计算为损坏(t)和新实体(t ')之间的距离,如公式3所示

softmax函数对距离分数较低的候选负三元组计算较高的抽样概率。
 

 Step 4. Negative triple sampling and LRS updating:

从候选负集,q0 1 (t)的三组按其概率降序排列,并抽样k负(s)。一个自然的选择可能是抽样top-k(成对训练时k=1,最大似然训练时k > 1)负(s)。然而,抽样前k位的负数可能会产生两个问题。首先,由于当前候选负集还包括最近最少采样(LRS)的高质量负集,因此有可能对相同的负(s)进行高重复采样(即使在许多连续的步骤中)。这种情况影响了SNS采样的探索。其次,假负三元组(看起来像高质量)的存在是不可忽视的[5]。为了解决这些问题,SNS从q 0 t中N2个排名靠前的组中随机抽取k个负组,q 0 t = f(h;r;对于用户自定义参数N2,其中N2 > k, jrank(h;r;t0)≤N2 g。

SNS重复上述过程(从初始负集生成到k个负集采样),对于头(h)损坏,采样k个负集作为q 0 h,对于正三重组q。LRS[q 0 t;Q0h]用采样的2k高质量负(s)更新。最后,我们从q 0 h [q 0 t]的2k个阴性中随机抽取k个高质量阴性(s)作为q 0 h;r;t。然后用采样的k负(s) q 0和对应的正q来训练KG嵌入模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1545878.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PTA由斜杠划分区域

在由 1 x 1 方格组成的 N x N 网格 grid 中&#xff0c;每个 1 x 1 方块由 /、\ 或空格构成。这些字符会将方块划分为一些共边的区域。 返回区域的数目。 输入格式: 第一行输入一个正整数N&#xff08;N<30&#xff09; 随后N行&#xff0c;每行输入一个长度为N的字符串…

基于单片机的太阳能充电系统设计

摘要:本文所设计的太阳能充电系统主要由以下几个模块组成:STC89C52 主控模块、TP4056 充电电路、电压AD 采集模块、LCD1602 液晶显示模块和太阳能充电电池等组成。此太阳能充电器制作简单,性价比高,性能稳定。 关键词:LCD1602;太阳能充电系统;ADC0832 太阳能充电系统的充…

DARTS-: ROBUSTLY STEPPING OUT OF PERFORMANCE COLLAPSE WITHOUT INDICATORS

DARTS-&#xff1a;增加辅助跳跃连接&#xff0c;鲁棒走出搜索性能崩溃 论文链接&#xff1a;https://arxiv.org/abs/2009.01027 项目链接&#xff1a;GitHub - Meituan-AutoML/DARTS-: Code for “DARTS-: Robustly Stepping out of Performance Collapse Without Indicators…

分页多线程处理大批量数据

1.业务场景 因为需要从一个返利明细表中获取大量的数据&#xff0c;生成返利报告&#xff0c;耗时相对较久&#xff0c;作为后台任务执行。但是后台任务如果不用多线程处理&#xff0c;也会要很长时间才能处理完。 另外考虑到数据量大&#xff0c;不能一次查询所有数据在内存…

华为数通方向HCIP-DataCom H12-821题库(多选题:201-220)

第201题 以下关于BGP中Orginator ID属性的描述,正确的是哪些项? A、Originator ID属于公认任意属性 B、当其他BGP Speaker接收到这条路由的时候,将比较收到的0nginator ID和本地的Router ID,如果两个ID相同BGP Speaker会忽略掉这条路由,不做处理 C、当一条路由第一次被RR…

【目标检测】NMS算法的理论讲解

将NMS就必须先讲IOU&#xff0c; IOU就是交并比&#xff0c;两个检测框的交集除以两个检测框的并集就是IOU 为什么要做NMS操作&#xff0c;因为要去除同一个物体的多的冗余检测框 那么NMS算法是如何做的呢&#xff1f; 以上是算法的流程图 下面讲解算法的流程 首先输入是预…

爬虫Day3

用到的网页--豆瓣电影Top250 需要爬取信息&#xff1a; 数据保存在网页源代码中&#xff0c;是服务加载方式。先拿到网页源代码--request。再通过re提取想要的信息---re。 新知识&#xff1a;用csv存数据&#xff0c;可以用excel表格展示数据 import csv result obj.findite…

串口通信标准RS232 RS485 RS422的区别

RS-232、RS-422、RS-485是关于串口通讯的一个机械和电气接口标准&#xff08;顶多是网络协议中的物理层&#xff09;&#xff0c;不是通讯协议&#xff0c;它们之间的几个不同点如下&#xff1a; 一、硬件管脚接口定义不同 二、工作方式不同 RS232&#xff1a; 3线全双工 RS…

element UI季度选择器的实现

效果展示 用elementUI的select实现季度选择器 代码实现 generateQuarterOption放在methods中&#xff0c;需要近几年的只需要修改第一个循环的次数即可&#xff0c;mounted生命周期函数中调用generateQuarterOption() generateQuarterOption() {//近3年所有季度let now ne…

深入解析以太坊Dencun升级:提升网络性能与安全的关键举措

近年来&#xff0c;以太坊网络一直在不断演进和发展&#xff0c;为了应对日益增长的用户需求和挑战&#xff0c;以太坊社区不断提出并实施各种升级和改进措施。其中&#xff0c;Dencun升级作为最新的一项重大改革&#xff0c;旨在提升以太坊网络的性能和安全性&#xff0c;为其…

护眼台灯有必要买贵的吗?看看业内人士推荐的这五款!

随着学习压力的增大和担心孩子的近视&#xff0c;很多家长朋友们除了培养孩子正确的用眼习惯之外&#xff0c;也开始关注或准备添置学习用的护眼台灯&#xff0c;以缓解学习工作时的用眼疲劳&#xff0c;而相关的护眼灯也成为了市场的热门产品。而市面上护眼灯品牌众多&#xf…

CUDA从入门到放弃(四):CUDA 编程模式 CUDA Programming Model

CUDA从入门到放弃&#xff08;四&#xff09;&#xff1a;CUDA 编程模式 CUDA Programming Model 1 Kernels CUDA C 扩展了 C&#xff0c;允许定义名为内核的函数&#xff0c;这些函数可以被不同的 CUDA 线程并行执行多次&#xff0c;而不是像普通 C 函数那样只执行一次。内核…

【2024.3.26练习】画中漂流

题目描述 题目分析 根据题型分析应该可以用动态规划解决。设为第秒&#xff0c;剩余体力值为&#xff0c;且当前位置距离峡谷米时的总方案数。根据题意&#xff0c;状态转移方程如下&#xff1a; 这样定义状态的话空间复杂度为&#xff0c;大大超出了空间限制。观察转移方程左…

【SpringBoot】实现一个简单的图片上传

前端上传表单 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <form enctype"multipart/form-data" method"post" action&q…

拓展AI边界:去中心化人工智能的应用场景和主要项目盘点

随着区块链技术的发展和普及&#xff0c;去中心化人工智能&#xff08;AI&#xff09;逐渐成为技术领域的焦点之一。区块链的去中心化特性为AI技术的应用提供了新的可能性&#xff0c;使得数据共享、模型训练和应用部署更加安全、透明和可靠。本文将探索去中心化AI的应用场景&a…

【NLP学习记录】Embedding和EmbeddingBag

Embedding与EmbeddingBag详解 ●&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客 ●&#x1f356; 原作者&#xff1a;K同学啊 | 接辅导、项目定制 ●&#x1f680; 文章来源&#xff1a;K同学的学习圈子1、Embedding详解 Embedding是Pytorch中最基本…

Spring实例化Bean的三种方式

参考资料&#xff1a; Core Technologies 核心技术 spring实例化bean的三种方式 构造器来实例化bean 静态工厂方法实例化bean 非静态工厂方法实例化bean_spring中有参构造器实例化-CSDN博客 1. 构造函数 1.1. 空参构造函数 下面这样表示调用空参构造函数&#xff0c;使用p…

Mysql数据库函数【Mysql】

Mysql数据库函数【Mysql】 前言版权Mysql数据库函数常用函数排序与分页排序分页 单行函数2.数值函数2.1基本函数2.2角度与弧度2.3三角函数2.4指数与对数函数2.5进制间的转换 3.字符串函数4.日期和时间函数4.1获取日期、时间4.2日期与时间戳的转换4.3获取月份、星期、星期数、天…

C语言数据流讲解

目录 4.1 流&#xff08;Stream&#xff09;&#xff1a;数据流动的隐喻 4.1.1 流&#xff1a;数据传输的通用接口 4.1.2 标准流&#xff1a;预定义的流通道 4.2 文件指针&#xff1a;流操作的桥梁 4.2.1 文件指针的本质与结构 4.2.2 使用文件指针操作流 图解 结语 在C…

AI研报:从Sora看多模态大模型发展

《从Sora看多模态大模型发展》的研报来自浙商证券&#xff0c;写于2024年2月。 这篇报告主要探讨了多模态大模型的发展趋势&#xff0c;特别是OpenAI发布的视频生成模型Sora&#xff0c;以及其对行业发展的影响。以下是报告的核心内容概述&#xff1a; Sora模型的发布&#x…