Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

news2024/9/23 5:16:18

1.相关工作

1)基于结构的知识嵌入

进一步分成基于翻译的模型和基于语义匹配的模型
基于翻译的模型采用基于距离的评分函数,TransE把实体和关系嵌入到一个维度为d的共享向量空间中;TransH,TransR,RotatE.
语义匹配模型采用基于相似性的评分函数,RESCAL,DistMult,CoKE.

2)基于描述的知识嵌入

DKRL [Xie等人,2016]首先引入实体的描述,并通过卷积神经网络对其进行编码。
KEPLER [Wang等人,2019b]使用PLM作为编码器来派生基于描述的嵌入,并以KE和PLM的目标进行训练。
Pretrain-KGE [Zhang et al ., 2020b]提出了一种通用的基于描述的KE框架,该框架使用基于描述的嵌入初始化另一个可学习的KE,并在微调plm后丢弃plm以提高效率。
KGBERT [Yao等人,2019]将h, r, t的描述作为一个输入序列连接到plm,并通过序列嵌入对这三个序列进行评分。
StAR

2.LMKE模型

在本文中,我们提出了一个更好地将语言模型用作知识嵌入的方法LMKE(Language Models as Knowledge Embeddings),同时利用结构信息和文本信息。
在这里插入图片描述
在这里插入图片描述

嵌入完,要进行链接预测和三元组分类两个任务。三元组分类基于上面的p(u)可以进行。但链接预测需要预测出不完整实体的缺失实体,需要将候选实体(一般是所有实体)填入不完整三元组,并把相应的三元组打分,再对候选实体按照得分进行排序。但是上面的LMKE模型,这个流程的时间复杂度太高。
所以就有了下面的变体

为了让语言模型高效用于链接预测任务,一个简单的方式是不完整地编码三元组,而仅编码部分三元组。

MEM-KGC模型

MEM-KGC可以看作LMKE的masked变体,将待预测的缺失实体和其文本描述mask,并将相应的向量表示q输入一个线性层来预测缺失实体。
降低了时间复杂度,担忽略了待预测实体的文本信息,降低了文本信息的利用率。
提出了一个对比学习框架来更充分利用文本信息
在框架中,给定的实体-关系对被看作查询q,目标实体(缺失实体)被看作键k,通过匹配q和k进行对比学习。

3.C-LMKE模型(本文提出的模型)

C-LMKE是对比学习框架下的LMKE变体,
在这里插入图片描述
C-LMKE进行批次内的对比匹配,从而避免编码负样本带来的额外开销。
具体来说,对于batch中的第i个三元组,它的给定实体关系对q和目标实体k构成一个正样本,而同batch内其他三元组的目标实体k’与q构成负样本。
C-LMKE在训练和链接预测时的时间复杂度均显著优于现有基于文本的方法。
使用双层MLP(多层感知器)来计算q和k的匹配度,而不是使用对比学习中常用的余弦相似度,因为可能存在多个键匹配q。
如果k1和k2都匹配q,并且我们最大化(q, k1)和(q, k2)之间的相似性,(k1, k2)也会被强制相似,这是不可取的。因此,q与k匹配的概率为:

在这里插入图片描述
d_q和d_k是度数信息,对应实体在训练集中三元组个数
基于得分p(q, k),我们使用二元交叉熵作为损失函数进行训练,并参考RotatE中提出的自对抗负采样来提高难负样本的损失权重。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/593817.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Unity】简单的边缘高亮

【Unity】简单的边缘高亮 工程文件下载地址 全部文件 使用方法 方法功能On()打开单帧高亮显示On(Color color)打开单帧高亮显示FlashingParams(Color color1, Color color2, float freq)闪烁的参数设置FlashingOn打开闪烁FlashingOn(Color color1, Color color2)从颜色1切换到…

Python实战基础16-模块

Python中的模块 Python提供了强大的模块支持,主要体现为不仅在python标注库中包含了大量的模块(称为标准模块),而且还有很多第三方模块,另外开发者自己也可以开发自定义模块。 说的通俗点:模块就好比是工具…

ATA-L系列水声功率放大器-宽频带-大功率

水声功率放大器是一种专门用于水声信号放大的电子设备。水声功率放大器在水声通信中具有重要的作用,它可以将微弱的水声信号放大至足够强度,以提高信噪比和传输距离;同时,还可以进行信号处理和优化,以及温度控制等功能…

计算机毕业论文内容参考|基于java的电子产品垂直电商平台的设计与实现

文章目录 导文文章重点摘要前言绪论课题背景国内外现状与趋势课题内容相关技术与方法介绍导文 计算机毕业论文内容参考|基于java的电子产品垂直电商平台的设计与实现 文章重点 摘要 本文基于Java技术,设计并实现了一个电子产品垂直电商平台。该平台主要针对电子产品市场,提…

ESP32-C2系列开发板

C2是一个芯片采用4毫米x 4毫米封装,与272 kB内存。它运行框架,例如ESP-Jumpstart和ESP造雨者,同时它也运行ESP-IDF。ESP-IDF是Espressif面向嵌入式物联网设备的开源实时操作系统,受到了全球用户的信赖。它由支持Espressif以及所有…

充电桩测试设备TK4800充电机(桩)现校仪检定装置

TK4800是一套专用于检定电动汽车非车载充电机现场校验仪和电动汽车交流充电桩现场校验仪的装置,针对新能源汽车充电动态特性进行设计,支持稳态电能计量(针对恒定负载)和动态电能计量(针对波动性负载)两种模…

【CesiumJS入门】(1)创建Viewer及相关配置项

前言 在上一篇博客中,我们直接在vue组件完成初始渲染并创建 DOM 节点后通过 const map new Cesium.Viewer(cesiumContainer)构建了一个地球场景。 而本篇,我们将会专门把地球创建的方法写在一个js文件中,以便后续的调用。 同时&#xff0…

Filebeat技术栈总结

filebeat 是一个轻量型日志采集器,本质上是一个 agent 。不依赖于任何应用,可以安装在任何节点上,可单独使用 Filebeat 并根据配置读取对应位置的日志进行上报和搜集。 filebeat 内置了常用的 output 组件,例如 kafka、ElasticSe…

电脑硬盘空间大量被占用怎么办?

通常情况下,电脑硬盘空间会被系统文件、已安装的应用程序或个人文件、备份、病毒或其他恶意软件或其他未知文件占用。那我们应该怎样解决硬盘空间大量被占用的问题呢? 方法1:通过存储功能查看内容并释放空间 您可以通过Windows 11/10中的存储…

华为外包待了一年,我离职了...

这次来聊一个大家可能也比较关心的问题,那就是就业城市选择的问题。而谈到这个问题,就不可避免地会谈到一些关于:机会?技术氛围?跳槽?薪资水平?等等一系列问题。 正好,这也是大家所…

滑动窗口思想(数组)-python

文章目录 前言一、思想二、相关题目讲解1.长度最小的子数组(leetcode 209.)2.水果成篮(leetcode 904.)3.最小覆盖子串(leetcode 76.) 三、 模拟行为螺旋矩阵II(leetcode.59)leetcode 54.螺旋矩阵剑指Offer 29. 顺时针打印矩阵 总结 前言 滑动窗口的精妙之处在于根据当前子序列…

物业管理系统对小区物业的作用太重要了,零代码平台改变原有认知

小区物业处作为业主与小区的沟通场所,经常会遇到缺乏专业人才,导致管理不善、服务不到位,难以为业主提供良好的服务体验,那么拥有一款成熟稳定的物业管理系统就成了物业管理处的重要选择,不仅能为业主带来更好的服务体…

悦灵犀-全新的智能AI工具

最近一段时间,人工智能再次成为人类创新的焦点,不得不说,人工智能正在以一种全新的方式改变人们的生活,这是一个以大模型为核心的人工智能新时代,大模型的出现让千行百业将迎来新的机遇。 悦享星光作为国内高新技术企…

Zinx框架学习 - 构建最基础的Server

Zinx - V0.1 构建最基础的Server Zinx的框架结构: 整体思路: 客户端发送请求到服务器端,服务端会有一个Goroutine专门处理listenner和监听这个过程,然后有客户端连接过来之后会启动一个客户端处理Goroutine,这个Goro…

深度学习 - 52.推荐场景的多样性与 MMR [Maximal Marginal Relevance] 简介与 Python 实现

目录 一.引言 二.多样性 三.MMR 流程 1.标准 MMR 2.窗口 MMR 四.基于向量内积相似度的 MMR Python 实现 1.模拟用户 rank 结果 2.向量内积计算 MRi 2.1 获取向量计算 max sim 2.2 argmax 获取最优 MRi item 3.MMR 测试 4.MMR 完整代码 五.总结 一.引言 MMR - Ma…

记一次k8s节点上出现node.kubernetes.io/disk-pressure污点的问题

目录 问题描述 原因分析: 解决方案: 其他问题 问题描述 k8s部署时pod一直属于Pending状态,也就是说pod未调度到k8s节点上 原因分析: 通过以下命令查看下pod kubectl get pod 以上命令可以看到各个pod的状态&#xff0c…

【商城后台管理系统】项目初始化(UmiJS)

目录 一、运行时配置 1.1 配置方式 1.2 常用配置项 1.3 关于运行时配置说明 二、使用Umi UI 2.1 Umi UI的特性 2.2 项目中安装Umi UI 2.3 使用Umi UI 三、Umi JS总结 3.1 路由状态管理 3.2 配置代理 3.3 封装requset 一、运行时配置 运行时配置和配置的区别是他跑…

Geohash算法原理及实现

最近需要实现一个功能,查找车辆附近的加油站,如果车和加油站距离在200米以内,则查找成功。 加油站数量肯定不小,能否缩小查找范围,否则以遍历形式,效率肯定高不了。 Geohash算法就是将经纬度编码&#xf…

又名管道和无名管道

一、进程间通信(IPC,InterProcess Communication) 概念:就是进程和进程之间交换信息。 常用通信方式 无名管道(pipe) 有名管道 (fifo) 信号(signal) 共…

数字化时代,低代码+进销存管理系统让你省时省力

进销存系统是一种用于管理企业物资流动和库存的软件系统,可以帮助企业优化物资管理过程,提高效率,减少成本,从而提升企业的盈利能力。本文将详细介绍进销存系统的定义、功能、好处以及如何选择适合自己企业的进销存系统&#xff0…