ConMask: Open-World Knowledge Graph Completion

news2024/11/18 5:50:28

目录

Abstract

Introduction

Model

Relationship-Dependent Content Masking

Target Fusion

Loss Function


[1711.03438] Open-World Knowledge Graph Completion (arxiv.org)

Abstract

引入一个名为ConMask的开放世界KGC模型,该模型学习实体名称和部分文本描述的嵌入,将看不见的实体连接到KG。为了减少嘈杂文本描述的存在,ConMask使用依赖关系的内容掩码来提取相关片段,然后训练全卷积神经网络,将提取的片段与KG中的实体融合。

Introduction

定义1:closed-world KGC模型在很大程度上依赖于现有KG的连通性,并且能够最好地预测现有的、连接良好的实体之间的关系。但是它们严格依赖现有KG的连通性,closed-world KGC模型无法预测连通性差或新实体的关系。

但是,大多数现实世界中的KGs都在迅速发展,会不断增添新的实体和关系。

定义2:放宽了T′的限制,使得T′中的三元组可以包含原始实体集E中不存在的实体。

封闭世界KGC模型通过基于KG的拓扑更新初始随机向量来学习实体和关系嵌入向量。因此,任何triple<h,r,t>∈T′使得h \notin Et \notin E将只由其初始随机向量表示,因为其不存在任何推理函数更新。为了预测看不见实体的缺失连接,需要开发替代特征取代封闭世界模型使用的拓扑特征。

text content是断开连接或新添加实体的缺失拓扑特征的替代。尽管将简单地将实体的描述包括在现有的KGC模型中很直观,但是从非结构化文本中学习有用的嵌入向量比在封闭世界任务中学习拓扑嵌入更有挑战性:1)在封闭世界KGC模型中,每个实体都会有一个唯一的嵌入,这是从其直接连接的邻居那里学习的;而开放世界KGC模型必须将实体嵌入与实体描述的单词嵌入相融合。这些单词嵌入必须由共享相同单词的实体更新,而不管它们的连接状态如何;2)由于包含了非结构化内容,开放世界模型很可能包含嘈杂或冗余的信息。

本文的贡献:

(1)提出一个ConMask开放世界KGC模型,该模型使用依赖关系的内容掩蔽减少给定实体描述中的噪声,并使用FCN将相关文本融合到依赖关系的实体嵌入中。

(2)布了两个由DBPedia和维基百科构建的新知识图完成数据集,用于封闭世界和开放世界KGC评估。

提出了一个名为ConMask的开放世界KGC模型,该模型主要使用文本特征来学习实体和关系嵌入。与基于拓扑的和联合学习模型相比,如果看不见的实体与训练期间看到的实体共享相同的词汇表,ConMask可以为它们生成表示。为了正确处理一对多和多对一关系,我们还应用了依赖关系的内容屏蔽层来生成实体嵌入。

Model

ConMask包含三个部分:(1)依赖关系的内容屏蔽,突出显示与任务相关的单词;(2)目标融合,从相关文本中提取嵌入的目标实体;(3)目标实体解析,通过计算KG中候选目标实体、提取的实体嵌入和其他文本特征之间的相似性得分来选择目标实体。

ConMask选择与给定关系相关的单词,以减少包含不相关和嘈杂的单词。然后,从相关文本中,ConMask使用全卷积网络(FCN)来提取基于单词的嵌入。最后,它将提取的嵌入与KG中的现有实体进行比较,以解析目标实体的排序列。

Relationship-Dependent Content Masking

在开放世界中,不能仅根据拓扑结构信息,而要从文本中提取有用信息。通过为给定实体描述中的单词分配依赖于关系的相似性分数来屏蔽不相关的单词,将依赖关系的内容屏蔽定义为:

生成权重的最简单方法是是计算实体描述\phi(e)中的每个单词word和关系名称中\psi(r)的words之间的相似性分数,这个简单的函数被定义为MWRW:

\phi(e)中第i个单词的权重,是\bold W_{\phi(e)}中第i个词的embedding和\psi(r)的词嵌入矩阵\bold W_{\psi(r)}中的最大余弦相似性得分。

该函数与给定关系无关的单词分配较低的权重,并为出现在关系中或在语义上与关系相似的单词分配较高的分数,例如当推断(hMichelle Obama,AlmaMater?) MWRW将对普林斯顿大学、哈佛大学等单词赋予高权重,其中包括描述关系目标的单词。但是得分最高的单词并不总是代表实际目标,而是通常代表与关系名称本身相似的单词。 一个反例是:考虑到relation配偶,MWRW得分最高的词是已婚。尽管配偶在语义上与已婚相似,但它并不能回答偏三元组提出的问题。将具有高MWRW权重的词称为指示词,因为正确的目标词通常位于附近。在这个例子中,可以看到,正确的目标Barack Obama出现在指标词已婚之后。为了给目标词分配正确的权重,通过使用最大上下文关系权重(MCRW)来根据上下文调整每个词的权重,从而改进内容屏蔽。

其中φ(e)中第i个单词的权重等于第i个词本身和前km个词的最大MWRW得分。从神经网络的角度来看,重新加权函数fw也可以被视为在Wφ(e)和WTψ(r)的矩阵乘积上应用逐行最大约简,然后应用窗口大小为km的1D最大池化。

综上所述,这里描述的依赖于关系的内容屏蔽过程根据每个单词的上下文与给定关系之间的相似性为实体描述中的单词分配重要性权重。不相关内容被屏蔽后,模型需要从被屏蔽的内容矩阵中学习单个嵌入向量,与候选目标实体的嵌入进行比较。

Target Fusion

本节描述ConMask如何提取基于单词的实体嵌入,将这个过程称为目标融合函数ξ,是基于等式(3)的输出。

本文基于自适应FCNs。使用内容掩蔽的输出\tau(\phi(e),\psi(r))生成k维嵌入向量,其中e是来自不完整triple的头或者尾实体。

图3显示了目标融合过程的总体架构及其相关内容屏蔽过程。目标融合过程有三个FCN层。在每一层中,首先使用两个一维卷积算子来执行仿射变换,然后将sigmoid作为激活函数应用于卷积输出,然后进行批量归一化)和最大池化。最后一个FCN层使用平均池化而不是最大池化,以确保目标融合层的输出始终返回单个k维嵌入。

Loss Function

已经通过内容屏蔽和目标融合操作生成了实体嵌入,下一步是定义一个损失函数,该函数查找KG中与生成的嵌入最匹配的一个或多个实体。采用对比学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/496469.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构与算法基础-学习-23-图之邻接矩阵与邻接表

目录 一、定义和术语 二、存储结构 1、邻接矩阵 1.1、邻接矩阵优点 1.2、邻接矩阵缺点 2、邻接表 3、邻接矩阵和邻接表的区别和用途 3.1、区别 3.2、用途 三、宏定义 四、结构体定义 1、邻接矩阵 2、邻接表 3、网数据类型&#xff08;造测试数据&#xff09; 五…

如何使用TRIZ理论来分析问题和解决问题?

文章目录 TRIZ基础现代TRIZ步骤 TRIZ基础 现代TRIZ 经典的TRIZ方法对专利进行分析,认为专利分为两个部分,一部分是需要解决的问题,一部分是解决问题的解决方案.首先是问题的分析,确定是否是初始问题,比如工具功能分析/特性传递等工具. 步骤 问题识别 主要是识别出初始问题;…

MATLAB实现建筑热平衡模型建立及节能温控方案

全球大约1/3的能源消耗于建筑。在能源紧张的今天&#xff0c;如何减少建筑的能源浪费是一个值得研究的课题。 本文在综合国内外建筑能耗模拟方法的基础上&#xff0c;采用热平衡法&#xff0c;针对一小型建筑建立了热特性仿真模型&#xff0c;选用武汉地区的气象数据&#xff…

JAVA11新特性

JAVA11新特性 概述 2018年9月26日,Oracle官方发布JAVA11.这是JAVA大版本周期变化后的第一个长期支持版本,非常值得关注.最新发布的JAVA11将带来ZGC HttpClient等重要特性,一共17个需要我们关注的JEP,参考文档http://openjdk.java.net/projects/jdk/11/ 181:基于嵌套的访问控制…

云计算适合大专生学吗?

云计算适合大专生学吗&#xff1f; 对于大专毕业生来说&#xff0c;云计算的确是一个不错的选择&#xff0c;因为云计算技术应用专业&#xff0c;主要就是专科院校在办学。不管你是计算机相关专业的&#xff0c;还是零基础想学习都是可以的&#xff1b;原因就在于云计算这门专业…

七款非常好用的 ChatGPT 开源插件

推荐7款很好用的 ChatGPT 开源插件 1. ChatGPT ProBot 这是一个基于chatGPT实现的Github机器人&#xff0c;可以让chatGPT帮你审核代码、重构代码&#xff0c;还可以在Github页面上和它进行聊天&#xff0c;咨询问题。 仓库地址: github.com/oceanlvr/Ch… 2.chatgpt-api 这…

如何在本地部署运行ChatGLMS-6B

在本篇技术博客中&#xff0c;将展示如何在本地获取运行代码和模型&#xff0c;并配置环境以及 Web GUI&#xff0c;最后通过 Gradio 的网页版 Demo 进行聊天。 官方介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型&#xff0c;基于 General Language Model (GLM)…

图应用替换算法

文章目录 LRUSHiPBeladys MIN replacement(T-OPT)图应用基本知识CSR和CSCT-OPT替换算法使用 P-OPTRereference MatrixModified Rereference Matrix LRU 过于简单不做具体介绍 SHiP SHiP全称Signature-base Hit Predctor算法&#xff0c;其主打的是基于Signature(签名)进行Pr…

flutter学习之旅 -有状态的组件(StatefulWidget)

文章目录 StatefulWidget格式实现num增加finalfinal定义数组 我们重建一个项目 flutter create 项目名我们会看到 在Flutter中自定义组件其实就是一个类&#xff0c;这个类需要继承StatelessWidget/StatefulWidget StatelessWidget是无状态组件&#xff0c;状态不可改变的widg…

点成分享丨细胞培养三步骤——复苏、传代、冻存

细胞培养是指在体外模拟生物体内环境&#xff08;无菌、适宜温度、酸碱度和一定营养条件等&#xff09;&#xff0c;使之生存、生长、繁殖并维持主要结构和功能的一种方法。 细胞培养也叫细胞克隆技术&#xff0c;是细胞生物学研究方法中重要和常用技术&#xff0c;通过细胞培…

k近邻法学习

k近邻法&#xff08;k-nearest neighbor, k-NN)是一种基本分类与回归方法&#xff08;下面只写分类的&#xff09; knn的输入为实例的特征向量&#xff0c;对应于特征空间的店&#xff1b; 输出为实例的类别。 knn假设给定的训练数据集&#xff0c;其中的实力类别已定&#xf…

使用vscode进行python的单元测试,提高开发效率

背景知识 单元测试在我们的开发过程中非常有必要&#xff0c;它可以验证实现的一个函数是否达到预期。以前在学校写代码时&#xff0c;都是怼一堆代码&#xff0c;然后直接运行&#xff0c;如果报错再一步步调试&#xff0c;这样大部分时间都浪费在调试工作上。工作后发现大家…

【c/c++】curl编译(CMake方式)

一、curl下载 下载地址&#xff1a;curl - Download 进入下载页面&#xff0c;选择Old Releases。 二、CMake下载 这玩意居然有官网&#xff0c;刷新了我的认知&#xff0c;省事啊。 Download | CMake 三、CMake生成VS项目 1、点击【Browse Source ...】&#xff0c;先选择…

蓝牙耳机哪个品牌最好?数码博主整理2023超高性价比蓝牙耳机推荐

近来收到很多私信不知道蓝牙耳机哪个品牌最好&#xff0c;希望我能进行一期蓝牙耳机推荐&#xff0c;考虑到大家的预算不高&#xff0c;我特意花费时间测评了当下主流品牌的热销平价蓝牙耳机&#xff0c;最终整理成了这份超高性价比蓝牙耳机推荐&#xff0c;感兴趣的朋友们可以…

ASN.1-PKCS10

ASN1采用一个个的数据块来描述整个数据结构&#xff0c;每个数据块都有四个部分组成&#xff1a; 1、数据块数据类型标识&#xff08;一个字节&#xff09; 数据类型包括简单类型和结构类型。 简单类型是不能再分解类型&#xff0c;如整型(INTERGER)、比特串(BIT STRING)、字…

【Unity】搭建Jenkins打包工作流,远程打热更、构建App

Jenkins是团队协作项目打包常用的工作流&#xff0c;不多做介绍。 Jenkins的部署Unity打包环境还是非常简单的&#xff1a; 工作流程如下&#xff1a; 1. 在Jenkins中添加打包配置参数(如: 版本号, 目标平台等), 参数将以UI的形式显示在Jenkins Web界面以便打包前填写参数&a…

机器人抓取检测——Dex-Net

如今&#xff0c;在各种期刊顶会都能看到平面抓取检测的论文&#xff0c;他们声称能应对多物体堆叠场景&#xff0c;然而实际效果都不尽人意&#xff0c;我认为主要原因有如下几点&#xff1a; 缺乏多物体堆叠场景的抓取数据集。现在最常用的Cornell Grasp Dataset, Jacquard数…

政务网中使用内部华为云

项目按甲方要求&#xff0c;部署在政务网&#xff0c;各种需要在系统中播放的视频存放于内部华为云&#xff1b;然后&#xff0c;系统需要在互联网上访问。 经过一天捣鼓&#xff0c;终于搞定。过程中遇到了许多问题&#xff0c;有nginx代理的&#xff0c;docker域名解析的&am…

FTP Entering Extended Passive Mode

目录 原因 两种方法解决,哪个行用哪种 方法一 方法二 原因 FTP的连接建立有两种模式PORT

10个优秀设计网站盘点

从平面广告设计、包装设计和标志设计到游戏特效&#xff0c;都与我们的生活息息相关。过去&#xff0c;设计师依靠一张图纸和一支笔&#xff0c;但进入数字时代后&#xff0c;设计工作从图纸转移到了电脑上。 各种设计网站和在线设计工具相继衍生&#xff0c;简化了工作步骤&a…