Commonsense Knowledge Base Completion with Structural and Semantic Context

news2024/9/21 22:23:30

摘要

与研究较多的传统知识库(如Freebase)相比,常识性知识图(如ATOMIC和ConceptNet)的自动知识库补全提出了独特的挑战。常识知识图使用自由形式的文本来表示节点,与传统知识库相比,导致节点数量增加了几个数量级(与Freebase (FB15K237)相比,ATOMIC中的节点数量增加了18倍)。重要的是,这意味着更稀疏的图结构——这是现有的KB补全方法面临的主要挑战,这些方法假设在相对较小的节点集上密集连接的图。

在本文中,我们提出了新的知识库补全模型,可以通过利用节点的结构和语义上下文来解决这些挑战。具体来说,我们研究了两个关键思想:(1)从局部图结构中学习,使用图卷积网络和自动图密度化;(2)从预训练的语言模型到知识图的迁移学习,以增强知识的上下文表示。我们描述了将这两个来源的信息合并到一个联合模型中的方法,并提供了在ATOMIC上完成知识库和在ConceptNet上使用排名指标进行评估的第一个经验结果。我们的结果证明了语言模型表示在提高链接预测性能方面的有效性,以及在子图上训练时从局部图结构学习的优势(ConceptNet的MRR增加1.5点)。对模型预测的进一步分析揭示了语言模型能够很好地捕获的常识类型 

1.引言与动机 

虽然在传统知识库(如Freebase)的知识库补全方面已经有了大量的工作,但对于ATOMIC (Sap et al . 2019)和ConceptNet (Speer and Havasi 2013)等常识性知识图的知识库完成方面的工作相对较少。本文的明确目标是确定常识性知识库完成中的独特挑战,研究解决这些挑战的有效方法,并提供全面的经验见解和分析。

补全常识性KGs的关键挑战是图的规模和稀疏性与传统的kb不同,常识性kb由由非规范化、自由格式的文本表示的节点组成,如图1所示。例如,节点“防止蛀牙”和“蛀牙”在概念上是相关的,但不是等价的,因此表示为不同的节点。图的概念多样性和表达性是表示常识的必要条件,这意味着节点的数量要大几个数量级,而且图比传统的kb要稀疏得多。例如,像FB15K-237这样的百科全书式知识库(Toutanova和Chen 2015)的密度是ConceptNet和ATOMIC的100倍(图2所示的节点度)。

 

图1:来自ConceptNet的子图说明了节点的语义多样性。蓝色虚线表示要添加到图中的潜在边

在这项工作中,我们提供了关于常识知识库的稀疏性如何对隐式假设密集连接图的现有知识库补全模型构成挑战的经验见解。图3提供了这一证据的简要预览,其中,当我们降低FB15K-237的图密度时,高性能KB补全模型ConvTransE (Shang et al . 2019)的性能会迅速下降。 

 

图2:热图显示了x轴上属于指定bin的节点的百分比。该图说明了相对于标准KB补全基准(FB15K-237),常识性KB的稀疏性。 

 

图3:使用ConvTransE模型的FB15K-237数据集,不同图密度值(log scale)下KB Completion Scores的下降趋势。 

这激发了研究常识知识库补全新方法的强烈需求。我们认为,新方法需要更好地适应所有节点(包括结构和语义)之间的隐式概念连通性,而不仅仅是在现有常识知识库中显式编码的。具体来说,我们研究了两个关键思想:(1)从局部图结构中学习,使用图卷积网络和自动图密度化。(2)将学习从语言模型转移到知识图,以提高节点的上下文表示。

为了整合图结构信息,我们提出了一种基于图卷积网络(GCN)的方法(Kipf and Welling 2017),根据节点的局部邻域将节点的表示上下文化。对于迁移学习,我们提出了将预训练语言模型(Devlin et al . 2019)微调到常识性KGs的有效方法,从本质上实现了从语言到知识的迁移学习。我们的工作分享了Petroni等人(2019)最近的工作的高水平精神,该工作展示了使用预训练的LMs来重建知识库条目,但我们提供了一个专门针对常识知识库的更集中的研究。实证分析表明,尽管GCNs在各种密集连接图上有效(Schlichtkrull等人2018),但在常识知识库上却没有那么有效,因为稀疏连接不允许有效的知识传播。因此,我们提出了一种基于节点间语义相似度评分的自动图密度化方法。最后,我们强调了使用来自图结构和语言模型的信息来训练模型所需的策略。 

 

 Our main contributions are highlighted below:

  • 1.与传统的百科式知识库完井相比,关于常识知识库补全的独特挑战的经验见解。
  • 2. 新颖的知识库补全方法,对现有知识库中明确可用的知识的隐式结构和语义上下文进行建模。
  • 3.在ConceptNet上使用排名指标对知识库完成和评价进行了ATOMIC的第一个实证结果。
  • 4. 对语言模型捕获的常识性知识类型的分析和见解。

总之,我们的研究结果表明,迁移学习通常比从图结构中学习更有效。此外,我们发现图结构确实可以提供互补信息,从而提高性能,特别是在使用子图进行效率训练时。 

2.Knowledge Graphs 

在建立常识的图形结构表示方面已经有了一些努力(Lenat 1995;Speer and Havasi 2013;Cambria, Olsher, and Rajagopal 2014;Sap et al 2019)。我们将实验重点放在两个重要的知识图上:ConceptNet和ATOMIC。表1提供了这两个图的统计数据,以及FB15K-237——一个标准的KB补全数据集。

ConceptNet-100K2: CN-100K包含关于世界的一般常识事实。这个版本(Li et al . 2016)包含了来自ConceptNet (Speer and Havasi 2013)的开放思维常识(OMCS)条目。图中的节点平均包含2.85个单词。我们使用数据集的原始分割,并将两个提供的开发集结合起来创建一个更大的开发集。开发集和测试集各由1200个元组组成。

ATOMIC3: ATOMIC知识图包含关于日常事件的社会常识性知识。数据集指定事件中参与者的效果、需求、意图和属性。节点平均短语长度(4.40 words)略高于CN-100K。一个源实体和关系可能存在多个目标。在关系类型不需要注释的情况下,此图中的元组也可能包含一个none目标。创建原始数据集分割是为了使训练和评估分割之间的种子实体集互斥。由于KB补全任务要求实体至少被看到一次,因此我们为数据集创建了一个新的随机80-10-10分割。开发集和测试集分别由87K元组组成。

3 Machine Commonsense Completion 

我们研究了补全常识知识图谱的两个关键思想:1)从语言到知识图的迁移学习和2)从图结构的学习。为了解决常识KGs的稀疏性问题,我们使用合成语义相似链接来丰富图的连通性,从而使GCNs能够有效地使用。我们模型的整体架构如图4所示

3.1Problem Formulation 

 

3.2Transfer Learning from Text to Knowledge Graphs 

从语言到知识图谱的迁移学习最近被证明对常识知识图谱的构建是有效的(Bosselut et al . 2019)。为了从语言转移到知识图进行补全,我们对BERT (Devlin et al . 2019)进行了微调,利用被掩盖的语言建模损失,并根据节点的文本短语获得节点的丰富语义表示。这允许BERT调整到KG的特定文本样式。调优的输入是用于表示KG中的节点的唯一短语列表。模型的输入格式为,其中e¯i是由节点表示的自然语言短语。我们使用BERT模型最后一层的[CLS]令牌表示作为模型中的节点表示。我们将BERT模型得到的节点嵌入矩阵表示为,其中M为BERT嵌入的维数。

3.3Learning from Graph Structure 

图卷积网络(GCNs) (Kipf and Welling 2017)在整合图中节点的局部邻域信息方面是有效的。图卷积编码器以图G为输入,将每个节点编码为所有节点的d维嵌入。GCN编码器的操作方式是从一个节点向它的邻居发送消息,可以选择由边指定的关系类型进行加权。该操作在多个层中进行,包含从一个节点到另一个节点的多个跃点的信息。最后一层的表示用作节点的图嵌入。几种变体(Schlichtkrull et al . 2018;Velickovi等人(2018)最近提出了这些模型,所有这些模型都使用相同的底层局部邻域聚集机制。我们选择使用GCN的一个版本,它允许我们1)参数化与边对应的关系类型,2)在聚合期间考虑节点邻居的重要性。给定具有R个关系类型的图G和具有L层的GCN,计算第1层节点ei的节点表示的操作为:

其中,Ji表示图中节点ei的邻居,Wl是层1特定的线性投影矩阵。初始节点表示h0 i是使用嵌入层计算的。方程1中的第二项表示节点的自连接,用于将信息从一层传播到下一层。αr是边的关系类型的权值,β I是表示ei的每个邻居的相对重要性的向量:

 

Graph Densification

常识KGs的稀疏性使得GCNs在节点的邻域上执行信息传播具有挑战性。为了解决这个问题,我们在语义相似的节点之间添加了合成边,以提高图嵌入的学习速度。这些边缘形成了一种新的合成sim关系,仅用于计算图嵌入而不被解码器评分。为了形成这些边,我们使用前面描述的微调BERT模型来提取节点表示,并使用这些表示来计算图中所有节点对之间的余弦相似度。

在计算两两相似度时,我们使用硬阈值τ来过滤最相似的节点对。这个阈值是对每个图使用不同的标准来计算的,每个标准都优先考虑这些链接的精度。对于CN100K(122,618条sim边中τ = 0.95的结果),我们绘制了所有节点对之间的成对相似值分布,并选择顶部的σ/2对节点来形成这些合成链接,其中σ为正态分布的成对相似分布的标准差。对于ATOMIC (τ = 0.98导致89,682条sim边),我们获得了非正态的两两相似性分布,因此使用阈值(测量到2小数点),该阈值只会在图中增加最多100K条边5。这一步之后,我们得到一组边。 

3.4Progressive Masking for Fusion 

使用来自GCNs和BERT的节点嵌入的模型往往过度依赖BERT嵌入,使图嵌入无效(我们使用随机排列测试验证这一点(Fisher, Rudin, and Dominici 2018),我们在一个小批量中随机洗牌图嵌入,并观察到性能几乎没有下降)。在训练开始时,图嵌入不提供信息,而微调的BERT嵌入提供有用的信息-导致模型安全地忽略图嵌入为了防止这个问题,我们随机屏蔽BERT嵌入,从开始的全零掩码到100个epoch结束的全一掩码。对于前100个epoch,被遮挡的维度比率设置为(epoch/100)。这种策略迫使模型依赖于两个信息源。类似的技术被用于通过屏蔽源中的标记来强制多模态机器翻译模型依赖于图像(Caglayan et al 2019)。

3.5Convolutional Decoder

3.6Subgraph Sampling

随着图大小的增加,在内存中使用整个图进行训练变得计算密集。具体来说,在整个图上执行图卷积并使用解码器计算图中所有节点的分数是密集的。例如,具有GCN和BERT表示的atom模型占用~ 30GB内存,在Quadro RTX 8000 GPU上进行训练需要8-10天。因此,我们选取较小的子图进行训练。我们用不同的采样标准进行了实验,发现均匀随机采样的边缘提供了最好的性能对于图密度化,我们将子图中所有跨越语义相似阈值τ的节点对连接起来。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/988103.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分类预测 | MATLAB实现PCA-GRU(主成分门控循环单元)分类预测

分类预测 | MATLAB实现PCA-GRU(主成分门控循环单元)分类预测 目录 分类预测 | MATLAB实现PCA-GRU(主成分门控循环单元)分类预测预测效果基本介绍程序设计参考资料致谢 预测效果 基本介绍 Matlab实现基于PCA-GRU主成分分析-门控循环单元多输入分类预测(完整程序和数据…

DataGridView选中的单元格求和

DataGridView单元格求和功能的基本思路是先得到选中的单元格, 1,在内存中定义两张表,一张存放列名,一张存放列名和数个。这样这两张表就开成了一对多的父子关系。 2,在将两张定及他们的父子关系添加到DataSet对象中 4…

5款无广告的小软件,先收藏再下载

​ 最近后台收到好多小伙伴的私信,今天继续推荐五款小工具,都是免费使用的,大家可以去试试看。 1.写作软件——Effie ​ Effie是一款极简风格的写作软件,它可以帮助您优雅地写作和记录,把思想变成价值。Effie支持多种…

嵌入式学习笔记(19)SDRAM引入

SDRAM的特性(容量大、价格低、掉电易失性、随机读写、总线式访问) SDRAM/DDR都属于动态内存(相对于静态内存SRAM),都需要先运行一段初始化代码来初始化才能使用,不像SRAM开机上电后就可以直接运行。类似于…

2023-大数据应用开发-工业可视化参考结果

工业可视化 任务一:用柱状图展示设备历史各个状态持续时长 编写Vue工程代码,根据接口,用柱状图展示接口所有数据中各设备各个状态持续时长(秒),同时将用于图表展示的数据结构在浏览器的console中进行打印…

ipad手写笔一定要买苹果的吗?apple pencil二代平替笔推荐

近年来,随着Apple pencil的出现,在工作和学习上给小伙伴们带来了许多便捷。但原装的价格对于我们这些“贫民窟”的小伙伴来说真的是太贵了,而且感觉只是偶尔书写和业余画画,没必要入手这么贵的电容笔。所以咱们国货出现了许多平替…

day53 补

1143.最长公共子序列 力扣题目链接(opens new window) 给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度。 一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符&#xff0…

配置远程访问:让外部网络用户能够使用公司内部的OA办公系统

文章目录 前言1. 确认在内网下能够使用IP端口号登录OA办公系统2. 安装cpolar内网穿透3. 创建隧道映射内网OA系统服务端口4. 实现外网访问公司内网OA系统总结 前言 现在大部分公司都会在公司内网搭建使用自己的办公管理系统,如OA、ERP、金蝶等,员工只需要…

VSCode中调试通过torchrun实现的分布式训练启动程序

train.sh文件实现torchrun如下 #!/bin/bashpy3clean ./ CUDA_VISIBLE_DEVICES3 torchrun --nproc_per_node1 --master_port9006 tools/train.py \configs/basicvsr_plusplus_vimeo90k_bd.py \--seed 0 \ 需要进行更改来DeBug,改成launch.json如下所示,…

问道管理:沪指跌0.43%坚守3100点,地产、石油等板块走弱

8日早盘,沪指再度回调,检测3100点支撑;深成指、创业板指均下挫;两市半日成交约4000亿元。 到午间收盘,沪指跌0.43%报3108.84点,深成指跌0.69%,创业板指跌0.72%,科创50指数微涨0.01%…

蓝桥杯打卡Day5

文章目录 日志排序重复者 一、日志排序IO链接 本题思路:本题就是根据就是排序的知识点&#xff0c;在sort内部可以使用仿函数来改变此时排序规则。 #include <bits/stdc.h>const int N10010; int n; std::string logs[N];int main() {std::ios::sync_with_stdio(false)…

Linux下的系统编程——共享存储映射(十)

前言&#xff1a; mmap是一种内存映射文件的方法&#xff0c;即将一个文件或者其它对象映射到进程的地址空间&#xff0c;实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。实现这样的映射关系后&#xff0c;进程就可以采用指针的方式读写操作这一段内存&…

数据结构与算法:概述

目录 算法 评价标准 时间的复杂度 概念 推导原则 举例 空间的复杂度 定义 情形 运用场景 数据结构 组成方式 算法 在数学领域&#xff0c;算法是解决某一类问题的公式和思想&#xff1b; 计算机科学领域&#xff0c;是指一系列程序指令&#xff0c;用于解决特定的…

30 秒使用 Sealos 搭建个人密码管理器 Vaultwarden

我与 LastPass 的曲折恋情 超过 8 年网龄的我&#xff0c;注册过很多网站帐号&#xff0c;每个网站的密码我都用不同的复杂密码。一开始我全靠脑力记忆这些密码&#xff0c;后来渐渐觉得记起来很困难&#xff0c;就记录在笔记本上。但是随着时间推移&#xff0c;我发现这种方法…

什么样的蓝牙耳机戴着舒服,佩戴舒适的蓝牙耳机推荐

什么样的蓝牙耳机戴着舒服&#xff1f;相信大家肯定有这么一个困扰&#xff0c;就是在入耳式耳机佩戴时间久了&#xff0c;总感觉耳道内部不舒服&#xff0c;那么今天我要向大家介绍一种备受骨传导爱好者推崇的神奇装置——骨传导耳机。首先&#xff0c;让我们来了解一下骨传导…

亚信安慧荣膺“信创工委会技术活动单位”

近日&#xff0c;以亚信科技AntDB数据库团队为基础组建而成的湖南亚信安慧科技有限公司&#xff08;简称&#xff1a;亚信安慧&#xff09;被中国电子工业标准化技术协会、信息技术应用创新工作委员会(简称&#xff1a;信创工委会)授予“信息技术应用创新工作委员会技术活动单位…

小程序分销机制介绍,小程序二级分销功能有哪些?

为什么有越来越多的用户选择使用小程序&#xff1f;跟“高大上”的APP相比&#xff0c;小程序不仅可以减少下载安装的复杂流程&#xff0c;还具备操作便捷、沉淀私域数据的优势。蚓链分销小程序具备裂变二维码、实时分佣、分销身份升级、层级分佣、商品个性化佣金设定等功能&am…

geopandas 笔记: datasets 数据集

geopandas 自带的几个数据集 1 世界各个国家 import geopandas as gpd import pandas as pdpd.set_option(display.max_rows,None) gpd.read_file(gpd.datasets.get_path(naturalearth_lowres)) pop_est人口数量continent国家所在的大陆name国家的名称iso_a3国家的三个字母的…

谷歌霸屏推广怎么做?

答案是&#xff1a;可以使用GLB外推技术实现谷歌霸屏推广。 谷歌霸屏推广是一种Google SEO策略&#xff0c;旨在确保品牌或关键词在Google搜索结果的第一页上占据多个位置。 正确地执行此策略可以大大提高品牌的在线曝光度&#xff0c;从而增加流量和潜在客户。 那么&#x…

运动耳机哪种好、运动戴的蓝牙耳机推荐

作为一名运动爱好者&#xff0c;自然要有一款专业的运动耳机&#xff0c;运动耳机的重要作用就是它能帮我们缓解枯燥运动时的乏味&#xff0c;还能提高运动锻炼的效果。热爱运动的我&#xff0c;最喜欢就是运动音乐随行了&#xff0c;在用过众多蓝牙耳机之后&#xff0c;才明白…