对语言模型能否替代知识图谱的再思考

news2025/1/22 16:59:03

cd00981c688f09167be3cd3b187b9020.png深度学习自然语言处理 原创
作者:cola

进NLP群—>加入NLP交流群

知识图谱(KGs)包含了许多真实世界的知识,在许多领域都发挥着重要重用,但是大型的知识图谱构建过程需要大量的人工介入。随着语言模型(LMs)的发展,其参数囊括的知识也是极其丰富且应用广泛的,同时语言模型的训练并不需要太多人工干涉。因此,有不少研究证明LMs可以替代KGs,但是这真的是正确的吗?或许我们需要重新审视一下这个观点。

论文:
Rethinking Language Models as Symbolic Knowledge Graphs

地址:
https://arxiv.org/pdf/2308.13676.pdf

摘要

知识图谱(KGs)在搜索、问答和推荐等以知识为中心的应用中发挥着关键作用。随着当代语言模型(LMs)在大量文本数据上的训练日益突出,研究人员广泛地探讨了这些模型中的参数知识是否能够与知识图中的参数知识相匹配。各种方法表明,增加模型大小或训练数据量可以增强其检索知识的能力,但在全面评估LMs是否能够涵盖KGs复杂的拓扑和语义属性方面仍存在空白,而这些属性对推理过程至关重要。

因此这项工作,我们对不同大小和性能的语言模型进行了详尽的评估。通过构建9个定性基准,包括对称性、非对称性、层次性、双向性、组合性、路径、实体中心性、偏差和歧义。此外,我们提出了新的评估指标。对各种LMs的评估表明,虽然这些模型在召回事实信息方面表现出相当大的潜力,但它们捕捉KG复杂的拓扑和语义特征的能力仍然受到严重限制。我们用提出的评价指标验证了普遍接受的观点,即较大的LM(例如,GPT-4)普遍优于较小的LM(例如,BERT)。

背景介绍

著名的大型知识图谱(KGs),如Wikidata、DBPedia和Freebase,奠定了跨越搜索引擎、问答系统和推荐系统的无数应用程序的基石。这些应用程序依靠KGs提供的结构化表示来访问其中的特定信息片段并执行复杂的推理任务。近年来,语言模型(LMs)及其快速发展的能力得到了迅速发展。一个被广泛接受的观点是,在广泛的文本语料库上进行预训练的LMs具有取代符号KGs的巨大潜力,可以作为适应性强的知识库。

从LAMA开始,许多研究都围绕现代LM如何熟练地对世界知识编码,以及如何有效地检索知识进行。这些工作揭示了现代LMs通过提示学习、上下文学习等技术提炼特定知识的能力。提取的知识(通常表示为独立三元组数组或子图)与来自真实世界KG的三元组参考集进行比较。然而,我们认为这样的评估框架在捕捉KG的细微属性方面存在不足。

KGs具有的拓扑和语义属性建立了其中信息的可靠性,便于信息的访问和聚合,并使复杂的推理能够有效地进行。为了实现LMs和KGs之间的对等,评估这些属性是至关重要的。例如下图中,在KGs中,分类信息(如层次)被广泛用于有效的补全和检索。类似地,对称和不对称等语义约束确保了KG中信息的可靠性和对KG查询响应的一致性。举个例子:“Lisa Simpson is sibling of [MASK]” (answer: Bart Simpson) and “Bart Simpson is sibling of [MASK]” (answer: Lisa Simpson)。此外,组合和路径等模式构成了在KGs上回答问题所需的复杂推理的核心。同时KGs减轻了词汇相似实体引起的潜在歧义。据我们所知,在建立LM和KG的等价性时,之前的评估框架都没有全面地研究这些属性。d59ad46e0ab711bfc1a4222eb668be26.png为此,我们基于T-REx数据集构建了9个新的基准测试。T-REx三元组与Wikipedia保持一致。我们从T-REx数据集中抽取了上述9个属性的三元组,每个基准包括大约1000个示例,形成一个全面的评估集。

经过研究,有如下发现:

  1. 即使是最大的LM(GPT-4)在benchmarks上也只能达到平均23.7% hit@1,而在现有的LAMA benchmarks上则高达50% precision@1。

  2. 与高效捕获嵌入在KG中的细微的拓扑和语义属性相比,LM可能只是相对简单的检索独立的KG三元组。

  3. 规模较大的LM并非普遍优于规模较小的LM。例如,在双向、组合性和歧义测试上,BERT优于GPT-4。

  4. 传统的评价指标与我们提出的指标只有微弱的相关性。

得出结论:在评估LMs作为潜在知识库的过程中,KG的几个重要维度在很大程度上被忽视了。

方法

由于T-REx数据集提供了大量与三元组配对的维基百科摘要,还具有各种各样的关系,有助于产生各种各样的benchmarks,所以我们用T-REx数据集来创建benchmarks测试。我们从这个数据集中抽取三元组,以生成对称、不对称、层次、双向、组合、路径、实体中心、偏差和模糊性的benchmarks。与以前的方法不同的是,我们设计的样本单个基准包含多个相关的三元组,而不是单个三元组。25ee30de864cd2a4719a5ea85c72cce9.png如图2所示,我们的评估框架将样本中的每个三元组从给定基准转换为一个语句,然后使用该语句作为查询来提示LM查找被屏蔽的tokens。举个例子,将三元组转换成“Lisa Simpson is a sibling of [MASK]”。为了增强提示的鲁棒性并降低提示的敏感性,我们使用利用Parrot 2生成初始提示。通过用随机同义替换每个生成语句中的tokens,创建更多变体。然后将提示下LM的前k个预测与真正的被MASK实体进行比较,就组成了最终的评估指标。

基线与评估

给定来自T-REx数据集的三元组集合,我们对匹配各种拓扑和语义模式的三元组进行采样。每个基准测试关注一个不同的模式,并需要一个独特的评估指标。2e27c710c7add4d83cfb8d0dac428927.png对于每个基准,设作为要评估的目标语言模型。在数据集中表示一个三元组,其中为主语实体,为宾语实体,为它们之间的谓词。表示给定三元组的精度;如果正确预测对象,该值为1,否则为0。该指标可以扩展到模型的top-k预测。

对称性

如果实体和之间的关系成立,那么在实体和之间的关系也应该成立。ecfd26f0bc7c6e6f9a8c9188adca94a4.png为了准确识别T-REx中对称的谓词,我们提取了至少50个三元组的谓词,并且这些三元组中至少有50%是对称的。给定对称谓词,每个谓词最多采样200个三元组。表示的分数,表示的分数,则对称性指标计算方式:9f1b1d2e5b77e3b5b9b24ba6b87e4690.png

非对称性

与对称性相反,如果实体和之间的关系成立,那么在实体和之间的关系不成立。0884a0639416e79cf9e55a2ff22b78e5.png采用与对称谓词类似的策略,提取至少25个三元组相关联,并且至少50%的三元组是不对称的,每个谓词最多采样100个三元组。非对称性指标计算方式:b8cb935bb7fd7fe42625199049f35787.png

双向性/反向性

如果两个谓词和以相反的顺序连接相同的主语和宾语,则它们是反向的。即三元组和中和是相反的。使用与对称和非对称关系相同的策略提取这些谓词。和表示和的分数,双向性指标计算方式:a561b9a665ee4bdf482171918bae1279.png

层次性

层次关系捕获了KG的拓扑逻辑,在T-REx数据集中,由谓词的子类表示。为了评估LM捕获层次结构的能力,我们从数据集中采样2跳层次关系。基准中的每个示例都是三元组和的集合。我们从数据集中随机抽取1000个这样的例子。,和分别为,和准确度得分,其中捕获了两个层次的存在,是的子类。计算层次指标如下:24e6f3e9f5921f5313c182bdf04afe7b.png

组合性

组合性是KGs补全和查询推理任务中很重要的一部分。如果同时存在和那么是组合的。例如“父亲”和“配偶”关系隐含了“母亲”这一关系。首先根据谓词从KG中识别出最受欢迎的10个类别。然后,我们从这些类别中收集有关实体的事实,这样就存在一个形式为,和的组合关系。根据每个谓词组合的出现频率采样,对于每个谓词组合,我们采样100个组合事实。如果没有发现高频组合,我们选择1000个组成事实的随机样本。组合性指标计算方式:0b5e0ba17dc39f5be5542faf1bf5049d.png

路径

路径查询是大多数基于KGs的问答基准中不可或缺的一部分,探索LMs如何理解路径可以更深入地了解它们如何学习内部连接多个实体。首先确定KG中的流行类别,并从每个类别中随机选择50个实体。然后,我们从这些实体中找到2跳路径,并根据谓词组合的频率进一步采样。基准中每个例子的形式都是和,和是不一样的。计算方式:c7402d534defedcc97a4a9e330a14957.png

实体中心性

诸如文本生成和摘要之类的任务需要理解关于给定实体的更广泛的事实集。因此,我们考虑构建一个以实体为中心的基准,其中每个示例都包含一组以给定实体为中心的三元组。首先确定图中连接最良好的实体,然后从这些实体中随机取样。每个实体采样20个三元组。以所有示例的以实体为中心的平均分数作为衡量该指标的标准。

偏差

从T-REx中获得了四个特定关系的三元组:表示个体的性别,表示地理位置,表示个体的性取向,表示个体与宗教的隶属关系。然后,我们对每个三元组中的对象进行过滤和规范化。随后,我们只选择被认为非常不受欢迎的主题,在T-REx图中具有少于或等于两个链接的三元组。我们的目标是衡量如果我们询问这些敏感特征,LMs会产生多少幻觉。的偏差计算方式,其中表示敏感关系:40986d57e8d200cbda57ee91557a995f.png

歧义

为了进行歧义性基准测试,有必要对具有相似特征的实体对进行排序。为了提取每个实体各自的关系和链接对象,使用了它们各自的Wikipedia页面。然后对结果数据进行过滤,只包括在LAMA关系数据集中也存在的共享关系。基准中的每个例子的形式为和,其中代表知名实体,表示不太知名的实体。计算方式:abe605a9c02f528781ac0f76685aca1f.png

实验

评估了BERT(bert-base-uncase)、RoBERTa(roberta-base)、T5(t5-base)、GPT-3(text-davincici-003)和GPT4。

实验设置

Prompting使用来自Petroni等人[1]的T-REx数据集的提示。此外我们为新关系手动定义模板。例如,关系“spouse”的提示为“<ENT0>is spouse of <ENT1>”。由于GPT-3和GPT-4对提示的措辞更为稳健,因此随机抽样的10个释义提示足以用于其准确评估。相反,我们使用了BERT、RoBERTa和T5的所有释义提示。

BERT使用了fill_mask方法,首先将输入句子分割成tokens,识别[MASK]token,然后将这些token翻译成相应的张量。然后,考虑到周围标记提供的上下文,模型预测要替换的标记[MASK]。这个方法返回列表的top-k(k=5)个预测token。请注意,由于BERT预测每个掩码,因此我们通过用相等数量的[MASK]替换它们来处理多token实体。然后,我们使用多个token的准确率的平均值作为预测的最终分数。

RoBERTa与Bert类似,只不过掩码用的是<mask>。

T5T5主要用于文本生成任务。我们也依靠fill_mask方法,但有一个区别,我们使用特殊的<extra_id_0>token作为提示符中对象实体的占位符。然后我们对输入提示符进行标记,将编码的输入传递给T5,并生成top-k预测。

GPT-3我们使用OpenAI API进行文本补全。为了与其他模型进行公平的比较,我们使用[MASK]作为提示符中的目标实体。然后,我们扩展提示以包含GPT-3的任务描述。还使用logprobs作为输入参数来检索生成文本的前5个预测结果。然后,我们使用这些分数将生成的文本与真实实体进行比较。

GPT-4与GPT-3类似。

实验结果

6e8f52e53b8350e816ff68bf58721db4.png

可以看出,即使是最强大GPT-4,在不同的基准测试中平均得分也只有23.77%(6.02%-54%)metric@1。相比之下,在广泛使用的LAMA基准上,最好的GPT模型报告的精度高达64%。这表明我们提出的基准是具有挑战性的,并且在LLM的知识建模/检索能力方面显示出很大的差距。我们需要能够捕获我们提出的拓扑和语义模式的模型,以及从语言模型中恢复这些模式的有效技术。

一些有趣的发现,在特定的基准测试中,大型模型比小型模型面临更多的挑战,即双向关系、复杂路径和涉及歧义的场景。对于双向基准测试,只有BERT表现出比GPT-4更好的性能。然而,在路径基准测试中,BERT和GPT-3都优于GPT-4。与较小的模型(BERT和RoBERTa)相比,较大的模型(GPT-4和GPT-3)之间存在很大的性能差距并不奇怪,因为较大的模型会产生幻觉。

当将GPT-3与其他LM进行比较时,我们在metric@3和metric@5中观察到类似的趋势。有趣的是,GPT-3在对称基准上一直被BERT超越,而在双向基准测试中优于BERT,特别是在k值较高的情况下。这意味着,尽管GPT-3可能比BERT更好地掌握了双向性,但它仍然没有完全内化这一属性。RoBERTa也有类似的趋势,其性能随着k值的增加而显著增强。

分析

简单地评估三元组在衡量模型的能力方面是无效的。如下图所示,分数指标表明GPT-4明显优于所有其他模型。此外,这些分数与我们提出的指标之间的相关性很弱。

2762cc57364678255afcdf42a38f9a57.png

为了更好地理解LMs的功能,我们看看LMs跨基准测试的关系性能。特别是,对于每个基准测试,我们将功能强大的GPT-4模型的性能(metric@1分数)与性能最佳的模型进行比较。我们在图4中显示了5种最常见的关系/模式的结果。该分析旨在解决两个关键问题:

  • LMs无法捕获跨各种关系/模式均匀分布的特定属性,还是向某些属性倾斜?

  • 优于GPT-4的较小模型是否表现出不同的行为模式?

2247bc979ae49bb67c1b398a519ce220.png

我们发现,除了少数例外,GPT-4在大多数模式中往往与较小的模型相当或优于较小的模型。看起来LM对KG属性的掌握在不同的关系/模式中并不一致。虽然它可以很好地理解特定关系和模式的属性,但在其他实例中它完全忽略了这些属性。这种不一致会严重影响下游应用程序,这些应用程序期望对拓扑和语义模式有统一的理解,而不考虑特定的关系/模式。总而言之,关系分析不仅揭示了LMs的缺点,而且还提供了一个可操作的策略:当关注每个属性缺失的关系/模式时,我们可以依赖知识图来提高LMs的性能。

LMs在我们提出的几乎所有基准测试中都表现不佳,即使是这种水平也不能表明对拓扑和语义属性的深入理解。这可能归因于LMs在训练过程中简单地记住了示例中的三元组。为了进一步研究LMs掌握这些属性的能力,我们在下图中提供了每个示例中出现的实体的平均受欢迎程度的直方图(使用T-REx知识图谱计算)。直方图揭示了一个结果:在正确预测的示例中,实体受欢迎程度的分布与在每个基准中的所有示例中观察到的分布密切相关。767271812ace087f608f66f577b24165.png

总结

考虑到现代LMs的广泛应用,深入理解它们至关重要。必须了解它们在学习、表示和存储知识方面的局限性。这可以告知技术来改进模型,并辨别何时以及如何使用外部知识来增强模型。尽管大量的工作致力于评估用LM替代KG的可能性,但这些调查往往忽视了KG的符号表示。本文提出新的基准和评估指标来解决符号表示的各种拓扑和语义属性,实验表明,LMs还远远没有完全捕获符号表示的拓扑和语义属性。

参考资料

[1] 

Language Models as Knowledge Bases?: https://aclanthology.org/D19-1250


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/963143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vagrant + VirtualBox + CentOS7 + WindTerm 5分钟搭建本地linux开发环境

1、准备阶段 Vagrant 版本&#xff1a;vagrant_2.2.18_x86_64.msi 链接&#xff1a;https://developer.hashicorp.com/vagrant/downloads VirtualBox 版本&#xff1a;VirtualBox-6.1.46-158378-Win.exe 链接&#xff1a;https://www.virtualbox.org/wiki/Download_Old_Builds …

RHCE——十四、变量和引用

RHCE 一、深入认识变量1、什么是变量2、变量的名称3、变量的类型4、变量的定义5、自定义变量6、环境变量7、位置变量 二、变量赋值和作用域1、显示赋值&#xff1a;变量名变量值2、read 从键盘读入变量值3、变量和引号4、变量的作用域5、变量的运算 一、深入认识变量 1、什么是…

编程题四大算法思想(三)——贪心法:找零问题、背包问题、任务调度问题、活动选择问题、Prim算法

文章目录 贪心法找零问题&#xff08;change-making problem&#xff09;贪心算法要求基本思想适合求解问题的特征 背包问题0/1背包问题0/1背包问题——贪心法 分数背包问题 任务调度问题活动选择问题活动选择——贪心法最早结束时间优先——最优性证明 Prim算法 贪心法 我在当…

【Electron将HTML项目打包成桌面应用exe文件】

目标&#xff1a;前端将静态页面文件夹所有页面打包成一个exe文件&#xff08;不包含其它文件&#xff09;可运行。 步骤 1、初始化 npm init此时项目多出一个package.json文件。 {"name": "my-electron-app","version": "1.0.0",…

前端面试中Vue的有经典面试题二

7. Vue中给data中的对象属性添加一个新的属性时会发生什么&#xff0c;如何解决&#xff1f; 示例&#xff1a; 点击button会发现&#xff0c; obj.b 已经成功添加&#xff0c;但是视图并未刷新&#xff1a; 原因在于在Vue实例创建时&#xff0c; obj.b 并未声明&#xff0c;因…

【多线程案例】单例模式(懒汉模式和饿汉模式)

文章目录 1. 什么是单例模式&#xff1f;2. 立即加载/“饿汉模式”3. 延时加载/“懒汉模式”3.1 第一版3.2 第二版3.3 第三版3.4 第四版 1. 什么是单例模式&#xff1f; 提起单例模式&#xff0c;就必须介绍设计模式&#xff0c;而设计模式就是在软件设计中&#xff0c;针对特殊…

无涯教程-JavaScript - HYPGEOMDIST函数

HYPGEOMDIST函数替代Excel 2010中的HYPGEOM.DIST函数。 描述 该函数返回超几何分布。 HYPGEOMDIST返回给定样本数量,给定样本数量,总体成功率和总体数量的概率。 将HYPGEOMDIST用于具有有限总体的问题,其中每个观察输出都是成功或失败,并且给定大小的每个子集的选择可能性均…

《数字图像处理-OpenCV/Python》连载(4)图像的读取与保存

《数字图像处理-OpenCV/Python》连载&#xff08;4&#xff09;图像的读取与保存 本书京东优惠购书链接&#xff1a;https://item.jd.com/14098452.html 本书CSDN独家连载专栏&#xff1a;https://blog.csdn.net/youcans/category_12418787.html 第1章 图像的基本操作 为了方…

小兔鲜商02

npm i vueuse/core -fvue插件使用&#xff1a; 许多公用的全局组件&#xff0c;&#xff0c;可以通过插件注册进去&#xff0c;就不用一个一个导入组件&#xff0c;&#xff0c; import XtxSkeleton from /components/library/xtx-skeletonexport default {install (app) {// …

ELK高级搜索(三)

文章目录 11&#xff0e;索引Index入门11.1 索引管理11.2 定制分词器11.3 type底层结构11.4 定制dynamic mapping11.5 零停机重建索引 12&#xff0e;中文分词器 IK分词器12.1 Ik分词器安装使用12.2 ik配置文件12.3 使用mysql热更新 13&#xff0e;java api 实现索引管理14&…

Spring源码解析-总览

1、前言 Spring源码一直贯穿我们Java的开发中&#xff0c;只要你是一个Java开发人员就一定知道Spring全家桶。Spring全家桶为我们一共一站式服务&#xff0c;IOC、AOP更是Spring显著特性。但是Spring到底怎么为我们提供容器&#xff0c;管理资源的呢&#xff1f;下来&#xff0…

1.4状态机模型

状态机简介&#xff1a; 1.大盗阿福 阿福是一名经验丰富的大盗。趁着月黑风高&#xff0c;阿福打算今晚洗劫一条街上的店铺。 这条街上一共有 N N N家店铺&#xff0c;每家店中都有一些现金。 阿福事先调查得知&#xff0c;只有当他同时洗劫了两家相邻的店铺时&#xff0…

js对中文进行base64编码和解码操作,解决中文乱码问题

我使用github api的接口获取文件内容&#xff0c;然后使用atob进行解码&#xff0c;但是发现&#xff1a;乱码.......糟心啊 所以就有了我封装的方法&#xff1a; export const encode64 (str) > {// 首先&#xff0c;我们使用 encodeURIComponent 来获得百分比编码的UTF…

m1芯片macOS系统卡顿问题解决方法

m1芯片的MacBook在使用过程中会出现“假死”的情况。主要表现为鼠标转圈圈&#xff0c;很多操作都不能实现&#xff0c;不能输入文本&#xff0c;系统ui也响应十分慢&#xff0c;而资源监视却看不到很高的占用。一般出现此类情况只能关机或重启。这其中的"罪魁祸首"便…

管理类联考——逻辑——形式逻辑——汇总篇——知识点突破——形式逻辑——联言选言假言——矛盾

角度 角度——汇总——持续优化 性质 &#xff08;1&#xff09; 所有的 S 是 P 所有的S是P 所有的S是P 与 有的 S 不是 P 有的S不是P 有的S不是P矛盾 &#xff08;2&#xff09; 所有的 S 不是 P 所有的S不是P 所有的S不是P 与 有的 S 是 P 有的S是P 有的S是P 矛盾 &#xf…

Spring源码解析(十):spring整合mybatis源码

Spring源码系列文章 Spring源码解析(一)&#xff1a;环境搭建 Spring源码解析(二)&#xff1a;bean容器的创建、默认后置处理器、扫描包路径bean Spring源码解析(三)&#xff1a;bean容器的刷新 Spring源码解析(四)&#xff1a;单例bean的创建流程 Spring源码解析(五)&…

计算机毕设之基于数据可视化的智慧社区内网平台python+django+mysql(含开题+源码+部署教程)

系统阐述的是一款基于数据可视化的智慧社区内网平台的设计与实现&#xff0c;对于Python、B/S结构、MySql进行了较为深入的学习与应用。主要针对系统的设计&#xff0c;描述&#xff0c;实现和分析与测试方面来表明开发的过程。开发中使用了 django框架和MySql数据库技术搭建系…

el表达式和标签库的简单使用!!!

备工作1&#xff1a;tomcat10.1.13版本&#xff0c;可去官网下载&#xff0c;不会下载的童靴看过来&#xff1a;如何正确下载tomcat&#xff1f;&#xff1f;&#xff1f;_明天更新的博客-CSDN博客 准备工作2&#xff1a;添加架包&#xff08;需要三个架包&#xff09; jstl架包…

老师们快看过来,这里有使用ChatGPT当助教的方法

最近OpenAI官方博客发布了一篇文章How teachers are using ChatGPT&#xff08;老师们如何使用ChatGPT&#xff09;&#xff0c;讲的是老师们如何在教学中使用ChatGPT&#xff0c;其中有几个例子挺好的&#xff0c;我转述一下&#xff0c;希望对你有用。 制定教案 第一个例子…

[git]分支操作

Checkout 相当于切换到该分支&#xff0c;但是因为不能直接操作远程分支&#xff0c;会在本地同步一个完全一样的分支。 注意&#xff1a;切换分支前本地先进行提交&#xff08;addcommit&#xff09;&#xff0c;否则有可能代码会丢失。 New Branch from Selected... 创建一…