iText2KG:显著降低LLM构建知识图谱时的幻觉现象

news2025/1/22 23:57:28

1. 当前知识图谱构建存在的问题

知识图谱通过捕捉实体之间的关系来构建知识的结构化表示,在分析文本数据集和从结构化异构数据中推断知识方面具有显著优势。比如,知识图谱能够融合来自多个来源的不同数据,提供一个具有凝聚力的信息视角。还能为文本语料库的分析提供更高层次的可解释性。

知识图谱的重要性不必多言,最近的GraphRAG又再一次将知识图谱掀起高潮。

1.1 传统知识图谱构建的问题

传统的命名实体识别、关系提取和实体解析是常用于将非结构化文本转化为结构化数据、捕获实体及其关联和相关属性的 NLP 技术。然而,这些方法存在一些局限性:往往局限于预定义的实体和关系,或者依赖特定的本体,并且大多依赖监督学习方法,需要大量的人工标注。

1.2 LLM时代知识图谱构建的问题

LLMs (大语言模型) 的最新进展在包括知识图谱补全、本体优化和问答等各类 NLP 任务中展现出了潜力和更优的性能,为知识图谱的构建带来了良好的前景。

LLMs 在少样本学习方面也表现出色,能够实现即插即用的解决方案,并且无需大量的训练或微调。由于它们在广泛的信息源中接受训练,因而能够跨不同领域提取知识。

所以,近期的研究已开始利用 LLMs 的发展成果,特别是其在知识图谱构建任务中的少样本学习能力。

不过,未解决和语义重复的实体及关系仍然构成重大挑战,导致构建的图谱出现不一致的情况,需要大量的后期处理。这些不一致可能表现为冗余、模糊以及图谱扩展的实际困难。

此外,许多现有的方法与主题相关,这意味着其有效性在很大程度上取决于其设计所针对的特定用例。这种依赖性限制了这些方法在不同领域的通用性,需要为每个新的主题领域定制解决方案。

基于大型语言模型(LLM)构建知识图谱(KG)的解决方案,可依据三种范式来分类:本体引导、微调以及零样本或少样本学习。

2. iText2KG

图片

为了解决以上问题,作者提出了iText2KG。上图是 iText2KG 的工作流程概览。包含四个模块:

  • • 1)文档蒸馏器(Document Distiller):利用 LLM,将原始文档重新整理为预定义和语义块。该模式类似预定义的 JSON 结构,引导语言模型从每个文档中提取与特定键相关的特定文本信息;

  • • 2)增量实体提取器(Incremental Entities Extractor):获取语义块,识别语义块内独特的语义实体,消除歧义,确保每个实体都有清晰的定义并与其他实体区分开;

  • • 3)增量关系提取器(Incremental Relations Extractor):处理已解决的实体和语义块,以检测语义上独特的关系。

  • • 4)图集成器(Graph Integrator):使用 Neo4j 以图形格式直观地呈现这些关系和实体。

2.1 文档蒸馏器(Document Distiller)

运用大型语言模型(LLM)依照预定义的模式(Schema)或蓝图将输入文档重写为语义块。这些模式(Schema)并非本体,而是一个蓝图,使 LLM 倾向于特定类别,同时在其他方面保持灵活性。

实际上,该模式(Schema)的功能类似于预定义的 JSON,引导 LLM 从每个文档中为特定的键提取特定的值(文本信息)。在这个项目的Github仓库里可以找到一些这种Schema的示例(如下图):

图片

对于每个文档,如果其中存在所需信息,将获得一个半填充的 JSON。

然后将所有这些半填充的 JSON 聚合起来,形成文档的语义块。

该模块的主要目标为:

-(a)通过减少可能用冗余信息污染图形的噪声来提高信噪比。

-(b)利用模式引导图形构建过程,特别是针对概念键。例如,对于一篇科学文章,能够提取“标题”和“作者”,并添加诸如“具有标题”和“具有作者”之类的关系以及语义信息。为确保解决方案在各种用例中的适用性,Schema是一个取决于用户偏好和用例特殊性的输入。通过重新制定原始文档来增强图形构建过程的构想已被以下论文所证实。

2.2 增量实体提取器(Incremental Entities Extractor)

增量式实体匹配器(iEntities Matcher)会遍历所有语义块并提取全局文档实体。

图片

iEntities Matcher 的主要算法如上图。

iEntities Matcher的核心算法是先利用大型语言模型(LLM)从首个语义块(即文档0)中提取实体,构建全局实体集ℰ,且假定这些实体在首次迭代中仅此一次成对独立。

遵循约束(C1,原文具体定义,即:实体和关系都应该描述一个语义上独特的概念。),引导LLM提取单一概念的实体,以避免语义混淆。

对于文档集合中的后续文档,算法抽取局部实体,并尝试将其与全局实体集中的实体进行匹配。

如果局部实体在中找到对应,则加入到匹配集中。

若未找到,算法将使用预设阈值的余弦相似度在中寻找相似实体。若依然无匹配项,局部实体将直接加入匹配集;

若有,则基于最高相似度选取最佳匹配的全局实体加入。随后,全局实体集通过与匹配集的合并进行更新。

这一流程在文档集合中的每个文档上重复执行,最终形成一个全面的全局实体集。

2.3 增量关系提取器(Incremental Relations Extractor)

将全局文档实体与每个语义块一同作为上下文提供给增量式关系匹配器(iRelations Matcher)以提取全局文档关系。

采用了与 iEntities Matcher 相同的方法。

根据将全局实体还是本地实体作为与语义块一起的上下文提供给 LLM,关系提取会有不同的表现。

当提供全局实体作为上下文时,LLM 会提取语义块直接陈述和隐含的关系,特别是对于语义块中未明确存在的实体。这为图形丰富了潜在信息,但增加了不相关关系出现的可能性。

相反,当提供本地匹配的实体作为上下文时,LLM 仅提取上下文直接陈述的关系。这种方式降低了图形的丰富程度,但也降低了不相关关系的概率。

图片

iRelations Matcher 的两个版本如上图所示,蓝色表局部实体(Local),红色表示全局实体(Global)。

2.4 图集成器(Graph Integrator)

将全局文档实体和全局文档关系输入到 Neo4j 中以构建知识图谱。

这一部分作者描述的比较简单,大家有兴趣可以去Github查看该部分的源代码:

https://github.com/AuvaLab/itext2kg/tree/main/itext2kg/graph_integration

3. 效果评估

所有实验中,作者均选用了 GPT-4 来作为基础模型进行评估。GPT-4 即便在零样本的情境下,也能达成近乎微调后的顶尖性能。

采用了三个用例:网站转化为知识图谱、科学文章转化为知识图谱以及简历转化为知识图谱分别对各个模块进行效果评估,确保 iText2KG 能在不同的知识图谱构建场景中适用。

3.1 文档蒸馏器效果评估

作者首先对模块 1 (文档蒸馏器)进行评估,以确保所提取的信息与模式及输入文档的语义相符。针对该模块,作者提出了以下指标:

  • • 模式一致性(Schema consistency):检验重写文本内容是否与输入的架构相符。对于架构中每个关键点,我们定义   Cs(K)为正确对应到该关键点相关架构的元素数目。Is(k) 为那些被加入但不属于架构的元素数目。架构中某个关键点的一致性得分计算如下:

图片

  • • 信息一致性(Information consistency):评估重写文本的内容是否与原始报告的语义相符,具体分类为:差异极大(<30%)、中等差异(30-60%)、大致一致(60-90%)和完全一致(>90%)。

3.1.1 模式一致性

图片

上表显示,文档蒸馏器在各类文档类型中均实现了较高的模式一致性。

科学文章和简历呈现出最高的模式一致性得分,表明该模块处理结构化信息的能力出色,特别是对于主要依靠标题来组织数据的文档。

网站的一致性得分仍高达 0.94,但相对略低,这或许是由于网络内容的多样性和结构化程度较低所致。

表明文档蒸馏器在处理和从不同类型文档中提取结构化信息方面的稳健性和适应性。

3.1.2 信息一致性

图片

上图展示了不同类型文档(简历、科学文章和网站)的信息一致性情况。

对于简历,大部分信息(74.5%)完全一致,25.5%大致一致,不存在中等一致性。表明重写的文本与简历原始内容的语义高度匹配。因为简历主要以清晰简洁的短语编写,使得大型语言模型更易于捕捉语义。

对于科学文章,57.1%的信息完全一致,42.9%大致一致,在保留原始语义方面展现出较高的准确性,尽管略逊于简历。这在预料之中,特别是鉴于科学文章是用更为复杂的科学英语撰写的。

网站有 56.0%的信息完全一致,24.0%大致一致,20.0%为中等一致性。这可能归因于网络内容的非结构化特性,这给准确的语义重写带来了更大的挑战。

3.2 增量实体提取器和增量关系提取器效果评估

  • • 三元组提取精度(Triplet Extraction Precision):不关心实体/关系解析过程,直接评估与相应文本的三元组一致性。三元组有的时候是隐含的,不一定直接由文本表述。将精度得分定义为提取的相关三元组数量除以提取的三元组总数。

  • • 实体/关系解析错误发现率(Entity/Relation Resolution False Discovery Rate):评估在提取的实体或关系总数中未解决(假阳性)的实体或关系所占比例。具体而言,计算未解决的实体或关系与提取的实体或关系总数的比率。通过突出总提取中的错误(未解决的实体/关系)比例,表明实体和关系提取过程的可靠性。

3.2.1 三元组提取

图片

参照上图,作者分别对使用全局还是局部实体作为上下文进行比较,比较二者在关系提取方面呈现出不同的表现。

当以全局实体作为上下文时,相关三元组的精度比以局部实体作为上下文时低 10%。当使用全局实体作为上下文时,大型语言模型会提取语义块中明确提及和隐含的关系。这会形成一个更丰富的图,包含更多潜在信息,但也有更高的出现不相关关系的可能性。

使用局部实体 作为上下文会致使大型语言模型仅提取直接陈述的关系,从而导致生成的图不够丰富,但不相关关系出现的可能性较低。

这体现了一种取决于用例的权衡。作者让用户决定是接受精度降低 10%以换取更丰富的图,还是获取 10%的精度但得到相对不那么丰富的图。

3.2.2 实体/关系解析

LlamaIndex 为检索增强生成(RAG)构建具有边级和节点级文本信息的未连接子图;因此,未将 LlamaIndex 与 iText2KG 进行对比评估。

图片

图片

从上面两个图中,可以看出 iText2KG 在三个不同的知识图谱构建场景中,在实体和关系解析过程方面取得了更优的成果。

此外,结果显示,当输入文档数量较少且具有清晰、非复杂的短语时,大型语言模型在实体和关系解析方面表现出色,如简历到知识图谱的过程所示。

此外,网站到知识图谱中未解决实体和关系的错误发现率高于其他知识图谱构建场景。是由于文档(块)数量较多以及网站文本信息的非结构化特性所致。

因此,只要文档(块)数量庞大且文本是非结构化且语言复杂,实体/关系解析过程对于构建一致的知识图谱就变得至关重要。

4.3 阈值估计

为基于余弦相似度估计合并实体和关系的阈值,使用 GPT-4 生成了一个包含 1500 个相似实体对和 500 个关系的数据集,其灵感源自不同领域。

图片

4.4 整体效果

图片

上图对比了其他方法与iText2KG在三种不同情境下的表现:

  • • 其他基准方法在所有三种知识图谱构建情境中都暴露出孤立节点,这些节点间缺乏联系。可能由于实体和关系提取的同时进行,导致语言模型产生幻觉效应,进而引起“遗忘”现象。可以通过分离实体和关系提取步骤可以提升性能。

  • • 在“网站至知识图谱”的场景中,输入文档数量的增加往往导致图中噪声节点的增加。表明文档蒸馏在有效提炼和精炼输入数据方面的重要性。

  • • iText2KG方法在三种知识图谱构建情境中均展现出了更优的实体和关系解析能力。当输入文档较少且内容简单、不复杂时,语言模型在实体和关系解析上表现出高效性,这一点在“简历至知识图谱”的流程中得到了体现。然而,随着数据集变得更为复杂和庞大,挑战也随之增大,如“网站至知识图谱”的场景。输入文档的分块大小和阈值对知识图谱构建的影响不容忽视。文档蒸馏器的输入可以是独立文档或分块。分块越小,语义块能捕捉到的文档细节就越具体,反之亦然。

    来源 | 大语言模型论文综述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2123271.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python进阶】学习Python从入门到进阶,详细步骤,就看这一篇。文末附带项目演练!!!

详细的Python学习路线 1. Python基础 Python安装和环境配置&#xff1a;学习如何在你的操作系统上安装Python&#xff0c;并配置开发环境。变量和数据类型&#xff1a;学习如何定义变量&#xff0c;以及Python中的基本数据类型&#xff0c;如整数、浮点数、字符串等。 Pytho…

【人工智能学习笔记】4_3 深度学习基础之循环神经网络

循环神经网络(Recurrent Neural Network, RNN) 是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network),循环神经网络具有短期记忆能力 RNN核心思想 RNN的结构 一个典型…

基于CNN-BiLSTM-Attention的流量预测 完整数据代码可直接运行

直接看视频: 基于CNN-BiLSTM-Attention的流量预测 完整数据代码可直接运行_哔哩哔哩_bilibili 模型: 有效提取径流时间序列的信息特征,提高径流预测模型的高维非线性拟合能力和预测性能的稳定性,将卷积神经网络(CNN),双向长短期记忆网络(BiLSTM)和注意力机制(attention)相…

tomcat端口被占用解决方法

在安装目录的conf下修改server.xml文件&#xff0c;修改后保存重启即可

十四、MySQL高级— 分库分表(7)

&#x1f33b;&#x1f33b; 目录 一、分库1.1 修改配置 schema.xml1.2 如何选择分库表1.3 SQLyog 连接 mycat 二、水平分表2.1 schema.xml2.2 rule.xml2.3 跨库join2.3.1 ER表2.3.2 全局表 2.4 全局序列2.4.1 本地文件2.4.2 数据库方式(一般都用这个)2.4.3 时间戳方式2.4.4 自…

时间序列预测学习方向总概括

推荐资源&#xff1a; 1.MA、AR、ARIMA 算法小陈-CSDN博客 2.informer论文讲解 【2024最火的两个模型&#xff1a;InformerLSTM两大时间序列预测模型&#xff0c;论文精读代码复现&#xff0c;究极通俗易懂&#xff01;——人工智能|AI|机器学习|深度学习-哔哩哔哩】 https…

微波无源器件 4 基于高阶定向耦合器的双极化波束形成网络

摘要&#xff1a; 一种Ka频段的双极化3dB定向耦合器被设计用于波束形成网络应用。所提出的解决方案对于紧凑Nolen网络。Nolen结构优于器平面和无损特别具有吸引力。两个平行方波导通过口径阵列耦合&#xff0c;设计用于获得两个正交极化之间的所需耦合和高隔离度。 索引词&…

sql语句的训练2024/9/9

1题 需要看清思路&#xff1a;不是将数据库中的device_id的名字改为user_infors_example&#xff0c;而是在查找的时候&#xff0c;需要将device_id看成user_infors_example来进行查找。 答案 select device_id AS user_infos_example FROM user_profile limit 2 2 当固定查找…

idea报错:java:错误:不支持发行版本5

问题 使用idea创建Maven项目运行是报错&#xff1a;java&#xff1a;错误&#xff1a;不支持发行版本5 解决 1.打开Settings 2.在Java compiler 里面修改和Java版本一致 然后就可以正常运行

租房市场新动力:SpringBoot大学生租房系统

第1章 绪论 1.1 课题背景 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。所以各行业&#xff0c;尤其是规模较大的企业和学校等…

erlang学习: Mnesia Erlang数据库2

Mnesia数据库增加与查询学习 -module(test_mnesia).-record(shop, {item, quantity, cost}). -record(cost, {name, price}). -record(design, {info, plan}). %% API -export([insert/3,select/1,start/0]). start() ->mnesia:start().insert(Name, Quantity, Cost) ->…

大模型之三十一-音源分离

大模型之三十一-音乐分离模型 因为TTS模型训练还有几个结果没出&#xff0c;本篇先介绍一下音乐分离模型吧。其实可能你也猜到了&#xff0c;一部分TTS的数据是网上爬来的&#xff0c;这种音频可能会有背景音之类的&#xff0c;这里需要将乐器类的伴奏去掉。所以就此介绍一下本…

U盘格式化怎么办?这4款软件可以帮你进行数据恢复。

如果你的U 盘被格式化&#xff0c;里面的数据就会被清除掉了。有备份的话&#xff0c;就不用担心丢失那些重要的数据&#xff1b;如果没有备份&#xff0c;也有办法解决&#xff1b;可以用电脑自带的一些功能恢复&#xff0c;或者是使用专业的恢复软件。如果大家有需求&#xf…

【软考】信息安全

【软考】信息安全 一.信息安全基础知识 信息安全是保障信息系统和数据的保密性、完整性、可用性、可控性和可追溯性的综合措施。这五个要素是信息安全的基础&#xff0c;缺一不可。 1. 保密性 (Confidentiality) 定义: 保证信息只被授权人员访问。举例: 银行账户信息、医疗…

【JAVA】Tomcat性能优化、安全配置、资源控制以及运行模式超详细

文章目录 一、Tomcat性能优化application.yml配置maxThreads 连接数限制压缩传输AJP禁用 二、JVM方向优化设置并行垃圾回收器查看gc日志文件 三、Tomcat安全配置入侵防范禁用非法HTTP请求方法禁止目录列出防止恶意关闭服务配置HTTPS加密协议HttpOnly标记安全头配置 四、Tomcat资…

Rancher 与 Kubernetes(K8s)的关系

1. 简介 1.1 Kubernetes 作为容器编排平台 Kubernetes 是一个开源平台&#xff0c;用于自动化部署、扩展和管理容器化的应用。它提供了容器调度、自动伸缩、健康检查、滚动更新等功能。 例子&#xff1a;假设您有一个微服务架构的应用程序&#xff0c;需要运行在多个节…

基于arcpro3.0.2版的使用深度学习目标提取之建筑房屋

基于arcpro3.0.2版的使用深度学习目标提取之建筑房屋 采用像素分类方法&#xff0c;像素分类一般把多边形详细轮廓给标注出来&#xff0c; 而目标检测就标注出对象大致矩形框就行, 本次训练结果&#xff1a;采用GPU显卡Nivda 1080 训练模型图 20个周期GPU训练 &#xff08;一…

【JavaEE】TCP协议 (TCP-传输层协议 万字详解)

&#x1f525;个人主页&#xff1a; 中草药 &#x1f525;专栏&#xff1a;【Java】登神长阶 史诗般的Java成神之路 &#x1f3a4;一.报头格式 TCP (Transmission Control Protocol) 是一种面向连接的、可靠的、基于字节流的传输层通信协议。TCP 被设计用来提供端到端的数据传…

Brequinar (Synonyms: 布喹那; DUP785; NSC 368390) AbMole介绍

Brequinar&#xff08;布喹那&#xff09;是一种合成的喹啉羧酸类似物&#xff0c;也是有效的二氢乳清酸脱氢酶(DHODH)抑制剂&#xff0c;对人 的 IC50 值为 5.2 nM&#xff0c;可以通过抑制DHODH&#xff0c;从而阻断嘧啶的从头合成。此外&#xff0c;Brequinar还可诱导肿瘤的…