Automated Construction of Theme-specific Knowledge Graphs

news2025/1/8 11:56:07

文章目录

    • 题目
    • 摘要
    • 引言
    • 相关工作
    • 方法
    • 实验
    • 消融研究
    • 结论

题目

自动构建主题特定知识图谱

在这里插入图片描述

论文地址:https://arxiv.org/pdf/2404.19146

摘要

    尽管知识图谱 (KG) 广泛应用于问答、智能对话系统等各种任务,但现有的 KG 面临两大挑战:信息粒度有限和时效性不足。这严重阻碍了从 KG 中检索和分析上下文中、细粒度和最新的知识,特别是在高度专业化的主题(例如专业的科学研究)和快速发展的上下文(例如突发新闻或灾难跟踪)中。为了应对这些挑战,我们提出了主题特定的知识图谱(即 ThemeKG),即从主题特定语料库构建的 KG,并设计了一个用于 ThemeKG 构建的无监督框架(名为 TKGCon)。该框架采用原始的主题特定语料库并生成包含主题下显著实体和关系的高质量 KG。具体而言,我们从 Wikipedia 中的主题实体本体开始,然后在此基础上通过大型语言模型 (LLM) 生成候选关系以构建关系本体。为了解析主题语料库中的文档,我们首先将提取的实体对映射到本体并检索候选关系。最后,我们结合上下文和本体来巩固实体对的关系。我们观察到,直接提示GPT-4进行主题特定的KG会导致不准确的实体(例如查询结果中的“两种主要类型”作为一个实体)和不明确的关系(例如“是”、“有”)或错误的关系(例如“由于”、“开始”)。相反,通过逐步构建主题特定的KG,我们的模型优于GPT-4,并且可以始终如一地识别准确的实体和关系。实验结果还表明,与各种KG构建基线相比,我们的框架在评估中表现出色。

CCS概念•计算方法→信息提取;•信息系统→实体关系模型。

关键词 知识图谱 主题特定 信息提取

引言

    知识图谱 (KG) [26] 集成了通过语义上有意义的关系连接起来的现实世界实体集合。它们通常存储结构化的事实知识,以便于访问和信息检索。KG 已用于各种应用,包括推荐系统 [23]、问答系统 [45]、智能对话系统 [33] 和医学概念建模 [17]。现有的知识图谱可分为通用的开放世界 KG(包括 Wikidata1)和领域特定 KG(包括 UMLS [9])。尽管知识图谱应用广泛,但即使在当前大型语言模型 (LLM) 时代,现有的 KG 仍存在两个主要问题。第一个问题是现有 KG 的信息粒度有限。现有的知识图谱(包括领域特定知识图谱)通常整合了大量的文本来源,涵盖了某个主题的全面信息。它们面向大众,并未针对特定主题的研究人员提供详细的细粒度信息。

在这里插入图片描述

图1:TKGCon:给定一组特定主题的文档,自动构建特定主题的知识图谱。

    示例 1(电动汽车电池)。以电动汽车电池为主题,Wikidata 包含有限且粗粒度的知识三元组,例如(铅酸电池,子类,可充电电池)。不包含更细粒度的实体(例如,汽车发动机启动电池)(尽管它是铅酸电池的一种)。要查询此类实体的详细信息(例如,用途和功能),必须依赖手动检索文档。此外,LLM 很容易对这种特定主题的“长尾”知识产生幻觉 [29]。第二个问题是现有 KG 缺乏时效性。KG 很难跟上现实世界的动态,尤其是对于快速变化的事件,因为这种更新通常需要大量人力/专家注释和指导。

    示例 2(哈马斯袭击以色列)。当一条新闻爆发时,例如哈马斯袭击以色列(2023 年 10 月 7 日),读者可能希望了解和消化国际反应,但现有的 KG 可能无法及时更新。LLM(例如 GPT-4 [1])的知识也很大程度上局限于训练语料库中,无法根据最新事件和信息进行智能推理。为了解决上述问题,本文提出了一个新概念,即主题特定知识图谱(ThemeKG),即基于主题特定语料库并支持细粒度主题分析的知识图谱。这个想法虽然很有吸引力,但也带来了一个重大挑战:手动构建这样的图谱成本太高——我们需要高质量、自动化的 ThemeKG 构建。

    随着 LLM 的出现,人们可能想知道我们是否可以简单地使用 LLM 来做到这一点。不幸的是,直接提示 GPT-4 很容易导致事实上不正确的三元组或不正确的三元组。在我们的实验中,GPT4 生成了包含不准确实体和不明确关系的三元组(铅酸电池,有两种主要类型),以及包含过于具体和隐含关系的三元组(白宫,点亮了以色列国旗的颜色)。为了构建具有突出、清晰和信息丰富的实体和关系的知识图谱,我们设计了一个无监督的主题特定知识图谱构建框架(名为 TKGCon),它将以给定主题的原始文档作为输入,并生成有关该主题的高质量知识图谱,而无需注释或预定义关系。

    考虑到主题特定语料库的范围有限,我们利用来自 Wikipedia 和 LLM 的常识性知识来生成主题本体(包括实体本体和关系本体)来指导构建。具体来说,我们收集与 Wiki 中的主题相关的层次类别以构建高级“实体本体”。然后,我们利用 LLM 为实体类别对生成潜在关系候选,以形成“关系本体”。在主题本体的指导下,我们的框架将识别出的实体提及类型化到本体中,并从 LLM 中检索候选关系。最后,我们将候选关系与上下文信息结合起来,进一步巩固关系。还要注意的是,关于 KG 构造的研究有很多,但很少有人关注从原始文本(这是最典型的情况)开始的完整框架,然后产生最终的 KG。图 1 显示了一个例子。

    总之,这项工作声称有以下贡献:

  • 据我们所知,我们是第一个引入主题特定的知识图谱构造设置以及两个新构建的主题特定 KG 构造数据集的人。
  • 我们提出了一个无监督框架,该框架整合了 LLM 的自由形式生成能力和来自一般 Wiki 本体的结构化指导,以构建一个细粒度、基于语料库、主题连贯且具有幻觉防护性的 ThemeKG。更重要的是,我们的框架可以只需一个特定主题的原始语料库,就可以轻松适应任何其他主题。
  • 定量实验和定性分析表明,我们提出的方法在与主题一致的同时,实现了高级实体识别和关系提取性能。

相关工作

    关系提取(RE)是识别文本中实体之间语义关系的任务[16,19,25,36,38,53,57]。基于文本模式的方法利用关系特定的模式和句法分析来提取关系[2,37]。基于提示调整的方法构建精心策划的提示,从大型语言模型(LLM)中提取隐藏的关系知识[7,8,20]。最近的进展主要在于应用 LLM 来辅助关系的少量提取 [51, 52] 或关系三元组的合成 [46]。其中一条研究路线的特点是专注于在弱监督或零监督下解决关系提取问题 [43, 56, 61]。为了在稀缺的训练信号下最大限度地提高模型的关系理解,一些研究利用实体类型信息,使模型能够更好地归纳关系 [8, 22, 61]。

    开放信息提取。在现有的关系提取工作中,开放信息提取 (OIE) [10, 37, 54] 是一项与我们的任务设置紧密相关的工作,因为 OIE 可以从文本中提取关系三元组而不需要预定义的关系集。传统的 OIE 模型基于语言特征和统计方法 [5, 18, 37]。最近,神经 OIE 模型 [11, 24, 31, 40, 59] 学习提取模式并通过监督学习显示出良好的效果。无监督 OIE 方法 [13] 主要利用 PLM/LLM 的强大功能。我们的工作进一步将无监督 OIE 扩展到新的环境,该环境要求提取的实体和关系与特定主题相关,这在没有标记数据时尤其具有挑战性。

    LLM 增强的 KG 构建。大型语言模型 [4, 39] 已被证明是各种自然语言处理应用的多功能工具。最近的研究 [6, 12, 35, 48, 55, 62] 探索了利用 LLM 进行 KG 构建。Tahir [47] 利用提示方法将纯文本转换为 KG。 Zhu 等 [62] 提出了 AutoKG,它采用基于多智能体的方法,使用 LLM 进行 KG 的构建和推理,而其他一些研究则直接查询 LLM 来推理某些实体之间的关系 [6]。Ye 等 [60] 提出了 CooperKGC,它基于 LLM 建立协作处理网络,将实体、关系和提取的事件集成在一起以进行 KG 构建。Jiang 等 [27] 生成查询提示以检索外部信息并从 PLM 中探测知识以完成 KG。

    领域特定 KG 构建。近年来,构建领域特定 KG 引起了广泛关注 [49]。传统方法涉及从不同来源提取信息 [58],而最近的进展利用 LLM 进行实体和关系识别。针对特定领域的专用 KG,地理空间或金融等特定领域的知识图谱都是使用领域特定本体和数据源构建的,重点是在提取、本体对齐和模式集成方面进行噪声过滤。[15] 介绍了一种专门针对在线营销的 KG 构建方法,用由领域特定知识赋能的关系过滤过程取代了 LLM 的关系生成。他们还利用渐进式提示增强来扩展实体。

    [30] 专注于生物医学领域,构建了一个用于验证基因-疾病关系的领域本体。他们进一步使用基于最新文章和新知识库的 LLM 对生物医学 KG 进行微调。大多数领域特定 KG 构建工作在人工注释和本体构建方面成本高昂,但难以推广到其他领域。我们的工作重点是自动构建更细粒度、特定于主题的 KG,并且该框架可以轻松应用于其他主题。

方法

    主题特定知识图谱(ThemeKG)。与现有的包括一般知识图谱和领域特定知识图谱(关注更广泛的领域,如生物医学、体育和金融)的知识图谱相比,主题特定知识图谱(i)关注较窄的主题(如电动汽车电池和哈马斯袭击以色列),这些主题可能需要出于特殊目的进行深入探索;(ii)包含更详细的知识,包括更细粒度的实体和三元组。例如,(深循环电池,作为……的电源,叉车)可以是主题知识图谱中的细粒度三元组,而一般知识图谱中的相关三元组可以是(电动汽车电池,用于,电动汽车)。这些更细粒度的三元组可能被视为长尾知识,并在以前的知识图谱中被丢弃。

    主题特定知识图谱构建。给定一个特定的主题和一组文档 D,每个文档 𝑑 ∈ D 描述关于该主题的相关内容,我们的任务旨在从 D 中提取与主题相关的知识三元组,格式为  𝑒𝑖 , 𝑟𝑘 , 𝑒𝑗  ,其中 𝑒𝑖 , 𝑒𝑗 ∈ E 是从 D 中识别出的突出主题特定实体,𝑟𝑘 ∈ R 是描述两个实体关系的开放词汇短语。这里,E 表示实体集,R 表示主题下的关系集。

    示例 3(“EV 电池”ThemeKG 构建)。给定主题“EV-battery”和以下文本:“深循环电池用于为叉车等电动汽车提供持续电力”,主题特定知识图谱构建的输出可能包括以下可能的知识三元组:(深循环电池,提供,持续电力),(深循环电池,作为……的电源),(深循环电池,作为……的电源),(电动汽车,包括,叉车)。图1还显示了通过我们的TKGCon方法从主题语料库中提取的一组三元组(以知识图谱的形式呈现)。

    总体框架 为了处理主题特定知识图谱构建任务,我们提出的TKGCon包括两个主要部分:主题本体构建和主题KG构建。总体框架如图2所示。

  • 主题本体构建:给定一个特定主题,我们构建一个包含实体和关系的本体。具体来说,我们首先从 Wikipedia2 收集与主题相关的实体类别层次结构作为实体本体。然后,对于实体本体中的每一对实体类别,我们通过查询 LLM 来构建关系本体,从而生成潜在的候选关系。
  • 主题 KG 构建:给定特定主题的文档,我们首先挖掘可能的实体提及并将它们映射到实体本体上的最接近类别。然后,对于每一对实体提及,我们根据它们映射到的实体类别检索候选关系(来自关系本体)。最后,我们结合上下文信息来决定这两个实体提及之间的关系。

    主题本体构建 直接从纯文本构建 ThemeKG 可能具有挑战性,因为主题特定的语料库可能缺乏开放词汇信息抽取所必需的常识性知识。在没有任何指导的情况下,提取的三元组可能包含模棱两可的实体(例如“两种主要类型”)或不明确的关系(例如“是”)或与常识性知识不一致。为了规避这些问题,本文利用大规模通用维基百科和 LLM 的推理能力的优势,在提取 KG 三元组之前构建主题本体。主题本体包括从维基百科构建的实体本体和由 LLM 生成的具有高质量关系候选的关系本体。

    从维基百科构建实体本体。维基百科是一个包含丰富常识性知识的大型在线数据库。尽管缺乏针对特定主题任务的细粒度细节,但 Wikipedia3 中的分类功能可以自上而下地提供关于主题的高质量、人工策划的高级概念/类别层次结构。对于 Wikipedia 中未包含的任何实体(例如富液式铅酸电池),我们仍然可以从层次结构中找到其类别路径(电池 → 可充电电池 → 铅酸电池),并将其用作主题的外部知识。此层次结构称为“实体本体”,其中节点是来自 Wiki 的高级概念/类别。我们展示了一个实体本体构建的具体示例。

    给定一个特定主题,例如电动汽车电池,我们选择 Wikipedia 分类中的相关概念作为初始根节点:电池(电力)和车辆。然后,我们在 Wiki 类别的页面上收集它们的子树作为主题的基本实体本体,包括电池发明者、可充电电池、电池充电器等节点。本体中的每个子节点代表一个子类别。请注意,来自 Wiki 的原始本体可能包含不相关的连接,因此我们通过预先训练的转换器 all-MiniLM-L6-v2 4 [50](稍后将再次使用)计算的父节点和子节点的相似度来过滤错误的连接。在 ThemeKG 构建步骤中,随着文档中发现新类别的实体,实体本体可以进一步扩展。

    LLM 的关系本体构建。在特定主题的上下文中直接为实体对生成关系可能会导致不希望出现的变化甚至错误。例如,生成的关系可能过于笼统(例如,“是”)、过于具体(例如,“是最古老和最便宜的电池”)、过于隐含(例如,“以……的颜色点亮”)或错误(例如,三元组(充电率、启动、引擎)中的“启动”)。我们观察到,从实体类别生成的关系通常比从特定主题实体生成的关系更稳健。为了构建一个具有突出、清晰和信息丰富的关系的知识图谱,我们做出以下假设:假设 1. 给出 Wiki 本体中的实体类别 𝐸1 和 𝐸2,从实体 𝑒1 ∈ 𝐸1 到实体 𝑒2 ∈ 𝐸2 的可能关系集是从类别 𝐸1 到类别 𝐸2 的可能关系的子集。

在这里插入图片描述

图 2:TKGCon 的整体框架包括(i)本体构建和(ii)ThemeKG 构建。对于(i),它利用大型通用 Wikipedia 和 GPT-4 的推理能力来为给定主题获取高质量的实体本体和关系本体。对于(ii),我们首先处理主题文档,使用 SpaCy 进行短语挖掘,使用 ZOE 进行实体类型化以检索候选关系。最后,使用上下文信息进一步过滤由 LLM 生成的候选关系以巩固最终关系。

    例如,我们知道从类别可充电电池到类别电动汽车的可能关系可能是 {“作为……的电源”、“从……回收”、“由……管理”}。然后,我们可以推断从 𝑒1 ∈ 𝐸1(例如深循环电池,一种可充电电池)到 𝑒2 ∈ 𝐸2(例如叉车,一种电动汽车)的关系应该在集合内。因此,我们按照以下方式构建“关系本体”。对于从 Wiki 收集的实体本体中的一对实体类别 (𝐸1, 𝐸2),我们按照假设并查询 LLM 来推理潜在的候选关系5。最终的关系本体是从类别对到候选关系集的映射:(𝐸1, 𝐸2) → R。我们使用的提示如下:5我们从两个方向查询:(实体 1,关系,实体 2) 和 (实体 2,关系,实体 1)。

    给定主题 [主题],从 [类别 1] 到 [类别 2] 可能存在哪些关系?以以下格式列出答案:([类别 1],___,[类别 2]) 在这里,LLM 中的常识性知识可以弥补主题特定数据的有限不足。对于最新的特定主题(如哈马斯袭击以色列),只要预先训练好的 LLM 知道实体的附属类别,该方法就可以推理出潜在的关系。请注意,我们还限制了 Wiki 实体本体的深度,以防止过于细粒度的实体类别,这可能会在查询 LLM 时引起幻觉。

    主题 KG 构建我们观察到,端到端的 KG 构建方法往往会遗漏三元组,尤其是在文档级提取方面。我们的框架可以有效地避免这个问题,通过遵循首先识别实体然后提取它们的关系的管道。实体识别和类型化。给定一组关于给定主题的文档,我们的 TKGCon 首先提取可能的实体提及,这些实体稍后将映射到实体本体上的类别。由于数据有限和看不见的细粒度实体,我们发现大多数现有的短语/实体提取方法(如 AutoPhrase [44])的召回率较低。为了确保较高的召回率,我们的方法首先通过 SpaCy [21] 获取名词块作为候选实体提及。然后我们通过一组规则过滤掉嘈杂的提及(例如“本身”、“特征”)或嘈杂的修饰语(例如短语“最常见的汽车电池”中的“最常见”)。

  • 根据 POS,有效提及应至少包含一个名词,并且不包含代词/停用词。
  • 在大型语料库6中频率高且主题连贯性低的短语
  • 被视为嘈杂提及(例如“cases”)。频率高且与其他词共现率低的非名词应为嘈杂修饰语(例如“actual”)。

    使用来自主题文档的实体提及,我们将其映射到最接近的 Wiki 类别。我们考虑两种情况。

  • 情况 1:对于直接匹配 Wikipedia 页面标题的提及,我们将页面标题视为实体,将页面底部的类别视为关联类别。然后,我们计算两个分数来确定集合中的哪个类别是最佳匹配:(i) 实体 𝑒 和类别 𝐸 之间的自连贯性;(ii) 主题 𝑡 和类别 𝐸 之间的主题连贯性。𝐶𝑠𝑒𝑙 𝑓 = cos(𝑅𝑒𝑝(𝐸), 𝑅𝑒𝑝(𝑒)) ,(1)𝐶𝑡ℎ𝑒𝑚𝑒 = cos(𝑅𝑒𝑝(𝐸), 𝑅𝑒𝑝(𝑡))。表示𝑅𝑒𝑝(·)由预先训练的Transformer [50]提供。获得𝐶𝑡ℎ𝑒𝑚𝑒后,我们首先使用阈值过滤掉与主题无关的类别。如果过滤后没有剩余的类别,我们认为实体提及也与主题无关;否则,我们对集合中剩余的每个类别的乘积值 𝐶𝑠𝑒𝑙 𝑓 ×𝐶𝑡ℎ𝑒𝑚𝑒 进行排序,并找到与最大值相对应的最佳匹配。
  • 情况 2:如果提及在 Wikipedia 中没有直接匹配,我们将执行以下操作。对于实体提及 𝑒 和上下文 𝑐,我们采用 ZOE [41] 中的想法,根据实体本体对实体进行分类。具体而言,对于本体中的每个类别 𝐸,我们使用预先训练的 ELMo [42] 来计算上下文一致性得分 𝑃 (𝐸 | 𝑒, 𝑐),就像 ZOE 一样。如果分数达到较低的阈值,则意味着我们无法在现有实体本体中找到合适的匹配。在这种情况下,我们随后应用显式语义分析 [14] 来快速检索相关的 Wikipedia 类别作为候选集。同样,我们采用自一致性和主题一致性得分来确定最佳匹配类别,或者如果候选集中没有任何类别具有较高的 𝐶𝑡ℎ𝑒𝑚𝑒 ,则认为该实体与主题无关。

    关系检索与提取。给定两个实体提及,我们介绍如何通过合并上下文信息来提取它们的关系。对于一对实体提及 (𝑒1, 𝑒2),假设它们的类型 (即最佳匹配) 类别为 (𝐸1, 𝐸2),我们首先从主题关系本体中检索候选关系。为了提高准确性、多样性和覆盖率,我们还根据实体本体中 𝐸1 和 𝐸2 的父节点检索关系,并将这些候选关系合并在一起。然后,我们通过 LLM 根据上下文(包含实体的相邻句子)选择最合适的关系,因为关系提取需要语义理解和推理能力。在此之前,我们将无关系添加到候选关系中,以防实体提及对无法根据上下文在候选集中找到合适的关系。我们使用的提示如下:请根据上下文在候选集中为 [实体 1] 到 [实体 2] 选择最合适的关系。如果候选集中的所有关系都不合适,请选择无。

    输出格式应为 (entity1, relationship, entity2)。上下文:[context]。关系候选:[relation1, relationship2, . . . , none] 如果输出关系为 none,则 (i) 两个实体与文档没有事实关系;或 (ii) 在关系本体构建过程中,LLM 错过了这两个实体之间的关系(这种情况很少见)。对于这两种情况,无需进一步指导,我们再次查询 LLM 以根据上下文直接提取实体关系或输出 none。此提示显示在第 4.5 节中。如果 LLM 给出的答案为 none,我们将其视为情况 (i);否则,我们生成一个三元组 (entity1, relationship, entity2) 并添加这个新关系以丰富主题关系本体。最后,我们组织这些有效的三元组以获得主题特定的知识图谱 (ThemeKG)。

实验

    我们的框架旨在从头开始构建主题特定的 KG,其中包含与给定主题相关的有限文档。该任务与文档级开放信息提取密切相关。本节评估我们的 TKGCon 在构建两个特定主题的 KG 上相对于现有基线模型的性能。

在这里插入图片描述

    数据集收集为了验证我们框架的有效性,我们选择了两个主题并收集了用于特定主题 KG 构建的语料库:电动汽车电池 (EVB) 和哈马斯对以色列的袭击 (2023) (HAI)。具体来说,对于每个主题,我们从在线来源收集了具有四个标准的文档:(i) 与给定主题的相关性,(ii) 源内容的可靠性,(iii) 描述细节的粒度,以及 (iv) 有关主题的信息多样性。电动汽车电池 (EVB) 是业内的传统主题,而现有 KG 中几乎不包含该主题的具体术语或其他细节。哈马斯袭击以色列 (2023) 是新闻界最新的主题,其中有许多新实体(例如“Nova 音乐节”)未包含在现有知识库中。对于每个主题,我们主要从各种在线数据库(例如纽约时报、CRS 报告 7)收集与该主题相关的 20 篇高质量且具有代表性的文档。然后,我们从两个语料库中注释文档级别的实体和三元组,以生成用于评估的黄金主题特定知识图谱。两个数据集 EVB 和 HAI 的统计数据可以在表 1 中找到。数据集可用作主题特定知识图谱构建或实体识别和开放关系提取等子任务的基准。

    评估指标给定目标主题特定的 KG,G = (E, R, T ) 和生成的 KG,ˆG = ( ˆE, ˆR, ˆT ),其中 E、ˆE 表示黄金和已识别实体的集合,R、ˆR 表示黄金和生成的关系,T、ˆT 表示黄金三元组和提取的三元组集合  𝑒𝑖 , 𝑟𝑘 , 𝑒𝑗  。我们从不同角度定义以下评估指标来评估生成的 KG 的质量。

  • 实体指标。我们使用精度、召回率和 F1 分数来评估提取的实体。由于 KG 构建是一项开放任务,如果识别出的实体合理但不包含在黄金集合 E 中,则精度不会受到惩罚。此外,如果两个实体是语义匹配的实体共指,例如 EV 电池和电动汽车电池,我们将它们视为相同。
  • 三元组指标。我们使用精度、召回率和 F1 分数来评估生成的三元组。由于关系可以改写成各种表达式,例如的子类和的类型,我们通过获取预训练的 Transformer 的嵌入并计算提取的三元组和黄金三元组之间的余弦相似度来应用软匹配 [28]。
  • 主题连贯性。原始文档通常包含噪声信息。我们希望 KG 专注于与主题相关的实体和关系。因此,我们提出了一个指标来评估三元组的主题连贯性。我们通过预训练的 Transformer 计算三元组和主题描述之间的余弦相似度。相似度高的三元组被视为主题相干的三元组,因此主题连贯性的度量由所有生成的三元组中所占主题相干三元组的比率来定义。

在这里插入图片描述

    基线 我们考虑现有的开放知识图谱构建方法,包括两个基于 GPT-4 的基线。

  • OpenIE [37] 是一个开放的信息提取系统,它从纯文本中提取关系三元组。该基线主要关注文本的句法模式,以弥补监督信号的不足。
  • REBEL [24] 是一个生成框架,它将 KG 构造公式化为一个序列到序列任务,该任务基于 BART [32] 提取输入文本中的所有三元组。该模型在通用语料库上进行了预训练,并在我们的语料库上进行了评估。
  • IMoJIE [31] 是一个基于 BERT 的 OpenIE 系统,它使用迭代 Seq2Seq 模型生成信息提取。我们使用在 CaRB [3] 数据上训练的模型。
  • KnowledgeGraph GPT(KG-GPT)8 [47] 是一种使用 GPT-4 将纯文本转换为知识图的工具。该方法设计提示以 RDF Tuples9 的样式生成结果。
  • 我们还直接以 GPT-410 [1] 作为基线,以端到端的方式对其进行提示。我们使用上下文学习来一次查询一个主题文档,然后将生成的三元组组合在一起。我们使用的提示是:给定主题[Theme],从以下文本[document]中提取所有格式为(entity1,relation,entity2)的知识三元组。

    主要结果分析我们将我们提出的框架TKGCon与两个数据集EVB和HAI上的基线进行了比较。实体,三元组和主题的评估结果如表2所示。我们首先评估和比较所有模型输出KG中提取的实体。表2中的结果表明,我们的TKGCon在所有指标上都可以大大优于其他基线方法。基于语言的OpenIE在非基于GPT的基线中具有相对较高的召回率。然而,该模型缺乏对语义的理解,因此在OpenIE中提取的实体通常不完整,错误且嘈杂,特别是在处理长句和复杂句时,这导致较低的精度和F1分数。端到端的 KGC 方法(例如 KG-GPT 和 GPT-4)包含过于具体的实体(例如“两种主要类型”),并且优化起来不灵活。与端到端方法相比,我们的 TKGCon 可以通过显式短语挖掘大大提高实体的召回率,并通过中间步骤中的实体过滤提高精度。

    我们的 TKGCon 在三重提取和主题连贯性方面也比基线有了很大的改进。具体来说,OpenIE 由于缺乏语义理解而生成了相对较差的输出质量。虽然 REBEL 和 IMoJIE 等监督序列生成方法的精度和主题连贯性略好,但由于难以推广到训练数据集之外的看不见的关系,它们的召回率较弱,而我们的数据集包含许多细粒度和主题特定的关系。GPT-4 具有理解和总结的能力,因此其诱导模型(GPT-4 和 KG-GPT)与其他模型相比有显着的改进。然而,在 ThemeKG 的设置中,这两个基于 GPT-4 的模型仍然可能产生模棱两可和不合逻辑的关系或实体(详细信息和示例可参见第 4.6 节)。通过将 ThemeKG 构建分为多个阶段,与端到端模型相比,我们的框架 TKGCon 可以有效提高文档级三元组的召回率。在主题本体的指导下,TKGCon 能够提取更高质量的关系,并在三元组 F1 分数方面优于基于 GPT 的方法,同时获得与 GPT-4 相当的主题连贯性。

消融研究

    本质上,我们的框架可以分为两个连续的阶段:实体识别(图 2 中的步骤 1)和本体引导的关系提取(图 2 中的步骤 2、3 和 4)。为了验证关系本体的有效性,我们构建了一个新的模型变体,名为 TKGCon(w/o ontology),它利用我们框架中的实体识别(步骤 1),然后直接查询 GPT-4 以根据上下文生成实体之间的关系。查询关系的提示如下:从以下段落中提取从 [entity1] 到 [entity2] 的关系:[context]。请以 ([entity1], [relation], [entity2]) 的格式输出。如果根据上下文未识别出从 [entity1] 到 [entity2] 的关系,则输出 none。

    TKGCon(无本体)的性能已添加到表 2 中。请注意,我们的模型和此变体使用相同的实体识别步骤,因此它们的实体度量都相同。对于所有三元组度量和主题一致性,此变体模型始终提供较低的性能。没有主题本体的指导和限制,变体模型在直接查询 GPT-4 时会生成不正确的关系。例如,其生成的三元组(辅助电池、用作、休闲车)和(检查、需要检查、电解质水平)显然是有问题的,因为电池不能“用作”车辆,而检查不应该具有“需要检查”的关系。

    此外,TKGCon(无本体)倾向于将无意义的短语作为关系,例如(充电率、提供高、高尔夫球车)和(电动汽车,值得注意的例外,底特律电气)。相反,基于本体的 TKGCon 可以借助实体本体和关系本体避免这种情况,例如(休闲车,配备,辅助电池),(检查,维护所需,电解液水平)。

在这里插入图片描述

图 3:ThemeKG 与 WikiData 在 EV 电池上的比较。对于主题 EV 电池,左侧是我们从特定主题文档语料库中提取的 ThemeKG 的一部分。右侧的三元组是从相同主题的 WikiData 中检索到的。与 WikiData KG 相比,我们的 ThemeKG 包含更多特定主题的实体和关系。

    案例研究 本节以主题 EV battery 为例,直观地展示 ThemeKG 与 Wikidata 之间的差异。同时,我们将提取的 TKGCon 三元组与基线的结果进行了比较。 与 Wikidata 比较。图 3 展示了 ThemeKG 与 Wikidata 中 EV battery 的差异。由于篇幅限制,我们只展示了我们构建的 ThemeKG 中与铅酸电池相关的部分三元组(图 3 左侧)。我们还检索了 Wikidata11 上相关主题的三元组(图 3 右侧)。 我们观察到,我们构建的 ThemeKG(来自原始 EV battery 文档)包含更多细粒度的实体,例如富液式铅酸电池、汽车发动机启动电池,这些实体未在右侧呈现。 ThemeKG 还包含关于主题的更广泛、更细粒度的知识三元组(例如铅酸电池、受限制、循环寿命),而 Wikidata 仅包含一些粗粒度的三元组。因此,我们声称与现有的 KG 相比,ThemeKG 可以在特定主题上提供更广泛、更深入的细节。

    与基线相比。我们还从 TKGCon 中抽取了一些提取的三元组,并将它们与表 3 中的 OpenIE、GPT-4 的输出进行比较。我们可以观察到,OpenIE 错过了许多与主题相关的实体和三元组,因为该方法基于不理解主题,仅依靠语言分析,在句子较长且复杂时,也会导致无意义的三元组。GPT-4 由于文本理解能力强,效果相对较好。但是,直接提示 GPT-4 会使实体过于具体(例如,“电动车辆,如叉车或高尔夫球车”)或导致歧义(例如,“是”、“有”、“是”)和错误的关系(例如,“由于”、“开始”)。

    我们的 TKGCon 将 ThemeKG 构建任务分解为几个步骤,有效地优化了每个步骤,提高了实体的质量和召回率。在示例中,TKGCon 提取出更准确的实体,例如“叉车”和“高尔夫球车”(相比于 GPT-4 生成的过于具体的实体,“电动车辆,如叉车或高尔夫球车”)。此外,TKGCon 从关系本体中检索候选关系,从而避免关系歧义并提高关系提取的准确性。例如,我们的方法生成“是……的动力源”,而不是“用于……”(由 GPT-4 生成)。此外,得益于本体,TKGCon 提高了关系的一致性,而 GPT-4 生成的关系往往不稳定(例如,对于同一种关系,“是一种类型”、“类型”、“是”)。

    ThemeKG 的应用 ThemeKG 是针对特定主题的细粒度知识的压缩和结构化集合。除了直观地访问知识外,ThemeKG 还可以用作外部工具来促进下游任务。例如,LLM 可能会对细粒度细节产生幻觉,并且不具备特定主题的最新信息。在这种情况下,我们的 ThemeKG 可以作为工具检索和加载以增强 LLM。

在这里插入图片描述

    本节测试模型在特定主题上的问答 (QA) 能力。我们考虑以下模型。

  • ThemeKG 增强型 GPT-4 (TKG+GPT4) 使用 GPT-4 中的 ThemeKG(格式化为三元组列表)进行上下文内 QA,因为 ThemeKG 比整个主题语料库更压缩。
  • 直接使用 GPT-4 进行 QA 的 Vanilla GPT-4。
  • 使用 GPT-4 进行检索增强生成 (RAG+GPT4) [34] 是一种代表性方法,它从外部知识库中检索事实以在准确的最新信息。我们将原始主题语料库作为 RAG 的外部数据库进行 QA。

在这里插入图片描述

    表 4 列出了主题 Hamas-Attack-on-Israel (2023) 的示例(QA 输出的冗余句子均被删除)。问题是“在 2023 年 10 月哈马斯袭击以色列的事件中,哪些国家支持哈马斯或谴责以色列?”。回答这个问题需要从多个文档中整合信息。显然,GPT-4 本身无法处理最新信息。RAG+GPT4 检索到部分相关事实,但遗漏了提及伊朗和波斯湾国家的文本等信息。我们的 TKG+GPT4 可以直接整合来自三元组的信息,例如(伊朗、提供援助、哈马斯)和(朝鲜、谴责、以色列),而无需对文档进行总结和推理。

    本质上,ThemeKG 可以为 LLM 提供及时、细粒度的信息,同时提高他们对主题的推理和总结能力。在未来的工作中,我们将进一步探索 ThemeKG 在更多场景中的其他实用功能,例如以不同的 ThemeKG 作为插件进行个性化推荐和工具学习

结论

    本文提出了一种自动化 KG 构建方法(称为 TKGCon),用于从原始主题语料库构建主题特定知识图谱(ThemeKG)。现有的通用或领域特定 KG 可能在信息粒度和时效性方面受到限制,而我们的重点 ThemeKG 包含细粒度、时效性、主题特定的实体和关系,为下游应用提供更多主题相关细节(例如专业术语或近期新闻中的关键事件)。我们的方法利用 Wikipedia 中精心策划的主题本体信息以及 LLM 强大的推理能力来生成关系候选。在电动汽车电池和哈马斯袭击以色列事件上的实验表明,与现有的各种 KG 构建方法相比,TKGCon 可以自动生成细粒度、高质量的 ThemeKG。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2155902.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言深入理解指针(四)

目录 字符指针变量数组指针变量数组指针变量是什么数组指针变量怎么初始化 二维数组传参的本质函数指针变量函数指针变量的创建函数指针变量的使用代码typedef关键字 函数指针数组转移表 字符指针变量 字符指针在之前我们有提到过,(字符)&am…

5.MySQL表的约束

目录 表的约束空属性(非空约束)默认值(default约束)列描述(comment)zerofill主键(primary key约束)自增长唯一键(unique约束)外键 表的约束 如果我自由自在的…

MySQL(日志)

日志 日志分为三种: undo log (回滚日志):用于事务回滚和MVCC redo log (重做日志):用于故障恢复 binlog (归档日志):用于数据备份和主从复制 undo log undo…

qt-C++笔记之作用等同的宏和关键字

qt-C笔记之作用等同的宏和关键字 code review! Q_SLOT 和 slots: Q_SLOT是slots的替代宏,用于声明槽函数。 Q_SIGNAL 和 signals: Q_SIGNAL类似于signals,用于声明信号。 Q_EMIT 和 emit: Q_EMIT 是 Qt 中用于发射…

Tomcat 靶场攻略

CVE-2017-12615 步骤一:环境搭建 cd vulhub/tomcat/CVE-2017-12615 docker-compose up -d docker ps 步骤二:漏洞复现 http://192.168.10.190:8080/ 步骤二:首页进行抓包 Tomcat允许适⽤put⽅法上传任意⽂件类型,但不允许js…

安卓13去掉下拉菜单的Dump SysUI 堆的选项 android13删除Dump SysUI 堆

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析3.1 位置13.2 位置24.代码修改5.编译6.彩蛋1.前言 客户需要去掉下拉菜单里面的Dump SysUI 堆图标,不让使用这个功能。 2.问题分析 android的下拉菜单在systemui里面,这里我们只需要定位到对应的添加代…

【优选算法之二分查找】No.5--- 经典二分查找算法

文章目录 前言一、二分查找模板:1.1 朴素二分查找模板1.2 查找区间左端点模板1.3 查找区间右端点模板 二、二分查找示例:2.1 ⼆分查找2.2 在排序数组中查找元素的第⼀个和最后⼀个位置2.3 搜索插⼊位置2.4 x 的平⽅根2.5 ⼭脉数组的峰顶索引2.6 寻找峰值…

Linux自主学习篇

用户及权限管理 sudo 是 "superuser do" 的缩写,是一个在类 Unix 操作系统(如 Linux 和 macOS)中使用的命令。它允许普通用户以超级用户(root 用户)的身份执行命令,从而获得更高的权限。 useradd…

多模态交互才是人机交互的未来

交互方式 在探讨文字交流、语音交流和界面交流的效率时,我们可以看到每种方式都有其独特的优势和局限性。文字交流便于记录和回溯,语音交流则在表达情绪和非语言信息方面更为高效,而界面交流则依赖于图形用户界面(GUI&#xff09…

<<编码>> 第 16 章 存储器组织(4)--内存 示例电路

内存内部结构 info::操作说明 译码器用于写入, 操作同上 选择器用于输出, 操作同上 地址信号同时控制译码器和选择器, 注意地址的高位在右(比如 001 实际是 100, 选择的是 Q6 和 I6) 缺省情况下, 内部数据全是 0. 读者可先通过译码器写入, 再通过选择器输出 primary::在线交…

初学者的鸿蒙多线程并发之 TaskPool 踩坑之旅

1. 背景 目标群体:鸿蒙初学者 版本:HarmonyOS 3.1/4.0 背景:鸿蒙 App 的全局路由管理功能,需要在 App 启动时初始化对 raw 下的相关配置文件进行读取、解析并缓存。App 启动时涉及到了大量模块的初始化,好多模块都涉…

【machine learning-15-如何判定梯度下降是否在收敛】

我们在运行梯度下降的时候,如何判定梯度下降是否在收敛呢? 梯度下降的时候,权重和偏置根据如下的公式同时更新: 程序要做的就是更新w 和 b,让梯度下降尽快的收敛,但是如何判定正在收敛呢? 方法…

关于神经网络的一个介绍

这篇文章中,我将简单介绍下与神经网络有关的东西,包括它的基本模型,典型的算法以及与深度学习的联系等内容。 一、神经元 神经网络是由许多个神经元组成的,在生物的神经网络中,就是神经元间相互连接,传递…

Arthas getstatic(查看类的静态属性 )

文章目录 二、命令列表2.1 jvm相关命令### 2.1.7 getstatic(查看类的静态属性 ) 二、命令列表 2.1 jvm相关命令 ### 2.1.7 getstatic(查看类的静态属性 ) 使用场景: 我们项目部署在linux上,我有个本地内存…

从一到无穷大 #35 Velox Parquet Reader 能力边界

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。 文章目录 引言源码分析功能描述功能展望 引言 InfluxDB IOX这样完全不使用索引,只…

《沧浪之水》读后感

未完待续..... 未完待续.... 未完待续.... 【经典语录】 01、我一辈子的经验就是不要做瞎子,也不能做聋子,该听到的信息要听到,但是要做哑巴,看到了听到了心中有数就行了,可千万不要张口说什么。 02、你刚从学校毕业…

MQ入门(一):同步调用和异步调用--RabbitMQ基础入门

目录 1.初识MQ 1.1.同步调用 1.2.异步调用 1.3.技术选型 2.RabbitMQ 2.1.安装部署 2.2.RabbitMQ基本架构 2.3.收发消息 2.3.1.交换机 2.3.2.队列 2.3.3.绑定关系 2.3.4.发送消息 2.4.数据隔离 2.4.1.用户管理 2.4.2.virtual host 1.初识MQ 微服务一旦拆分&…

web前端字段大小写下划线转换工具

文章目录 前言一、如何使用?二、相关代码总结 前言 程序员在敲代码的过程中都要命名一些字段,但是Java语言对字段的命名规范和sql命名规范不一样,如下图所示,这种机械性的转换工作很劳神费力,为了省点劲写了一个web小…

尚品汇-Jenkins部署构建服务模块、Linux快照备份(五十七)

目录: (1)构建作业(server-gateway) (2)构建service_product模块 (3)演示添加新代码 (4)学会使用linux快照 (1)构建作…

在SpringCloud中实现服务间链路追踪

在微服务架构中,由于系统的复杂性和多样性,往往会涉及到多个服务之间的调用。当一个请求经过多个服务时,如果出现问题,我们希望能够快速定位问题所在。这就需要引入链路追踪机制,帮助我们定位问题。 Spring Cloud为我们…