Automated Construction of Theme-specific Knowledge Graphs

文章目录

- 题目
- 摘要
- 引言
- 相关工作
- 方法
- 实验
- 消融研究
- 结论

题目

自动构建主题特定知识图谱

在这里插入图片描述

论文地址：https://arxiv.org/pdf/2404.19146

摘要

尽管知识图谱 (KG) 广泛应用于问答、智能对话系统等各种任务，但现有的 KG 面临两大挑战：信息粒度有限和时效性不足。这严重阻碍了从 KG 中检索和分析上下文中、细粒度和最新的知识，特别是在高度专业化的主题（例如专业的科学研究）和快速发展的上下文（例如突发新闻或灾难跟踪）中。为了应对这些挑战，我们提出了主题特定的知识图谱（即 ThemeKG），即从主题特定语料库构建的 KG，并设计了一个用于 ThemeKG 构建的无监督框架（名为 TKGCon）。该框架采用原始的主题特定语料库并生成包含主题下显著实体和关系的高质量 KG。具体而言，我们从 Wikipedia 中的主题实体本体开始，然后在此基础上通过大型语言模型 (LLM) 生成候选关系以构建关系本体。为了解析主题语料库中的文档，我们首先将提取的实体对映射到本体并检索候选关系。最后，我们结合上下文和本体来巩固实体对的关系。我们观察到，直接提示GPT-4进行主题特定的KG会导致不准确的实体（例如查询结果中的“两种主要类型”作为一个实体）和不明确的关系（例如“是”、“有”）或错误的关系（例如“由于”、“开始”）。相反，通过逐步构建主题特定的KG，我们的模型优于GPT-4，并且可以始终如一地识别准确的实体和关系。实验结果还表明，与各种KG构建基线相比，我们的框架在评估中表现出色。

CCS概念•计算方法→信息提取；•信息系统→实体关系模型。

关键词知识图谱主题特定信息提取

引言

知识图谱 (KG) [26] 集成了通过语义上有意义的关系连接起来的现实世界实体集合。它们通常存储结构化的事实知识，以便于访问和信息检索。KG 已用于各种应用，包括推荐系统 [23]、问答系统 [45]、智能对话系统 [33] 和医学概念建模 [17]。现有的知识图谱可分为通用的开放世界 KG（包括 Wikidata1）和领域特定 KG（包括 UMLS [9]）。尽管知识图谱应用广泛，但即使在当前大型语言模型 (LLM) 时代，现有的 KG 仍存在两个主要问题。第一个问题是现有 KG 的信息粒度有限。现有的知识图谱（包括领域特定知识图谱）通常整合了大量的文本来源，涵盖了某个主题的全面信息。它们面向大众，并未针对特定主题的研究人员提供详细的细粒度信息。

在这里插入图片描述

图1：TKGCon：给定一组特定主题的文档，自动构建特定主题的知识图谱。

示例 1（电动汽车电池）。以电动汽车电池为主题，Wikidata 包含有限且粗粒度的知识三元组，例如（铅酸电池，子类，可充电电池）。不包含更细粒度的实体（例如，汽车发动机启动电池）（尽管它是铅酸电池的一种）。要查询此类实体的详细信息（例如，用途和功能），必须依赖手动检索文档。此外，LLM 很容易对这种特定主题的“长尾”知识产生幻觉 [29]。第二个问题是现有 KG 缺乏时效性。KG 很难跟上现实世界的动态，尤其是对于快速变化的事件，因为这种更新通常需要大量人力/专家注释和指导。

示例 2（哈马斯袭击以色列）。当一条新闻爆发时，例如哈马斯袭击以色列（2023 年 10 月 7 日），读者可能希望了解和消化国际反应，但现有的 KG 可能无法及时更新。LLM（例如 GPT-4 [1]）的知识也很大程度上局限于训练语料库中，无法根据最新事件和信息进行智能推理。为了解决上述问题，本文提出了一个新概念，即主题特定知识图谱（ThemeKG），即基于主题特定语料库并支持细粒度主题分析的知识图谱。这个想法虽然很有吸引力，但也带来了一个重大挑战：手动构建这样的图谱成本太高——我们需要高质量、自动化的 ThemeKG 构建。

随着 LLM 的出现，人们可能想知道我们是否可以简单地使用 LLM 来做到这一点。不幸的是，直接提示 GPT-4 很容易导致事实上不正确的三元组或不正确的三元组。在我们的实验中，GPT4 生成了包含不准确实体和不明确关系的三元组（铅酸电池，有两种主要类型），以及包含过于具体和隐含关系的三元组（白宫，点亮了以色列国旗的颜色）。为了构建具有突出、清晰和信息丰富的实体和关系的知识图谱，我们设计了一个无监督的主题特定知识图谱构建框架（名为 TKGCon），它将以给定主题的原始文档作为输入，并生成有关该主题的高质量知识图谱，而无需注释或预定义关系。

考虑到主题特定语料库的范围有限，我们利用来自 Wikipedia 和 LLM 的常识性知识来生成主题本体（包括实体本体和关系本体）来指导构建。具体来说，我们收集与 Wiki 中的主题相关的层次类别以构建高级“实体本体”。然后，我们利用 LLM 为实体类别对生成潜在关系候选，以形成“关系本体”。在主题本体的指导下，我们的框架将识别出的实体提及类型化到本体中，并从 LLM 中检索候选关系。最后，我们将候选关系与上下文信息结合起来，进一步巩固关系。还要注意的是，关于 KG 构造的研究有很多，但很少有人关注从原始文本（这是最典型的情况）开始的完整框架，然后产生最终的 KG。图 1 显示了一个例子。

总之，这项工作声称有以下贡献：

据我们所知，我们是第一个引入主题特定的知识图谱构造设置以及两个新构建的主题特定 KG 构造数据集的人。
我们提出了一个无监督框架，该框架整合了 LLM 的自由形式生成能力和来自一般 Wiki 本体的结构化指导，以构建一个细粒度、基于语料库、主题连贯且具有幻觉防护性的 ThemeKG。更重要的是，我们的框架可以只需一个特定主题的原始语料库，就可以轻松适应任何其他主题。
定量实验和定性分析表明，我们提出的方法在与主题一致的同时，实现了高级实体识别和关系提取性能。

方法

主题特定知识图谱（ThemeKG）。与现有的包括一般知识图谱和领域特定知识图谱（关注更广泛的领域，如生物医学、体育和金融）的知识图谱相比，主题特定知识图谱（i）关注较窄的主题（如电动汽车电池和哈马斯袭击以色列），这些主题可能需要出于特殊目的进行深入探索；（ii）包含更详细的知识，包括更细粒度的实体和三元组。例如，（深循环电池，作为……的电源，叉车）可以是主题知识图谱中的细粒度三元组，而一般知识图谱中的相关三元组可以是（电动汽车电池，用于，电动汽车）。这些更细粒度的三元组可能被视为长尾知识，并在以前的知识图谱中被丢弃。

主题特定知识图谱构建。给定一个特定的主题和一组文档 D，每个文档 𝑑 ∈ D 描述关于该主题的相关内容，我们的任务旨在从 D 中提取与主题相关的知识三元组，格式为  𝑒𝑖 , 𝑟𝑘 , 𝑒𝑗  ，其中 𝑒𝑖 , 𝑒𝑗 ∈ E 是从 D 中识别出的突出主题特定实体，𝑟𝑘 ∈ R 是描述两个实体关系的开放词汇短语。这里，E 表示实体集，R 表示主题下的关系集。

示例 3（“EV 电池”ThemeKG 构建）。给定主题“EV-battery”和以下文本：“深循环电池用于为叉车等电动汽车提供持续电力”，主题特定知识图谱构建的输出可能包括以下可能的知识三元组：（深循环电池，提供，持续电力），（深循环电池，作为……的电源），（深循环电池，作为……的电源），（电动汽车，包括，叉车）。图1还显示了通过我们的TKGCon方法从主题语料库中提取的一组三元组（以知识图谱的形式呈现）。

总体框架为了处理主题特定知识图谱构建任务，我们提出的TKGCon包括两个主要部分：主题本体构建和主题KG构建。总体框架如图2所示。

主题本体构建：给定一个特定主题，我们构建一个包含实体和关系的本体。具体来说，我们首先从 Wikipedia2 收集与主题相关的实体类别层次结构作为实体本体。然后，对于实体本体中的每一对实体类别，我们通过查询 LLM 来构建关系本体，从而生成潜在的候选关系。
主题 KG 构建：给定特定主题的文档，我们首先挖掘可能的实体提及并将它们映射到实体本体上的最接近类别。然后，对于每一对实体提及，我们根据它们映射到的实体类别检索候选关系（来自关系本体）。最后，我们结合上下文信息来决定这两个实体提及之间的关系。

主题本体构建直接从纯文本构建 ThemeKG 可能具有挑战性，因为主题特定的语料库可能缺乏开放词汇信息抽取所必需的常识性知识。在没有任何指导的情况下，提取的三元组可能包含模棱两可的实体（例如“两种主要类型”）或不明确的关系（例如“是”）或与常识性知识不一致。为了规避这些问题，本文利用大规模通用维基百科和 LLM 的推理能力的优势，在提取 KG 三元组之前构建主题本体。主题本体包括从维基百科构建的实体本体和由 LLM 生成的具有高质量关系候选的关系本体。

从维基百科构建实体本体。维基百科是一个包含丰富常识性知识的大型在线数据库。尽管缺乏针对特定主题任务的细粒度细节，但 Wikipedia3 中的分类功能可以自上而下地提供关于主题的高质量、人工策划的高级概念/类别层次结构。对于 Wikipedia 中未包含的任何实体（例如富液式铅酸电池），我们仍然可以从层次结构中找到其类别路径（电池 → 可充电电池 → 铅酸电池），并将其用作主题的外部知识。此层次结构称为“实体本体”，其中节点是来自 Wiki 的高级概念/类别。我们展示了一个实体本体构建的具体示例。

给定一个特定主题，例如电动汽车电池，我们选择 Wikipedia 分类中的相关概念作为初始根节点：电池（电力）和车辆。然后，我们在 Wiki 类别的页面上收集它们的子树作为主题的基本实体本体，包括电池发明者、可充电电池、电池充电器等节点。本体中的每个子节点代表一个子类别。请注意，来自 Wiki 的原始本体可能包含不相关的连接，因此我们通过预先训练的转换器 all-MiniLM-L6-v2 4 [50]（稍后将再次使用）计算的父节点和子节点的相似度来过滤错误的连接。在 ThemeKG 构建步骤中，随着文档中发现新类别的实体，实体本体可以进一步扩展。

LLM 的关系本体构建。在特定主题的上下文中直接为实体对生成关系可能会导致不希望出现的变化甚至错误。例如，生成的关系可能过于笼统（例如，“是”）、过于具体（例如，“是最古老和最便宜的电池”）、过于隐含（例如，“以……的颜色点亮”）或错误（例如，三元组（充电率、启动、引擎）中的“启动”）。我们观察到，从实体类别生成的关系通常比从特定主题实体生成的关系更稳健。为了构建一个具有突出、清晰和信息丰富的关系的知识图谱，我们做出以下假设：假设 1. 给出 Wiki 本体中的实体类别 𝐸1 和 𝐸2，从实体 𝑒1 ∈ 𝐸1 到实体 𝑒2 ∈ 𝐸2 的可能关系集是从类别 𝐸1 到类别 𝐸2 的可能关系的子集。

在这里插入图片描述

图 2：TKGCon 的整体框架包括（i）本体构建和（ii）ThemeKG 构建。对于（i），它利用大型通用 Wikipedia 和 GPT-4 的推理能力来为给定主题获取高质量的实体本体和关系本体。对于（ii），我们首先处理主题文档，使用 SpaCy 进行短语挖掘，使用 ZOE 进行实体类型化以检索候选关系。最后，使用上下文信息进一步过滤由 LLM 生成的候选关系以巩固最终关系。

例如，我们知道从类别可充电电池到类别电动汽车的可能关系可能是 {“作为……的电源”、“从……回收”、“由……管理”}。然后，我们可以推断从 𝑒1 ∈ 𝐸1（例如深循环电池，一种可充电电池）到 𝑒2 ∈ 𝐸2（例如叉车，一种电动汽车）的关系应该在集合内。因此，我们按照以下方式构建“关系本体”。对于从 Wiki 收集的实体本体中的一对实体类别 (𝐸1, 𝐸2)，我们按照假设并查询 LLM 来推理潜在的候选关系5。最终的关系本体是从类别对到候选关系集的映射：(𝐸1, 𝐸2) → R。我们使用的提示如下：5我们从两个方向查询：(实体 1，关系，实体 2) 和 (实体 2，关系，实体 1)。

给定主题 [主题]，从 [类别 1] 到 [类别 2] 可能存在哪些关系？以以下格式列出答案：([类别 1]，___，[类别 2]) 在这里，LLM 中的常识性知识可以弥补主题特定数据的有限不足。对于最新的特定主题（如哈马斯袭击以色列），只要预先训练好的 LLM 知道实体的附属类别，该方法就可以推理出潜在的关系。请注意，我们还限制了 Wiki 实体本体的深度，以防止过于细粒度的实体类别，这可能会在查询 LLM 时引起幻觉。

主题 KG 构建我们观察到，端到端的 KG 构建方法往往会遗漏三元组，尤其是在文档级提取方面。我们的框架可以有效地避免这个问题，通过遵循首先识别实体然后提取它们的关系的管道。实体识别和类型化。给定一组关于给定主题的文档，我们的 TKGCon 首先提取可能的实体提及，这些实体稍后将映射到实体本体上的类别。由于数据有限和看不见的细粒度实体，我们发现大多数现有的短语/实体提取方法（如 AutoPhrase [44]）的召回率较低。为了确保较高的召回率，我们的方法首先通过 SpaCy [21] 获取名词块作为候选实体提及。然后我们通过一组规则过滤掉嘈杂的提及（例如“本身”、“特征”）或嘈杂的修饰语（例如短语“最常见的汽车电池”中的“最常见”）。

根据 POS，有效提及应至少包含一个名词，并且不包含代词/停用词。
在大型语料库6中频率高且主题连贯性低的短语
被视为嘈杂提及（例如“cases”）。频率高且与其他词共现率低的非名词应为嘈杂修饰语（例如“actual”）。

使用来自主题文档的实体提及，我们将其映射到最接近的 Wiki 类别。我们考虑两种情况。

情况 1：对于直接匹配 Wikipedia 页面标题的提及，我们将页面标题视为实体，将页面底部的类别视为关联类别。然后，我们计算两个分数来确定集合中的哪个类别是最佳匹配：(i) 实体 𝑒 和类别 𝐸 之间的自连贯性；(ii) 主题 𝑡 和类别 𝐸 之间的主题连贯性。𝐶𝑠𝑒𝑙 𝑓 = cos(𝑅𝑒𝑝(𝐸), 𝑅𝑒𝑝(𝑒)) ，（1）𝐶𝑡ℎ𝑒𝑚𝑒 = cos(𝑅𝑒𝑝(𝐸), 𝑅𝑒𝑝(𝑡))。表示𝑅𝑒𝑝(·)由预先训练的Transformer [50]提供。获得𝐶𝑡ℎ𝑒𝑚𝑒后，我们首先使用阈值过滤掉与主题无关的类别。如果过滤后没有剩余的类别，我们认为实体提及也与主题无关；否则，我们对集合中剩余的每个类别的乘积值 𝐶𝑠𝑒𝑙 𝑓 ×𝐶𝑡ℎ𝑒𝑚𝑒 进行排序，并找到与最大值相对应的最佳匹配。
情况 2：如果提及在 Wikipedia 中没有直接匹配，我们将执行以下操作。对于实体提及 𝑒 和上下文 𝑐，我们采用 ZOE [41] 中的想法，根据实体本体对实体进行分类。具体而言，对于本体中的每个类别 𝐸，我们使用预先训练的 ELMo [42] 来计算上下文一致性得分 𝑃 (𝐸 | 𝑒, 𝑐)，就像 ZOE 一样。如果分数达到较低的阈值，则意味着我们无法在现有实体本体中找到合适的匹配。在这种情况下，我们随后应用显式语义分析 [14] 来快速检索相关的 Wikipedia 类别作为候选集。同样，我们采用自一致性和主题一致性得分来确定最佳匹配类别，或者如果候选集中没有任何类别具有较高的 𝐶𝑡ℎ𝑒𝑚𝑒 ，则认为该实体与主题无关。

关系检索与提取。给定两个实体提及，我们介绍如何通过合并上下文信息来提取它们的关系。对于一对实体提及 (𝑒1, 𝑒2)，假设它们的类型 (即最佳匹配) 类别为 (𝐸1, 𝐸2)，我们首先从主题关系本体中检索候选关系。为了提高准确性、多样性和覆盖率，我们还根据实体本体中 𝐸1 和 𝐸2 的父节点检索关系，并将这些候选关系合并在一起。然后，我们通过 LLM 根据上下文（包含实体的相邻句子）选择最合适的关系，因为关系提取需要语义理解和推理能力。在此之前，我们将无关系添加到候选关系中，以防实体提及对无法根据上下文在候选集中找到合适的关系。我们使用的提示如下：请根据上下文在候选集中为 [实体 1] 到 [实体 2] 选择最合适的关系。如果候选集中的所有关系都不合适，请选择无。

输出格式应为 (entity1, relationship, entity2)。上下文：[context]。关系候选：[relation1, relationship2, . . . , none] 如果输出关系为 none，则 (i) 两个实体与文档没有事实关系；或 (ii) 在关系本体构建过程中，LLM 错过了这两个实体之间的关系（这种情况很少见）。对于这两种情况，无需进一步指导，我们再次查询 LLM 以根据上下文直接提取实体关系或输出 none。此提示显示在第 4.5 节中。如果 LLM 给出的答案为 none，我们将其视为情况 (i)；否则，我们生成一个三元组 (entity1, relationship, entity2) 并添加这个新关系以丰富主题关系本体。最后，我们组织这些有效的三元组以获得主题特定的知识图谱 (ThemeKG)。

实验

我们的框架旨在从头开始构建主题特定的 KG，其中包含与给定主题相关的有限文档。该任务与文档级开放信息提取密切相关。本节评估我们的 TKGCon 在构建两个特定主题的 KG 上相对于现有基线模型的性能。

在这里插入图片描述

数据集收集为了验证我们框架的有效性，我们选择了两个主题并收集了用于特定主题 KG 构建的语料库：电动汽车电池 (EVB) 和哈马斯对以色列的袭击 (2023) (HAI)。具体来说，对于每个主题，我们从在线来源收集了具有四个标准的文档：(i) 与给定主题的相关性，(ii) 源内容的可靠性，(iii) 描述细节的粒度，以及 (iv) 有关主题的信息多样性。电动汽车电池 (EVB) 是业内的传统主题，而现有 KG 中几乎不包含该主题的具体术语或其他细节。哈马斯袭击以色列 (2023) 是新闻界最新的主题，其中有许多新实体（例如“Nova 音乐节”）未包含在现有知识库中。对于每个主题，我们主要从各种在线数据库（例如纽约时报、CRS 报告 7）收集与该主题相关的 20 篇高质量且具有代表性的文档。然后，我们从两个语料库中注释文档级别的实体和三元组，以生成用于评估的黄金主题特定知识图谱。两个数据集 EVB 和 HAI 的统计数据可以在表 1 中找到。数据集可用作主题特定知识图谱构建或实体识别和开放关系提取等子任务的基准。

评估指标给定目标主题特定的 KG，G = (E, R, T ) 和生成的 KG，ˆG = ( ˆE, ˆR, ˆT )，其中 E、ˆE 表示黄金和已识别实体的集合，R、ˆR 表示黄金和生成的关系，T、ˆT 表示黄金三元组和提取的三元组集合  𝑒𝑖 , 𝑟𝑘 , 𝑒𝑗  。我们从不同角度定义以下评估指标来评估生成的 KG 的质量。

实体指标。我们使用精度、召回率和 F1 分数来评估提取的实体。由于 KG 构建是一项开放任务，如果识别出的实体合理但不包含在黄金集合 E 中，则精度不会受到惩罚。此外，如果两个实体是语义匹配的实体共指，例如 EV 电池和电动汽车电池，我们将它们视为相同。
三元组指标。我们使用精度、召回率和 F1 分数来评估生成的三元组。由于关系可以改写成各种表达式，例如的子类和的类型，我们通过获取预训练的 Transformer 的嵌入并计算提取的三元组和黄金三元组之间的余弦相似度来应用软匹配 [28]。
主题连贯性。原始文档通常包含噪声信息。我们希望 KG 专注于与主题相关的实体和关系。因此，我们提出了一个指标来评估三元组的主题连贯性。我们通过预训练的 Transformer 计算三元组和主题描述之间的余弦相似度。相似度高的三元组被视为主题相干的三元组，因此主题连贯性的度量由所有生成的三元组中所占主题相干三元组的比率来定义。

在这里插入图片描述

基线我们考虑现有的开放知识图谱构建方法，包括两个基于 GPT-4 的基线。

OpenIE [37] 是一个开放的信息提取系统，它从纯文本中提取关系三元组。该基线主要关注文本的句法模式，以弥补监督信号的不足。
REBEL [24] 是一个生成框架，它将 KG 构造公式化为一个序列到序列任务，该任务基于 BART [32] 提取输入文本中的所有三元组。该模型在通用语料库上进行了预训练，并在我们的语料库上进行了评估。
IMoJIE [31] 是一个基于 BERT 的 OpenIE 系统，它使用迭代 Seq2Seq 模型生成信息提取。我们使用在 CaRB [3] 数据上训练的模型。
KnowledgeGraph GPT（KG-GPT）8 [47] 是一种使用 GPT-4 将纯文本转换为知识图的工具。该方法设计提示以 RDF Tuples9 的样式生成结果。
我们还直接以 GPT-410 [1] 作为基线，以端到端的方式对其进行提示。我们使用上下文学习来一次查询一个主题文档，然后将生成的三元组组合在一起。我们使用的提示是：给定主题[Theme]，从以下文本[document]中提取所有格式为（entity1，relation，entity2）的知识三元组。

主要结果分析我们将我们提出的框架TKGCon与两个数据集EVB和HAI上的基线进行了比较。实体，三元组和主题的评估结果如表2所示。我们首先评估和比较所有模型输出KG中提取的实体。表2中的结果表明，我们的TKGCon在所有指标上都可以大大优于其他基线方法。基于语言的OpenIE在非基于GPT的基线中具有相对较高的召回率。然而，该模型缺乏对语义的理解，因此在OpenIE中提取的实体通常不完整，错误且嘈杂，特别是在处理长句和复杂句时，这导致较低的精度和F1分数。端到端的 KGC 方法（例如 KG-GPT 和 GPT-4）包含过于具体的实体（例如“两种主要类型”），并且优化起来不灵活。与端到端方法相比，我们的 TKGCon 可以通过显式短语挖掘大大提高实体的召回率，并通过中间步骤中的实体过滤提高精度。

我们的 TKGCon 在三重提取和主题连贯性方面也比基线有了很大的改进。具体来说，OpenIE 由于缺乏语义理解而生成了相对较差的输出质量。虽然 REBEL 和 IMoJIE 等监督序列生成方法的精度和主题连贯性略好，但由于难以推广到训练数据集之外的看不见的关系，它们的召回率较弱，而我们的数据集包含许多细粒度和主题特定的关系。GPT-4 具有理解和总结的能力，因此其诱导模型（GPT-4 和 KG-GPT）与其他模型相比有显着的改进。然而，在 ThemeKG 的设置中，这两个基于 GPT-4 的模型仍然可能产生模棱两可和不合逻辑的关系或实体（详细信息和示例可参见第 4.6 节）。通过将 ThemeKG 构建分为多个阶段，与端到端模型相比，我们的框架 TKGCon 可以有效提高文档级三元组的召回率。在主题本体的指导下，TKGCon 能够提取更高质量的关系，并在三元组 F1 分数方面优于基于 GPT 的方法，同时获得与 GPT-4 相当的主题连贯性。

消融研究

本质上，我们的框架可以分为两个连续的阶段：实体识别（图 2 中的步骤 1）和本体引导的关系提取（图 2 中的步骤 2、3 和 4）。为了验证关系本体的有效性，我们构建了一个新的模型变体，名为 TKGCon（w/o ontology），它利用我们框架中的实体识别（步骤 1），然后直接查询 GPT-4 以根据上下文生成实体之间的关系。查询关系的提示如下：从以下段落中提取从 [entity1] 到 [entity2] 的关系：[context]。请以 ([entity1], [relation], [entity2]) 的格式输出。如果根据上下文未识别出从 [entity1] 到 [entity2] 的关系，则输出 none。

TKGCon（无本体）的性能已添加到表 2 中。请注意，我们的模型和此变体使用相同的实体识别步骤，因此它们的实体度量都相同。对于所有三元组度量和主题一致性，此变体模型始终提供较低的性能。没有主题本体的指导和限制，变体模型在直接查询 GPT-4 时会生成不正确的关系。例如，其生成的三元组（辅助电池、用作、休闲车）和（检查、需要检查、电解质水平）显然是有问题的，因为电池不能“用作”车辆，而检查不应该具有“需要检查”的关系。

此外，TKGCon（无本体）倾向于将无意义的短语作为关系，例如（充电率、提供高、高尔夫球车）和（电动汽车，值得注意的例外，底特律电气）。相反，基于本体的 TKGCon 可以借助实体本体和关系本体避免这种情况，例如（休闲车，配备，辅助电池），（检查，维护所需，电解液水平）。

在这里插入图片描述

图 3：ThemeKG 与 WikiData 在 EV 电池上的比较。对于主题 EV 电池，左侧是我们从特定主题文档语料库中提取的 ThemeKG 的一部分。右侧的三元组是从相同主题的 WikiData 中检索到的。与 WikiData KG 相比，我们的 ThemeKG 包含更多特定主题的实体和关系。

案例研究本节以主题 EV battery 为例，直观地展示 ThemeKG 与 Wikidata 之间的差异。同时，我们将提取的 TKGCon 三元组与基线的结果进行了比较。与 Wikidata 比较。图 3 展示了 ThemeKG 与 Wikidata 中 EV battery 的差异。由于篇幅限制，我们只展示了我们构建的 ThemeKG 中与铅酸电池相关的部分三元组（图 3 左侧）。我们还检索了 Wikidata11 上相关主题的三元组（图 3 右侧）。我们观察到，我们构建的 ThemeKG（来自原始 EV battery 文档）包含更多细粒度的实体，例如富液式铅酸电池、汽车发动机启动电池，这些实体未在右侧呈现。 ThemeKG 还包含关于主题的更广泛、更细粒度的知识三元组（例如铅酸电池、受限制、循环寿命），而 Wikidata 仅包含一些粗粒度的三元组。因此，我们声称与现有的 KG 相比，ThemeKG 可以在特定主题上提供更广泛、更深入的细节。

与基线相比。我们还从 TKGCon 中抽取了一些提取的三元组，并将它们与表 3 中的 OpenIE、GPT-4 的输出进行比较。我们可以观察到，OpenIE 错过了许多与主题相关的实体和三元组，因为该方法基于不理解主题，仅依靠语言分析，在句子较长且复杂时，也会导致无意义的三元组。GPT-4 由于文本理解能力强，效果相对较好。但是，直接提示 GPT-4 会使实体过于具体（例如，“电动车辆，如叉车或高尔夫球车”）或导致歧义（例如，“是”、“有”、“是”）和错误的关系（例如，“由于”、“开始”）。

我们的 TKGCon 将 ThemeKG 构建任务分解为几个步骤，有效地优化了每个步骤，提高了实体的质量和召回率。在示例中，TKGCon 提取出更准确的实体，例如“叉车”和“高尔夫球车”（相比于 GPT-4 生成的过于具体的实体，“电动车辆，如叉车或高尔夫球车”）。此外，TKGCon 从关系本体中检索候选关系，从而避免关系歧义并提高关系提取的准确性。例如，我们的方法生成“是……的动力源”，而不是“用于……”（由 GPT-4 生成）。此外，得益于本体，TKGCon 提高了关系的一致性，而 GPT-4 生成的关系往往不稳定（例如，对于同一种关系，“是一种类型”、“类型”、“是”）。

ThemeKG 的应用 ThemeKG 是针对特定主题的细粒度知识的压缩和结构化集合。除了直观地访问知识外，ThemeKG 还可以用作外部工具来促进下游任务。例如，LLM 可能会对细粒度细节产生幻觉，并且不具备特定主题的最新信息。在这种情况下，我们的 ThemeKG 可以作为工具检索和加载以增强 LLM。

在这里插入图片描述

本节测试模型在特定主题上的问答 (QA) 能力。我们考虑以下模型。

ThemeKG 增强型 GPT-4 (TKG+GPT4) 使用 GPT-4 中的 ThemeKG（格式化为三元组列表）进行上下文内 QA，因为 ThemeKG 比整个主题语料库更压缩。
直接使用 GPT-4 进行 QA 的 Vanilla GPT-4。
使用 GPT-4 进行检索增强生成 (RAG+GPT4) [34] 是一种代表性方法，它从外部知识库中检索事实以在准确的最新信息。我们将原始主题语料库作为 RAG 的外部数据库进行 QA。

在这里插入图片描述

表 4 列出了主题 Hamas-Attack-on-Israel (2023) 的示例（QA 输出的冗余句子均被删除）。问题是“在 2023 年 10 月哈马斯袭击以色列的事件中，哪些国家支持哈马斯或谴责以色列？”。回答这个问题需要从多个文档中整合信息。显然，GPT-4 本身无法处理最新信息。RAG+GPT4 检索到部分相关事实，但遗漏了提及伊朗和波斯湾国家的文本等信息。我们的 TKG+GPT4 可以直接整合来自三元组的信息，例如（伊朗、提供援助、哈马斯）和（朝鲜、谴责、以色列），而无需对文档进行总结和推理。

本质上，ThemeKG 可以为 LLM 提供及时、细粒度的信息，同时提高他们对主题的推理和总结能力。在未来的工作中，我们将进一步探索 ThemeKG 在更多场景中的其他实用功能，例如以不同的 ThemeKG 作为插件进行个性化推荐和工具学习

结论

本文提出了一种自动化 KG 构建方法（称为 TKGCon），用于从原始主题语料库构建主题特定知识图谱（ThemeKG）。现有的通用或领域特定 KG 可能在信息粒度和时效性方面受到限制，而我们的重点 ThemeKG 包含细粒度、时效性、主题特定的实体和关系，为下游应用提供更多主题相关细节（例如专业术语或近期新闻中的关键事件）。我们的方法利用 Wikipedia 中精心策划的主题本体信息以及 LLM 强大的推理能力来生成关系候选。在电动汽车电池和哈马斯袭击以色列事件上的实验表明，与现有的各种 KG 构建方法相比，TKGCon 可以自动生成细粒度、高质量的 ThemeKG。