graphrag论文

摘要
1 介绍
2 图 RAG 方法与流程
- 2.1 源文档 → 文本块
- 2.2 文本块 → 元素实例
- 2.3 元素实例 → 元素摘要
- 2.4 元素摘要 → 图社区
- 2.5 图社区 → 社区摘要
- 2.6 社区摘要 → 社区答案 → 全局答案
3 评估
- 3.1 数据集
- 3.2 查询
- 3.3 条件
- 3.4 指标
- 3.5 配置
- 3.6 结果
4 相关工作
- 4.1 RAG 方法和系统
- 4.2 图和 LLMs
5 讨论
6 结论

摘要

检索增强型生成（RAG）的使用，可以从外部知识源检索相关信息，使大型语言模型（LLMs）能够回答涉及私有和/或之前未见过的文档集合的问题。然而，RAG在针对整个文本语料库的全局问题上失败了，例如“数据集中的主要主题是什么？”因为这本质上是一个查询聚焦的摘要（QFS）任务，而不是一个明确的检索任务。与此同时，以前的QFS方法无法扩展到典型RAG系统所索引的文本量。为了结合这些对比方法的优势，我们提出了一种图RAG方法来解答私人文本语料库上的问题，该方法随着用户问题的普遍性和要索引的源文本量而扩展。我们的方法使用LLM构建基于图的文本索引，分为两个阶段：首先从源文档派生出实体知识图，然后为所有密切相关的实体组预生成社区摘要。给定一个问题，每个社区摘要被用来生成部分回答，然后所有部分回答再次被总结为对用户的最终回答。对于一类在大约100万个标记的数据集上的全局理解问题，我们展示了图RAG在生成答案的全面性和多样性方面，相比于简单的RAG基线有了显著的改进。一个开源的、基于Python的全局和本地图RAG方法的实现即将在https://aka.ms/graphrag上推出。

1 介绍

在各个领域的人类努力都依赖于我们阅读和推理大量文档集的能力，通常得出的结论超出了源文本本身所述的内容。随着大型语言模型（LLMs）的出现，我们已经目睹了在科学发现（Microsoft, 2023）和情报分析（Ranade 和 Joshi, 2023）等复杂领域自动化类似人类的理解尝试，其中理解被定义为“为了有效行动而持续努力理解连接（可以是人、地点和事件之间的连接）以预测它们的轨迹”（Klein 等人，2006a）。然而，支持人类对整个文本语料库的理解需要一种方法，让人们既可以应用也可以通过提出全球性问题来细化他们对数据的心理模型（Klein 等人，2006b）。

检索增强型生成（RAG，Lewis等人，2020年）是在整个数据集上回答用户问题的一种既定方法，但它是为那些答案在文本区域内本地包含的情况设计的，这些文本区域的检索为生成任务提供了足够的基础。相反，更合适的任务框架是查询聚焦摘要（QFS，Dang，2006年），特别是生成自然语言摘要的查询聚焦抽象摘要，而不仅仅是连接的摘录（Baumel等人，2018年；Laskar等人，2020年；Yao等人，2017年）。然而，近年来，抽象与提取、通用与查询聚焦、单文档与多文档等摘要任务之间的区别已变得不那么相关。尽管早期的变换器架构在所有这些摘要任务上显示出了对最先进水平的显著改进（Goodwin等人，2020年；Laskar等人，2022年；Liu和Lapata，2019年），但这些任务现在已被现代大型语言模型（LLMs）简化，包括GPT（Achiam等人，2023年；Brown等人，2020年）、Llama（Touvron等人，2023年）和Gemini（Anil等人，2023年）系列，所有这些模型都可以使用上下文学习来总结它们上下文窗口中提供的任何内容。

然而，对于整个语料库的查询聚焦抽象摘要，挑战依然存在。如此大量的文本可能会大大超出大型语言模型（LLM）上下文窗口的限制，而且扩展这些窗口可能还不够，因为有信息可能在更长上下文中的“中间丢失”（Kuratov等人，2024年；Liu等人，2023年）。此外，尽管在简单RAG中直接检索文本块可能对QFS任务来说可能不够充分，但有可能一种替代形式的预索引可以支持一种特别针对全局摘要的新RAG方法。

在本文中，我们提出了一种基于大型语言模型（LLM）派生的知识图谱的全局摘要的图RAG方法（见图1）。与利用图索引的结构化检索和遍历优势的相关工作（小节4.2）不同，我们专注于在这一背景下尚未探索的图的一个内在特性：它们固有的模块性（Newman, 2006）以及社区检测算法将图划分为密切相关节点的模块化社区的能力（例如，Louvain, Blondel等人，2008; Leiden, Traag等人，2019）。由LLM生成的这些社区描述的摘要提供了对底层图索引和它所代表的输入文档的完整覆盖。然后可以使用映射-归约方法实现对整个语料库的查询聚焦摘要：首先独立并行地使用每个社区摘要回答查询，然后将所有相关的部分答案汇总成一个最终的全局答案。

为了评估这种方法，我们使用了一个大型语言模型（LLM）来从两个代表性的真实世界数据集的简短描述中生成多样化的、以活动为中心的理解问题，这些数据集分别包含播客文稿和新闻文章。为了发展对广泛问题和主题的理解，我们针对全面性、多样性和授权（在小节3.4中定义）这些目标质量，既探索了变化社区摘要的层次级别对回答查询的影响，也与简单的RAG和源文本的全局映射-归约摘要进行了比较。我们展示了所有全局方法在全面性和多样性方面都优于简单的RAG，并且使用中间和低级别社区摘要的图RAG在这些相同指标上显示出比源文本摘要更有利的性能，同时具有更低的标记成本。

2 图 RAG 方法与流程

我们来详细解释一下图 RAG 方法的高级数据流（图 1）和流程，描述每个步骤的关键设计参数、技术和实现细节。
在这里插入图片描述

2.1 源文档 → 文本块

一个基本的设计决策是决定如何处理从源文档中提取的输入文本，将其分割成文本块进行处理的粒度。在后续步骤中，这些文本块将被传递给一组设计好的大型语言模型（LLM）提示，以提取图索引的不同元素。较长的文本块需要较少的 LLM 调用来进行这种提取，但会受到较长 LLM 上下文窗口召回率下降的影响。这种行为可以在图 2 中观察到，在单一提取轮次（即零次深入提取）的情况下：在样本数据集（HotPotQA，Yang 等人，2018）中，使用 600 个标记的文本块提取的实体引用几乎是使用 2400 个标记文本块的两倍。尽管更多的引用通常更好，但任何提取过程都需要在召回率和精确度之间取得平衡。
在这里插入图片描述

2.2 文本块 → 元素实例

此步骤的基本要求是识别并提取每个文本块中的图节点和边的实例。我们使用一个多部分的 LLM 提示来首先识别文本中的所有实体，包括它们的名称、类型和描述，然后识别所有明确相关的实体之间的关系，包括源实体和目标实体以及它们关系的描述。这两种元素实例都以单个分隔的元组列表的形式输出。

为文档语料库的领域定制此提示的主要机会在于为 LLM 提供的少量示例的选择，以便进行上下文学习。

例如，虽然我们默认的提示提取广泛类别的“命名实体”（如人、地点和组织）通常是普遍适用的，但具有专业领域知识（例如，科学、医学、法律）的领域将从专门针对这些领域的少量示例中受益。我们还支持一个次要的提取提示，用于我们希望与提取的节点实例关联的任何额外的协变量。我们的默认协变量提示旨在提取与检测到的实体相关的声明，包括主题、对象、类型、描述、源文本跨度以及开始和结束日期。

为了平衡效率和质量的需求，我们使用多轮“深入提取”，直到达到指定的最大值，以鼓励 LLM 检测到它可能在之前的提取轮次中错过的任何其他实体。这是一个多阶段的过程，我们首先要求 LLM 评估是否提取了所有实体，使用 100 的对数偏差来强制进行是/否决定。如果 LLM 回应错过了实体，那么一个继续提示，表明“在上次提取中错过了很多实体”，鼓励 LLM 提取这些遗漏的实体。这种方法允许我们在不降低质量（图 2）或引入噪声的情况下使用更大的文本块。

2.3 元素实例 → 元素摘要

使用 LLM “提取”源文本中表示的实体、关系和声明的描述已经是一种抽象摘要的形式，依赖于 LLM 创建独立有意义的摘要，这些摘要可能是由文本本身暗示但未明确陈述的概念（例如，暗示关系的存在）。将所有这些实例级摘要转换为每个图元素（即实体节点、关系边和声明协变量）的单个描述性文本块需要进一步的 LLM 摘要，以匹配实例组。

在这个阶段的一个潜在问题是 LLM 可能不会以相同的文本格式一致地提取对同一实体的引用，导致实体元素重复，因此在实体图中出现重复的节点。然而，由于所有密切相关的“社区”将在后续步骤中被检测和总结，并且鉴于 LLM 可以理解多个名称变化背后的共同实体，我们的整体方法对此类变化是弹性的，前提是所有变化都有足够的连接到一组密切相关的实体。

总体而言，我们在潜在嘈杂的图结构中使用丰富的描述性文本进行同质节点的使用，既符合 LLM 的能力，也符合全局查询聚焦摘要的需求。这些品质也使我们的图索引与典型的知识图谱有所区别，后者依赖于简洁一致的知识三元组（主题、谓词、对象）进行下游推理任务。

2.4 元素摘要 → 图社区

前一步创建的索引可以被建模为一个同质无向加权图，其中实体节点通过关系边连接，边权重表示检测到的关系实例的归一化计数。给定这样的图，可以使用各种社区检测算法将图划分为节点彼此之间连接更强的社区（例如，见 Fortunato, 2010 和 Jin 等人，2021 的调查）。在我们的流程中，我们使用 Leiden（Traag 等人，2019）算法，因为它能够高效地恢复大规模图的层次社区结构（图 3）。这个层次结构的每个级别都提供了一种社区划分，以相互独立、集体穷尽的方式覆盖图中的节点，使得可以分而治之进行全局摘要。
在这里插入图片描述

2.5 图社区 → 社区摘要

下一步是使用旨在扩展到非常大的数据集的方法，为 Leiden 层次结构中的每个社区创建报告式的摘要。这些摘要本身是有用的，因为它们是理解数据集的全局结构和语义的一种方式，并且它们本身可以用于在没有问题的情况下理解语料库。例如，用户可以浏览一个级别的社区摘要，寻找感兴趣的一般主题，然后跟随链接到下一级报告，以获取每个子主题的更多细节。然而，在这里，我们专注于它们作为用于回答全局查询的基于图的索引的效用。
社区摘要的生成方式如下：
• 叶子级社区。一个叶子级社区的元素摘要（节点、边、协变量）被优先排序，然后迭代地添加到 LLM 上下文窗口中，直到达到标记限制。优先级如下：对于每个社区边，按照源节点和目标节点的度数之和（即整体突出性）递减的顺序，添加源节点、目标节点、链接的协变量和边本身的描述。

• 更高级别的社区。如果所有元素摘要都能适应上下文窗口的标记限制，则按叶子级社区的方式进行，并总结社区内所有元素摘要。否则，将子社区按照元素摘要标记数量递减的顺序排列，并迭代地用较短的子社区摘要（较短）替换它们关联的元素摘要（较长），直到适应上下文窗口为止。

2.6 社区摘要 → 社区答案 → 全局答案

给定用户查询，前一步生成的社区摘要可以用来在多阶段过程中生成最终答案。社区结构的层次性质也意味着可以使用不同层次的社区摘要来回答查询，这引发了一个问题，即在层次社区结构中，特定层次是否为一般性理解问题提供了最佳摘要细节和范围的平衡（在第 3 节中评估）。

对于给定的社区级别，任何用户查询的全局答案都是按照以下方式生成的：
• 准备社区摘要。社区摘要被随机打乱并分成预指定的标记大小的块。这确保了相关信息分布在各个块中，而不是集中在一个上下文窗口中（可能丢失）。

• 映射社区答案。并行生成中间答案，每个块一个。LLM 也被要求生成一个 0-100 之间的分数，以指示生成的答案在回答目标问题方面的有用程度。得分为 0 的答案被过滤掉。

• 归纳为全局答案。中间社区答案按照有用性分数的降序排列，并迭代地添加到新的上下文窗口中，直到达到标记限制。这个最终的上下文被用来生成返回给用户的全局答案。

3 评估

3.1 数据集

我们选择了两个大约一百万标记范围的数据集，每个数据集的文本量相当于大约10本小说，代表了用户在现实世界活动中可能遇到的语料库类型：

播客文稿。由微软首席技术官凯文·斯科特与其他科技领导者之间的播客对话汇编而成的文稿（Behind the Tech, Scott, 2024）。大小：1669 × 600标记的文本块，块之间有100标记的重叠（约100万个标记）。
新闻文章。由2013年9月至2023年12月期间发布的新闻文章组成的基准数据集，涵盖娱乐、商业、体育、技术、健康和科学等类别（MultiHop-RAG; Tang 和 Yang, 2024）。大小：3197 × 600标记的文本块，块之间有100标记的重叠（约170万个标记）。

3.2 查询

存在许多针对开放领域问答的基准数据集，包括HotPotQA（Yang 等人，2018）、MultiHop-RAG（Tang 和 Yang, 2024）和MT-Bench（Zheng 等人，2024）。然而，相关的问题集主要针对明确的事实上的检索，而不是为了数据理解的摘要，即人们在现实世界活动中检查、参与和对数据进行情境化的过程（Koesten 等人，2021）。同样，从源文本中提取潜在摘要查询的方法也存在（Xu 和 Lapata, 2021），但这些提取的问题可能针对细节，这些细节背叛了对文本的先验知识。

为了评估RAG系统在更全局性理解任务中的有效性，我们需要能够传达对数据集内容仅高层次理解的问题，而不是特定文本的细节。我们采用了以活动为中心的方法来自动化生成此类问题：给定数据集的简短描述，我们让LLM确定N个潜在用户和每个用户的N个任务，然后对于每个（用户，任务）组合，我们让LLM生成N个需要理解整个语料库的问题。在我们的评估中，N的值为5，每个数据集产生了125个测试问题。表1显示了两个评估数据集的示例问题。

3.3 条件

在我们的分析中，我们比较了六种不同的条件，包括使用四个层次的图社区的Graph RAG（C0, C1, C2, C3）、直接将我们的映射-归约方法应用于源文本的文本摘要方法（TS），以及一个简单的“语义搜索”RAG方法（SS）：

CO。使用最高层次的社区摘要（数量最少）来回答用户查询。
C1。使用高级社区摘要来回答查询。这些是C0的子社区，如果有的话，否则是C0社区向下投影。
C2。使用中级社区摘要来回答查询。这些是C1的子社区，如果有的话，否则是C1社区向下投影。
C3。使用最低层次的社区摘要（数量最多）来回答查询。这些是C2的子社区，如果有的话，否则是C2社区向下投影。
TS。与2.6节中的方法相同，只是源文本（而不是社区摘要）被随机打乱并分块用于映射-归约摘要阶段。
SS。一个简单的RAG实现，其中文本块被检索并添加到可用的上下文窗口中，直到达到指定的标记限制。
所有六种条件在生成答案时使用的上下文窗口大小和提示都是相同的（除了对引用样式的微小修改以匹配所使用的上下文信息类型）。条件只在创建上下文窗口内容的方式上有所不同。

支持条件C0-C3的图索引是使用我们用于实体和关系提取的通用提示创建的，实体类型和少量示例针对数据领域进行了定制。图索引过程使用了600标记的上下文窗口大小，对于播客数据集进行了1次深入提取，对于新闻数据集没有进行深入提取。

3.4 指标

LLM已被证明是自然语言生成的良好评估者，与人类判断相比，达到了最先进的或有竞争力的结果（Wang 等人，2023a；Zheng 等人，2024）。虽然这种方法可以在已知金标准答案时生成基于参考的指标，但它也能够以无参考的方式测量生成文本的质量（例如，流畅性）以及比较竞争输出（LLMas-a-judge, Zheng 等人，2024）。LLM在评估传统RAG系统的性能方面也显示出了潜力，自动评估上下文相关性、忠实度和答案相关性等质量（RAGAS, Es 等人，2023）。

鉴于我们的Graph RAG机制的多阶段特性，我们想要比较的多种条件，以及缺乏对我们基于活动的语义问题的答案的金标准，我们决定采用LLM评估器的头对头比较方法。我们选择了三个目标指标，捕捉了对语义理解活动有益的质量，以及一个控制指标（直接性），用作有效性的指标。由于直接性实际上与全面性和多样性相对立，我们不会期望任何方法在所有四个指标上都获胜。

我们使用LLM评估器计算的头对头措施如下：

全面性。答案提供了多少细节来涵盖问题的所有方面和细节？
多样性。答案在提供不同观点和对问题的洞察方面有多丰富和多样？
授权。答案如何帮助读者理解和对主题做出知情判断？
直接性。答案有多具体和清晰地回答问题？

在我们的评估中，LLM提供了问题、目标指标和一对答案，并被要求根据指标评估哪个答案更好，以及为什么。如果存在胜者，则返回胜者；否则，如果它们基本相似且差异可以忽略不计，则为平局。为了考虑LLM的随机性，我们每次比较运行五次，并使用平均分数。表2显示了LLM生成的评估示例。
在这里插入图片描述

3.5 配置

上下文窗口大小对任何特定任务的影响尚不清楚，特别是对于像gpt-4-turbo这样具有128k标记大上下文大小的模型。鉴于信息可能在更长上下文的“中间丢失”（Kuratov 等人，2024；Liu 等人，2023），我们想要探索上下文窗口大小的变化对我们的数据集、问题和指标组合的影响。特别是，我们的目标是确定基线条件（SS）的最优上下文大小，然后统一用于所有查询时的LLM使用。为此，我们测试了四种上下文窗口大小：8k、16k、32k和64k。令人惊讶的是，测试的最小的上下文窗口大小（8k）在所有比较中普遍表现更好，在全面性上的平均胜率为58.1%，而在多样性（平均胜率=52.4%）和授权（平均胜率=51.3%）上与更大的上下文大小表现相当。鉴于我们对更全面和多样化答案的偏好，因此我们在最终评估中使用了固定的8k标记上下文窗口大小。

3.6 结果

索引过程产生了一个包含8564个节点和20691条边的图，用于播客数据集，以及一个更大的图，包含15754个节点和19520条边，用于新闻数据集。表3显示了每个图社区层次结构中不同级别的社区摘要的数量。
在这里插入图片描述

全局方法与简单RAG的比较。如图4所示，全局方法在两个数据集的全面性和多样性指标上一致地超过了简单RAG（SS）方法。具体来说，全局方法在播客文稿的全面性胜率在72-83%之间，新闻文章在72-80%之间，而多样性胜率分别为75-82%和62-71%。我们的直接性作为有效性测试的使用也取得了预期的结果，即简单RAG在所有比较中产生了最直接的响应。
在这里插入图片描述
社区摘要与源文本的比较。将社区摘要与使用图RAG的源文本进行比较时，社区摘要通常在全面性和多样性方面提供了微小但一致的改进，除了根级别摘要。播客数据集中的中级摘要和新闻数据集中的低级社区摘要在全面性胜率分别为57%和64%。多样性胜率分别为播客中级社区摘要的57%和新闻低级社区摘要的60%。表3还说明了图RAG与源文本摘要相比的可扩展性优势：对于低级社区摘要（C3），图RAG需要的上下文标记少26-33%，而对于根级别社区摘要（C0），它需要少于3%的标记。对于与其它全局方法相比的适度性能下降，根级别图RAG提供了一种高效的数据索引方法，用于特征理解活动中的迭代问答，同时在全面性（72%胜率）和多样性（62%胜率）方面保持了对简单RAG的优势。

授权。授权比较显示了全局方法与简单RAG（SS）以及图RAG方法与源文本摘要（TS）的混合结果。对LLM推理的临时LLM使用分析表明，提供具体例子、引用和引用被认为是帮助用户达到知情理解的关键。调整元素提取提示可能有助于在图RAG索引中保留更多这些细节。

4 相关工作

4.1 RAG 方法和系统

在使用大型语言模型（LLMs）时，RAG 涉及首先从外部数据源检索相关信息，然后将这些信息添加到 LLM 的上下文窗口中，并附带原始查询（Ram 等人，2023）。简单的 RAG 方法（Gao 等人，2023）通过将文档转换为文本，将文本分割成块，并将这些块嵌入到向量空间中来实现，其中相似的位置代表相似的语义。然后，查询也被嵌入到相同的向量空间中，使用最近的 k 个向量的文本块作为上下文。当然，还有更高级的变化，但所有这些都解决了当外部数据集超过 LLM 上下文窗口时应该做什么的问题。

高级 RAG 系统包括预先检索、检索后和检索后的策略，旨在克服简单 RAG 的缺点，而模块化 RAG 系统包括迭代和动态循环的模式，这些循环交替进行检索和生成（Gao 等人，2023）。我们实现的 Graph RAG 结合了与其它系统相关的多个概念。例如，我们的社区摘要是一种自我记忆（Selfmem, Cheng 等人，2024），用于生成增强检索（GAR, Mao 等人，2020），这有助于未来的生成周期，而我们从这些摘要并行生成社区答案的方法是一种迭代（Iter-RetGen, Shao 等人，2023）或联邦（FeB4RAG, Wang 等人，2024）检索-生成策略。还有其他系统也结合了这些概念用于多文档摘要（CAiRE-COVID, Su 等人，2020）和多跳问题回答（ITRG, Feng 等人，2023; IR-CoT, Trivedi 等人，2022; DSP, Khattab 等人，2022）。我们使用分层索引和摘要的方法也与进一步的方法相似，例如通过聚类文本嵌入向量的向量生成文本块的分层索引（RAPTOR, Sarthi 等人，2024）或生成“澄清树”以回答对歧义问题的多种解释（Kim 等人，2023）。然而，这些迭代或分层方法没有一个使用自生成的图索引，这使得 Graph RAG 成为可能。

4.2 图和 LLMs

图与 LLMs 和 RAG 相关的使用是一个不断发展的研究领域，已经建立了多个方向。这些包括使用 LLMs 进行知识图谱创建（Trajanoska 等人，2023）和完成（Yao 等人，2023），以及从源文本中提取因果图（Ban 等人，2023; Zhang 等人，2024）。它们还包括形式上更高级的 RAG，其中索引是一个知识图谱（KAPING, Baek 等人，2023），其中图结构的子集（G-Retriever, He 等人，2024）或派生出的图度量（GraphToolFormer, Zhang, 2023）是查询对象，其中叙事输出牢固地基于检索到的子图的事实（SURGE, Kang 等人，2023），其中检索到的事件情节子图使用叙事模板进行序列化（FABULA, Ranade 和 Joshi, 2023），以及系统支持为多跳问题回答同时创建和遍历文本-关系图（Wang 等人，2023b）。在开源软件方面，LangChain（LangChain, 2024）和 LlamaIndex（LlamaIndex, 2024）库支持各种图数据库，同时更一般的基于图的 RAG 应用类别也在出现，包括可以创建和推理知识图谱的系统，这些知识图谱在 Neo4J（NaLLM, Neo4J, 2024）和 NebulaGraph（GraphRAG, NebulaGraph, 2024）格式中。然而，与我们的 Graph RAG 方法不同，这些系统没有一个使用图的自然模块化来划分数据进行全局摘要。

5 讨论

评估方法的局限性。我们迄今为止的评估只针对了两个语料库的一类理解问题，每个语料库大约有100万个标记。需要更多的工作来了解性能如何随着不同类型的问题、数据类型和数据集大小的变化而变化，以及通过最终用户验证我们的理解问题和目标指标。使用 SelfCheckGPT（Manakul 等人，2023）等方法比较制造率也将改进当前的分析。

构建图索引的权衡。我们一致观察到，Graph RAG 在与其他方法的头对头结果中取得了最佳表现，但在许多情况下，无需图的全局摘要方法也表现出了竞争性。关于是否投资构建图索引的实际决策取决于多个因素，包括计算预算、每个数据集预期的生命周期查询数量，以及从图索引的其他方面（包括通用社区摘要和使用其他基于图的 RAG 方法）获得的价值。

未来的工作。当前 Graph RAG 方法支持的图索引、丰富的文本注释和分层社区结构为改进和适应提供了许多可能性。这包括通过基于嵌入的用户查询和图注释匹配来操作的更本地化的 RAG 方法，以及在应用我们的映射-归约摘要机制之前，将基于嵌入的匹配与社区报告相结合的混合 RAG 方案的可能性。这种“汇总”操作也可以扩展到社区层次结构的更多级别，也可以实现为一种更具探索性的“深入”机制，该机制跟随包含在更高级别社区摘要中的信息线索。

6 结论

我们提出了一种全局 Graph RAG 方法，结合知识图谱生成、检索增强型生成（RAG）和查询聚焦摘要（QFS），以支持对整个文本语料库的理解。初步评估显示，在答案的全面性和多样性方面，与简单的 RAG 基线相比有了显著的改进，并且与使用映射-归约源文本摘要的全局但无图的方法相比也有了有利的比较。对于需要对同一数据集进行多次全局查询的情况，基于实体的图索引中的根级别社区摘要提供了一种数据索引，它不仅优于简单的 RAG，而且在标记成本的一小部分上与其他全局方法相比具有竞争力的性能。