GraphRAG

news2025/1/10 14:53:20

GraphRAG 与基线 RAG

RAG

检索增强生成 (RAG) 是一种使用真实世界信息改进 LLM 输出的技术。这种技术是大多数基于 LLM 的工具的重要组成部分,大多数 RAG 方法使用向量相似性作为搜索技术,我们称之为基线 RAG。
RAG 技术在帮助 LLM 推理私有数据集方面显示出前景——LLM 没有接受过训练且以前从未见过的数据,例如企业的专有研究、商业文档或通信。基线 RAG 是为了帮助解决此问题而创建的,但我们观察到基线 RAG 性能非常差的情况。
RAG不适合大型、全面、不同、新的
例如:
1、基线 RAG 难以将这些点连接起来。当回答一个问题需要通过其共享属性遍历不同的信息片段以提供新的综合见解时,就会发生这种情况。
2、当被要求在大型数据集合甚至单一的大型文档中全面理解汇总的语义概念时,基线 RAG 的表现很差。
为了解决这个问题,技术界正在努力开发扩展和增强RAG的方法-GraphRAG

GraphRAG

Microsoft Research 的新方法 GraphRAG 使用 LLM 基于输入语料库创建知识图谱。此图形以及社区摘要和图形机器学习输出用于增强查询时的提示。GraphRAG 在回答上述两类问题方面显示出实质性的改进,展示了优于以前应用于私有数据集的其他方法的智能或掌握能力。

索引

作用

  • 从原始文本中提取实体、关系和声明
  • 在实体中执行社区检测
  • 生成多个粒度级别的社区摘要和报告
  • 将实体嵌入到图形向量空间
  • 将文本块嵌入到文本向量空间

工作流

由于数据索引任务的复杂性,我们需要能够将数据管道表示为一系列多个相互依赖的工作流。 在 GraphRAG 索引管道中,每个工作流都可以定义对其他工作流的依赖关系,从而有效地形成工作流的有向无环图 (DAG),然后用于调度处理。

Dataframe 消息格式

工作流之间以及工作流步骤之间的主要通信单元是 的实例。 尽管可能会产生副作用,但我们的目标是在数据处理方法中以数据为中心和以表为中心。 这使我们能够轻松地对数据进行推理,并利用基于数据帧的生态系统的力量。 我们的底层 DataFrame 技术可能会随着时间的推移而改变,但我们的主要目标是支持 DataShaper 工作流架构,同时保持单机易用性和开发人员人体工程学。

LLM 缓存

GraphRAG 库在设计时考虑了 LLM 交互,使用 LLM API 时的一个常见挫折是由于网络延迟、节流等导致的各种错误、错误。 由于存在这些可能的错误情况,我们在 LLM 交互周围添加了一个缓存层。 当使用相同的输入集(提示和调整参数)发出完成请求时,如果存在,我们将返回缓存结果。 这使我们的索引器能够更灵活地应对网络问题,以幂等方式执行操作,并提供更高效的最终用户体验。

GraphRAG 知识模型

知识模型是符合我们的数据模型定义的数据输出的规范。您可以在 GraphRAG 存储库内的 python/graphrag/graphrag/model 文件夹中找到这些定义。提供了以下实体类型。此处的字段表示默认情况下嵌入文本的字段。

  • Document- 将文档输入到系统中。它们要么表示 CSV 中的单个行,要么表示单个.txt文件。
  • TextUnit-要分析的一大块文本。这些块的大小、它们的重叠以及它们是否遵循任何数据边界可以在下面进行配置。一个常见的用例是设置为,以便文档和TextUnits 之间存在一对多关系,而不是多对多关系。CHUNK_BY_COLUMNSid
  • Entity- 从 TextUnit中提取的实体。这些表示您提供的人员、地点、事件或其他实体模型。
  • Relationship- 两个实体之间的关系。这些是由协变量生成的。
  • Covariate- 提取的索赔信息,其中包含有关实体的声明,这些声明可能有时间限制
  • Community Report-一旦生成了实体,我们就会对它们执行分层社区检测,并为此层次结构中的每个社区生成报告。
  • Node- 此表包含已嵌入和聚类的实体和文档的呈现图形视图的布局信息

默认配置工作流

阶段 1:撰写 TextUnits

默认配置工作流的第一阶段是将输入文档转换为 TextUnits。TextUnit 是用于图形提取技术的文本块。它们还被提取的知识项用作源引用,以便使概念的面包屑和来源能够回到其原始源 tex。

块大小(以令牌为单位)是用户可配置的。默认情况下,这设置为 300 个令牌,尽管我们在使用单个“拾穗”步骤处理 1200 个令牌块方面有积极的经验。(“拾穗”步骤是后续提取)。较大的块会导致低保真度的输出和意义不大的参考文本;但是,使用较大的块可能会导致更快的处理时间。

group-by 配置也是用户可配置的。默认情况下,我们将块与文档边界对齐,这意味着 Documents 和 TextUnit 之间存在严格的一对多关系。在极少数情况下,这可以变成多对多的关系。当文档很短并且我们需要其中几个文档来组成一个有意义的分析单元(例如推文或聊天记录)时,这很有用

这些文本单元中的每一个都嵌入了文本,并传递到管道的下一阶段。
在这里插入图片描述

第 2 阶段:图形提取

在此阶段,我们分析每个文本单元提取图形基元:Entities、Relationships 和 Claims。 实体和关系在我们的entity_extract动词中同时提取,声明在我们的claim_extract动词中提取。然后,将结果合并并传递到管道的后续阶段。
在这里插入图片描述

实体和关系提取

在图形提取的第一步中,我们处理每个文本单元,以便使用 LLM 从原始文本中提取实体和关系。此步骤的输出是一个 subgraph-per-TextUnit,其中包含具有名称、类型和描述实体列表,以及与源、目标和描述关系列表

这些子图被合并在一起 - 任何具有相同名称和类型的实体都通过创建其描述数组来合并。同样,与同一源和目标的任何关系都是通过创建其描述的数组来合并的。

实体和关系摘要

现在我们有了一个实体和关系的图,每个实体和关系都有一个描述列表,我们可以将这些列表汇总为每个实体和关系的单个描述。这是通过要求 LLM 提供一个简短的摘要来完成的,该摘要捕获了每个描述中的所有不同信息。这使我们所有的实体和关系都有一个简洁的描述

实体解析(默认情况下未启用)

图形提取的最后一步是解析表示相同真实世界实体但名称不同的任何实体。由于这是通过LLM完成的,而且我们不想丢失信息,因此我们希望对此采取保守的、非破坏性的方法。

然而,我们目前实施的实体决议是破坏性的。它将为 LLM 提供一系列实体,并要求它确定应该合并哪些实体。然后,这些实体将合并为一个实体,并且它们的关系会更新。

我们目前正在探索其他实体解析技术。在不久的将来,实体解析将通过在实体变体之间创建边缘来执行,该边缘指示索引引擎已解析实体。这将允许最终用户撤销索引端分辨率,并使用类似的过程添加他们自己的非破坏性分辨率。

索赔提取和排放

最后,作为一个独立的工作流,我们从源 TextUnits 中提取声明。这些声明代表了积极的事实陈述,具有评估的状态和时间限制。它们作为称为协变量的主要工件发出。

第 3 阶段:图形增强

现在我们有了一个可用的实体和关系图,我们想了解他们的社区结构,并用其他信息来增强图。这分两步完成:社区检测和图形嵌入。这些为我们提供了显式(社区)和隐式(嵌入)方法来理解我们图的拓扑结构。
在这里插入图片描述

社区检测

在此步骤中,我们使用分层莱顿算法生成实体社区的层次结构。这种方法将递归社区聚类应用于我们的图,直到我们达到社区规模阈值。这将使我们能够理解图的社区结构,并提供一种在不同粒度级别上导航和汇总图的方法。

图形嵌入

在此步骤中,我们使用 Node2Vec 算法生成图形的向量表示。这将使我们能够理解图的隐式结构,并提供一个额外的向量空间,用于在查询阶段搜索相关概念。

图表排放

一旦我们的图形增强步骤完成,最终的 Entities 和 Relationships 表在其文本字段嵌入文本字段后就会发出。

第 4 阶段:社区总结

在这里插入图片描述
在这一点上,我们有一个实体和关系的功能图,一个实体的社区层次结构,以及node2vec嵌入。

现在,我们希望以社区数据为基础,并为每个社区生成报告。这使我们在图形粒度的几个点上对图形有了高层次的理解。例如,如果社区 A 是顶级社区,我们将获得有关整个图表的报告。如果社区级别较低,我们将收到有关本地集群的报告。

生成社区报告

在此步骤中,我们使用 LLM 生成每个社区的摘要。这将使我们能够理解每个社区中包含的不同信息,并从高层次或低层次的角度提供对图形的有范围的理解。这些报告包含执行概述,并参考了社区子结构中的关键实体、关系和索赔。

汇总社区报告

在此步骤中,然后通过 LLM 对每个社区报告进行汇总,以供速记使用。

社区嵌入

在此步骤中,我们通过生成社区报告的文本嵌入、社区报告摘要和社区报告的标题来生成社区的矢量表示

社区表排放

此时,将执行一些簿记工作,并发出 Communities 和 CommunityReports 表。

第 5 阶段:文档处理

在工作流的此阶段,我们将为知识模型创建“文档”表。

使用列进行增强(仅限 CSV)

如果工作流对 CSV 数据进行操作,您可以配置工作流以向文档输出添加其他字段。这些字段应存在于传入的 CSV 表中。有关配置此功能的详细信息,请参阅配置文档。

链接到 TextUnits

在此步骤中,我们将每个文档链接到在第一阶段创建的文本单元。这使我们能够了解哪些文档与哪些文本单元相关,反之亦然。

文档嵌入

在此步骤中,我们使用文档切片的平均嵌入来生成文档的向量表示。我们重新对文档进行分块,而不重叠分块,然后为每个分块生成一个嵌入。我们创建这些块的平均值,按令牌计数加权,并将其用作文档嵌入。这将使我们能够理解文档之间的隐含关系,并将帮助我们生成文档的网络表示。

文件表排放

此时,我们可以将 Documents 表发出到知识模型中。

第 6 阶段:网络可视化

在工作流的这个阶段,我们将执行一些步骤来支持现有图形中高维向量空间的网络可视化。在这一点上,有两个逻辑图在起作用:实体关系图和文档图。

对于每个逻辑图,我们执行 UMAP 降维以生成图形的 2D 表示。这将使我们能够在 2D 空间中可视化图形,并理解图形中节点之间的关系。然后,UMAP 嵌入将作为节点表发出。此表的行包括一个鉴别器,该鉴别器指示节点是文档还是实体,以及 UMAP 坐标。

索引器 CLI

GraphRAG 索引器 CLI 允许无代码使用 GraphRAG 索引器。

CLI 参数

–verbose- 在运行期间添加额外的日志记录信息。
–root - 数据根目录。这应该包含一个包含输入数据的目录,以及一个包含环境变量的文件。下面将介绍这些内容。input.env
–init- 这将使用 bootstrap 配置和提示覆盖在指定位置初始化数据项目目录。root
–resume - 如果指定,管道将尝试恢复之前的运行。上一次运行的 parquet 文件将作为输入加载到系统中,并且将跳过生成这些文件的工作流。输入值应为带时间戳的输出文件夹,例如“20240105-143721”。
–config <config_file.yml>- 这将选择退出默认配置模式并执行自定义配置。如果使用此选项,则下面的环境变量均不适用。
–reporter - 这将指定要使用的进度报告器。缺省值为 。有效值为 、 和 。richrichprintnone
–emit - 这指定了管道应发出的表输出格式。缺省值为 。有效值为 、 和 、 、 逗号分隔。parquetparquetcsvjson
–nocache- 这将禁用缓存机制。这对于调试和开发很有用,但不应在生产中使用。

查询

在查询时,这些结构用于在回答问题时为 LLM 上下文窗口提供材料。主要的查询模式有:
通过利用社区摘要对语料库的整体问题进行全局搜索。
本地搜索,通过扇形扩展到其邻居和相关概念来对特定实体进行推理。

本地搜索

基于实体的推理
本地搜索方法将来自知识图谱的结构化数据与来自输入文档的非结构化数据相结合,以在查询时使用相关实体信息增强 LLM 上下文。它非常适合回答需要理解输入文档中提到的特定实体的问题(例如,“洋甘菊的治疗特性是什么?)

给定一个用户查询和对话历史记录(可选),本地搜索方法会从知识图谱中识别出一组在语义上与用户输入相关的实体。这些实体充当知识图谱的访问点,从而能够提取更多相关详细信息,例如连接的实体、关系、实体协变量和社区报告。
此外,它还从与已识别实体关联的原始输入文档中提取相关文本块
然后,对这些候选数据源进行优先级排序和筛选,以适应预定义大小的单个上下文窗口,该窗口用于生成对用户查询的响应。

全局搜索

全数据集推理
Baseline RAG 在处理需要跨数据集聚合信息以组成答案的查询时遇到困难。诸如“数据中的前 5 个主题是什么?”之类的查询性能非常糟糕,因为基线 RAG 依赖于数据集中语义相似的文本内容的向量搜索。查询中没有任何内容可以将其定向到正确的信息。

但是,使用 GraphRAG,我们可以回答此类问题,因为 LLM 生成的知识图谱的结构告诉我们整个数据集的结构(以及主题)。这使得私有数据集可以被组织成有意义的语义集群,这些语义集群是预先汇总的。使用我们的全局搜索方法,LLM 在响应用户查询时使用这些聚类来总结这些主题

给定用户查询和可选的对话历史记录,全局搜索方法使用来自图形社区层次结构指定级别的 LLM 生成的社区报告集合作为上下文数据,以 map-reduce 方式生成响应。在此步骤中,社区报告被分割预定义大小的文本块
然后,每个文本块用于生成一个中间响应,其中包含一个点列表,每个点都附有一个数字评级,指示该点的重要性。
在该步骤中,从中间响应中筛选出的一组最重要的点被聚合并用作生成最终响应的上下文。mapreduce

全球搜索响应的质量可能会受到为获取社区报告而选择的社区层次结构级别的严重影响。较低层次结构级别的报告及其详细的报告往往会产生更彻底的回应,但由于报告的数量众多,也可能增加生成最终回应所需的时间和 LLM 资源。

提示调优

在数据开箱即用的情况下使用 GraphRAG 可能无法产生最佳结果。 我们强烈建议您按照我们文档中的提示调整指南来微调您的提示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1994775.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

立即升级你的前端技能!跟随这份Vue3项目搭建教程,从零基础到专业,一步步掌握最新Web开发技术,打造响应快速、界面优雅的现代网站。

全能开发套餐&#xff0c;轻松打造现代网站&#xff01;Vue3携手Vite带来开发新体验&#xff0c;结合Axios、Pinia、Element Plus实现功能与美观并重&#xff0c;TailwindCSS与DaisyUI提供设计灵活性&#xff0c;Router 4处理页面导航。从前端到后端&#xff0c;一站式解决&…

必看!全网最详细的仓库管理办法!

如今仓库管理的优劣直接影响着企业的运营效率和成本控制。一个高效、有序的仓库能够确保货物的及时供应&#xff0c;减少库存积压&#xff0c;提高客户满意度&#xff1b;而一个混乱、无序的仓库则可能导致货物丢失、损坏&#xff0c;延误交货&#xff0c;甚至影响企业的声誉和…

【宠粉赠书】Python数据可视化:科技图表绘制

为了回馈粉丝们的厚爱&#xff0c;今天小智给大家送上一套数据可视化学习的必备书籍——《Python数据可视化&#xff1a;科技图表绘制》。下面我会详细给大家介绍这本书&#xff0c;文末留有领取方式。 图书介绍 《Python数据可视化&#xff1a;科技图表绘制》结合编者多年的数…

顶象文字点选模型识别

注意&#xff0c;本文只提供学习的思路&#xff0c;严禁违反法律以及破坏信息系统等行为&#xff0c;本文只提供思路 如有侵犯&#xff0c;请联系作者下架 文字点选如何训练&#xff0c;之前的文章说了很多遍了&#xff0c;这里只放现成的模型供查看&#xff0c;有需要成品联系…

datax做增量导入数据到hive:mysql>hive

为什么要做增量导入? 例如mysql表中的数据导入hive&#xff0c;如果第一天抽取了mysql中t_user表中的全部数据&#xff0c;则第二天只需要抽取新增数据即可&#xff01; 增加导入是利用where 条件查询实现的&#xff0c;查询条件一般是自增的id或者时间列 下面演示基于时间列的…

sns.regplot()用法

概念 seaborn.regplot&#xff08;&#xff09;函数可以在两个变量之间绘制一个线性回归模型&#xff0c;可以输出线性回归线以及数据的散点图。 参数解释 seaborn.regplot(dataNone, xNone, yNone, x_estimatorNone, x_binsNone, x_cici, scatterTrue, fit_regTrue, ci95, …

s7_200smart采集遇到的问题

对s7_200smart(plc设备不太熟悉)第一次使用了modbus协议来采集数据是采集不到bcd码类型的数据&#xff0c;modbus里面不支持这个数据类型。采用西门子类型来设置采集数据也遇到不少问题&#xff1f; 第一&#xff1a;采集速率不可以太高&#xff0c;最好1秒一次&#xff0c;通…

YOLOv8改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码 】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

我们终究会懂得自己并非无所不能

今天参加“全民健身日”公开水域游泳比赛&#xff0c;第一次在游泳上有一种无力感。 以前以为自己游泳怎么都不会累&#xff0c;大不了踩踩水&#xff0c;或者在水上漂着。今天竟然途中可耻地抱着“跟屁虫”休息了。 是不是承认自己的无能&#xff0c;也是一种进步&#xff1f;…

【简历】苏州某大学211硕士:25届Java简历指导通过率低

注&#xff1a;为保证用户信息安全&#xff0c;姓名和学校等信息已经进行同层次变更&#xff0c;内容部分细节也进行了部分隐藏 简历说明 这是一份25届211硕士同学的Java简历&#xff0c;这个学历他的目标必然是冲大厂。 不过他的简历几乎没什么提问点&#xff0c;211在大厂…

1.2 C 语言环境:MinGW 与 CLion 的安装与配置

目录 1 C 语言的由来 2 安装 MinGW 编译器 3 Windows 中安装 CLion 开发环境 3.1 安装 CLion 开发环境 3.2 运行试用 30 天 3.3 新建项目​ 3.4 汉化 4 Mac 中安装 Clion 开发环境 4.1 安装 CLion 开发环境 4.2 运行试用 30 天 4.3 新建项目 ​4.4 汉化 5 向日葵的…

【Linux】系列入门摘抄笔记-6-tar打包压缩和vim编辑器

打包、压缩和解压命令 压缩文件一定要严格区分扩展名 tar 打包程序 tar [主选项+辅选项] [包名] [目标文件或目录]描述:tar命令是Linux下最常用的打包程序。使用tar命令打出来的包称为tar包,因为tar包文件的后缀通常是“.tar”。 每条tar命令只能有一个主选项,而辅助选项…

C语言实现-排序1

文章目录 &#x1f3af;引言&#x1f453;排序1.排序的概念以及运用1.1概念1.2运用1.3常见的排序算法 2.排序算法的实现2.1插入排序2.1.1直接插入排序2.1.2希尔排序 2.2选择排序2.2.1直接选择排序2.2.2堆排序 &#x1f947;结语 &#x1f3af;引言 欢迎来到HanLop博客的C语言数…

C#如何对某个词在字符串中出现的次数进⾏计数(LINQ)

文章目录 基础知识实现方法基础计数LINQ优化处理标点符号总结 LINQ&#xff08;Language-Integrated Query&#xff09;是C#和VB.NET中强大的查询语言&#xff0c;它可以用来查询集合、SQL数据库、XML文档等。在C#中&#xff0c;我们可以使用LINQ来简化对字符串中特定单词出现次…

C语言实现游戏2048(超详细!!!超易懂!!!)

2048是众所周知的一款经典游戏&#xff0c;在曾经没有智能电脑和手机的年代&#xff0c;也陪伴了我们许多年。那今天就让我们用C语言来回顾一下这款游戏吧~ 一、游戏2048的思路 2048游戏的玩法是在初始的时候&#xff0c;给玩家一个4*4格子的&#xff0c;其中内容全为空的棋盘…

基于SpringBoot+Vue的供应商管理系统(带1w+文档)

基于SpringBootVue的供应商管理系统(带1w文档) 基于SpringBootVue的供应商管理系统(带1w文档) 现今&#xff0c;互联网在我们的日常生活占据着日益重要的地位&#xff0c;我们也越来越离不开对移动设备、电脑等上网设备的使用。传统的供应商管理系统模式主要依靠管理人员纯手工…

PyQt6简易案例代码GUI界面小工具——实现二维码生成器+自定义前后背景色(练手正合适)

目录 专栏导读PyQt6的介绍PyQt6的主要特点包括&#xff1a;使用PyQt6开发应用程序的一般步骤&#xff1a; 库的安装1、初始化与界面设计2、设置前景色、背景色功能完整代码总结 专栏导读 &#x1f338; 欢迎来到Python办公自动化专栏—Python处理办公问题&#xff0c;解放您的双…

IP地址的构成

1. IPv4地址 IPv4地址是最早且目前仍然广泛使用的IP地址版本。由32位二进制数构成&#xff0c;应为32为二进制数太长了&#xff0c;所以我们通常用四个十进制数字来表示&#xff0c;每个数字之间用”.”分隔。这些数字的范围是0到255。IPv4地址的格式为&#xff1a; “A.B.C.…

2024世界机器人大会将于8月21日至25日在京举行

2024年的世界机器人大会预定于8月21日至25日&#xff0c;在北京经济技术开发区的北人亦创国际会展中心隆重举办。 本届大会以“共育新质生产力 共享智能新未来”为核心主题&#xff0c;将汇聚来自全球超过300位的机器人行业专家、国际组织代表、杰出科学家以及企业家&#xff0…

再启新征程——灵川县“灵秀山川”区域公共品牌发布会顺利举办

灵川县&#xff0c;自古便享有“楚越通衢&#xff0c;风气之先”的美誉&#xff0c;见证了无数文化的交流与融合。这里&#xff0c;土地肥沃&#xff0c;资源丰富&#xff0c;如同大自然的无尽宝库&#xff0c;孕育了琳琅满目的优质农特产品。立足于本地优势资源&#xff0c;灵…