GraphRAG：基于实体的本地搜索方法:知识图谱与非结构化数据的融合

news2026/3/23 4:10:47

GraphRAG：基于实体的本地搜索方法:知识图谱与非结构化数据的融合

在自然语言处理和信息检索领域,如何有效地结合结构化知识和非结构化文本数据一直是一个重要的研究方向。本文介绍一种基于实体的本地搜索方法,该方法巧妙地融合了知识图谱中的结构化数据和输入文档中的非结构化数据,以增强大语言模型(LLM)在查询时的上下文理解能力。这种方法特别适用于回答需要理解输入文档中提到的特定实体的问题(例如,“洋甘菊的治疗特性是什么?”)。

方法概述:

实体提取:给定用户查询和可选的对话历史,该方法首先从知识图谱中识别出与用户输入在语义上相关的一组实体。
知识图谱访问:这些识别出的实体作为访问知识图谱的入口点,使系统能够提取更多相关信息,如:
- 相连的实体
- 实体间的关系
- 实体的协变量
- 社区报告
文本块提取:同时,系统还从原始输入文档中提取与已识别实体相关的文本块。
候选数据源优先级排序:系统对这些候选数据源进行优先级排序和筛选,以适应预定义大小的单个上下文窗口。
响应生成:利用构建的上下文,生成对用户查询的响应。

核心组件:

LocalSearch类:
主要参数包括:
- llm: 用于响应生成的OpenAI模型对象
- context_builder: 用于从知识模型对象集合准备上下文数据的构建器
- system_prompt: 用于生成搜索响应的提示模板
- response_type: 描述所需响应类型和格式的自由文本
- llm_params: 传递给LLM调用的额外参数字典
- context_builder_params: 传递给context_builder对象的额外参数字典
- callbacks: 可选的回调函数,用于为LLM的完成流式处理事件提供自定义事件处理程序
数据流程:
- 用户查询 → 实体描述嵌入 → 提取实体
- 提取实体 → 实体-文本单元映射 → 候选文本单元 → 排序+过滤 → 优先文本单元
- 提取实体 → 实体-报告映射 → 候选社区报告 → 排序+过滤 → 优先社区报告
- 提取实体 → 实体-实体关系 → 候选实体 → 排序+过滤 → 优先实体
- 提取实体 → 实体-实体关系 → 候选关系 → 排序+过滤 → 优先关系
- 提取实体 → 实体-协变量映射 → 候选协变量 → 排序+过滤 → 优先协变量
- 对话历史 → 对话历史
- 以上所有优先级数据 + 对话历史 → 响应生成