LangChain - 构建知识图谱提升RAG

news2024/11/20 20:41:10

本文翻译整理自:Enhancing RAG-based application accuracy by constructing and leveraging knowledge graphs
https://blog.langchain.dev/enhancing-rag-based-applications-accuracy-by-constructing-and-leveraging-knowledge-graphs/
code : https://github.com/tomasonjo/blogs/blob/master/llm/enhancing_rag_with_graph.ipynb?ref=blog.langchain.dev


文章目录

    • 一、使用 Neo4j 和 LangChain 在 RAG 应用程序中构建和检索知识图谱信息的实用指南
    • 二、创建知识图谱
      • Neo4j 环境设置
    • 三、数据摄取
    • 四、RAG 的混合检索
      • 非结构化数据检索器
      • 图检索器
      • 最后的retriever
    • 五、定义RAG链
    • 六、总结


一、使用 Neo4j 和 LangChain 在 RAG 应用程序中构建和检索知识图谱信息的实用指南

编者注:以下是 Tomaz Bratanic 的博客文章,他专注于 Neo4j的 Graph ML 和 GenAI 研究。Neo4j 是一家图形数据库和分析公司,帮助组织深入、轻松、快速地发现数十亿数据连接中隐藏的关系和模式。

图检索增强生成(Graph RAG)正在蓬勃发展,并成为传统矢量搜索检索方法的强大补充。这种方法利用图数据库的结构化性质,将数据组织为节点和关系,以增强检索信息的深度和上下文。

img

知识图示例。


图表非常擅长以结构化方式表示和存储异构且互连的信息,轻松捕获不同数据类型之间的复杂关系和属性。

相比之下,向量数据库通常难以处理此类结构化信息,因为它们的优势在于通过高维向量处理非结构化数据。在 RAG 应用程序中,您可以将结构化图形数据与通过非结构化文本进行矢量搜索相结合,以实现两全其美,这正是我们在本博文中要做的。


二、创建知识图谱

知识图很棒,但如何创建一个呢?

构建知识图通常是利用基于图的数据表示的力量中最具挑战性的步骤。它涉及收集和构建数据,这需要对域和图建模有深入的了解。为了简化这个过程,我们一直在尝试LLM。

LLM凭借对语言和上下文的深刻理解,可以自动化知识图谱创建过程的重要部分。通过分析文本数据,这些模型可以识别实体,理解它们之间的关系,并建议如何最好地在图形结构中表示它们。

作为这些实验的结果,我们在 LangChain 中添加了第一个版本的图构建模块,我们将在这篇博文中进行演示。

该代码可在 GitHub上获取。


Neo4j 环境设置

您需要按照本博客文章中的示例设置 Neo4j 实例。

最简单的方法是在Neo4j Aura上启动一个免费实例 ,它提供 Neo4j 数据库的云实例。

或者,您还可以通过下载Neo4j Desktop 应用程序并创建本地数据库实例来设置 Neo4j 数据库的本地实例 。

os.environ["OPENAI_API_KEY"] = "sk-"
os.environ["NEO4J_URI"] = "bolt://localhost:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "password"

graph = Neo4jGraph()

此外,您必须提供 OpenAI 密钥,因为我们将在本博文中使用他们的模型。


三、数据摄取

在本演示中,我们将使用 伊丽莎白一世的 维基百科页面。我们可以利用 LangChain 加载器 无缝地从维基百科获取和分割文档。

# Read the wikipedia article
raw_documents = WikipediaLoader(query="Elizabeth I").load()

# Define chunking strategy
text_splitter = TokenTextSplitter(chunk_size=512, chunk_overlap=24)
documents = text_splitter.split_documents(raw_documents[:3])

现在是时候根据检索到的文档构建图表了。为此,我们实现了一个 LLMGraphTransformer模块,可以显着简化在图数据库中构建和存储知识图。

llm=ChatOpenAI(temperature=0, model_name="gpt-4-0125-preview")
llm_transformer = LLMGraphTransformer(llm=llm)

# Extract graph data
graph_documents = llm_transformer.convert_to_graph_documents(documents)

# Store to neo4j
graph.add_graph_documents(
  graph_documents, 
  baseEntityLabel=True, 
  include_source=True
)

您可以定义知识图谱生成链使用哪个LLM。

目前,我们仅支持 OpenAI 和 Mistral 的函数调用模型。然而,我们计划在未来扩大LLM的选择范围。在此示例中,我们使用最新的 GPT-4。

请注意,生成的图表的质量很大程度上取决于您使用的模型。从理论上讲,你总是想使用最有能力的。

LLM 图形转换器返回图形文档,可以通过该 add_graph_documents 方法将其导入 Neo4j。

baseEntityLabel 参数 __Entity__ 为每个节点分配一个附加标签,从而增强索引和查询性能。

include_source 参数将节点链接到其原始文档,从而促进数据可追溯性和上下文理解。


您可以在 Neo4j 浏览器中检查生成的图表。

img

生成的图表的一部分

请注意,为了清楚起见,该图像仅代表生成的图表的一部分。


四、RAG 的混合检索

图生成后,我们将使用混合检索方法,将向量和关键字索引与 RAG 应用程序的图检索相结合。

img

结合混合(向量+关键字)和图检索方法。图片由作者提供。


该图说明了检索过程,从用户提出问题开始,然后将问题定向到 RAG 检索器。

该检索器采用关键字和向量搜索来搜索非结构化文本数据,并将其与从知识图谱中收集的信息相结合。

由于 Neo4j 同时具有关键字索引和向量索引,因此您可以使用单个数据库系统实现所有三个检索选项。从这些来源收集的数据将输入LLM以生成并提供最终答案。


非结构化数据检索器

您可以使用该 Neo4jVector.from_existing_graph 方法将关键字和向量检索添加到文档中。

此方法为混合搜索方法配置关键字和向量搜索索引,以标记为 的节点为目标 Document

此外,如果文本嵌入值缺失,它还会计算它们。

vector_index = Neo4jVector.from_existing_graph(
    OpenAIEmbeddings(),
    search_type="hybrid",
    node_label="Document",
    text_node_properties=["text"],
    embedding_node_property="embedding"
)

然后可以用该方法调用向量索引 similarity_search


图检索器

另一方面,配置图检索更加复杂,但提供了更多自由。

在这个例子中,我们将使用全文索引来识别相关节点,然后返回它们的直接邻居。

img图形检索器。图片由作者提供。

图检索器首先识别输入中的相关实体。为简单起见,我们指示 LLM 识别人员、组织和位置。为此,我们将使用 LCEL 和新添加的方法 with_structured_output 来实现这一点。

# Extract entities from text
class Entities(BaseModel):
    """Identifying information about entities."""

    names: List[str] = Field(
        ...,
        description="All the person, organization, or business entities 
        that " "appear in the text",
    )

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are extracting organization and person entities from the 
            text.",
        ),
        (
            "human",
            "Use the given format to extract information from the
             following"
            "input: {question}",
        ),
    ]
)

entity_chain = prompt | llm.with_structured_output(Entities)

让我们测试一下:

entity_chain.invoke({"question": "Where was Amelia Earhart born?"}).names
# ['Amelia Earhart']

太好了,现在我们可以检测问题中的实体,让我们使用全文索引将它们映射到知识图谱。首先,我们需要定义一个全文索引和一个函数,该函数将生成允许一些拼写错误的全文查询,这里我们不会详细介绍。

graph.query(
    "CREATE FULLTEXT INDEX entity IF NOT EXISTS FOR (e:__Entity__) ON EACH [e.id]")

def generate_full_text_query(input: str) -> str:
    """
    Generate a full-text search query for a given input string.

    This function constructs a query string suitable for a full-text
    search. It processes the input string by splitting it into words and 
    appending a similarity threshold (~2 changed characters) to each
    word, then combines them using the AND operator. Useful for mapping
    entities from user questions to database values, and allows for some 
    misspelings.
    """
    full_text_query = ""
    words = [el for el in remove_lucene_chars(input).split() if el]
    for word in words[:-1]:
        full_text_query += f" {word}~2 AND"
    full_text_query += f" {words[-1]}~2"
    return full_text_query.strip()

现在让我们把它们放在一起。

# Fulltext index query
def structured_retriever(question: str) -> str:
    """
    Collects the neighborhood of entities mentioned
    in the question
    """
    result = ""
    entities = entity_chain.invoke({"question": question})
    for entity in entities.names:
        response = graph.query(
            """CALL db.index.fulltext.queryNodes('entity', $query, 
            {limit:2})
            YIELD node,score
            CALL {
              MATCH (node)-[r:!MENTIONS]->(neighbor)
              RETURN node.id + ' - ' + type(r) + ' -> ' + neighbor.id AS 
              output
              UNION
              MATCH (node)<-[r:!MENTIONS]-(neighbor)
              RETURN neighbor.id + ' - ' + type(r) + ' -> ' +  node.id AS 
              output
            }
            RETURN output LIMIT 50
            """,
            {"query": generate_full_text_query(entity)},
        )
        result += "\n".join([el['output'] for el in response])
    return result

structured_retriever 函数首先检测用户问题中的实体。接下来,它迭代检测到的实体并使用 Cypher 模板来检索相关节点的邻域。我们来测试一下吧!

print(structured_retriever("Who is Elizabeth I?"))
# Elizabeth I - BORN_ON -> 7 September 1533
# Elizabeth I - DIED_ON -> 24 March 1603
# Elizabeth I - TITLE_HELD_FROM -> Queen Of England And Ireland
# Elizabeth I - TITLE_HELD_UNTIL -> 17 November 1558
# Elizabeth I - MEMBER_OF -> House Of Tudor
# Elizabeth I - CHILD_OF -> Henry Viii
# and more...

最后的retriever

正如我们在开始时提到的,我们将结合非结构化和图形检索器来创建将传递给 LLM 的最终上下文。

def retriever(question: str):
    print(f"Search query: {question}")
    structured_data = structured_retriever(question)
    unstructured_data = [el.page_content for el in vector_index.similarity_search(question)]
    final_data = f"""Structured data:
{structured_data}
Unstructured data:
{"#Document ". join(unstructured_data)}
    """
    return final_data

当我们处理 Python 时,我们可以使用 f 字符串简单地连接输出。


五、定义RAG链

我们已经成功实现了 RAG 的检索组件。接下来,我们将引入一个提示,利用集成混合检索器提供的上下文来生成响应,从而完成 RAG 链的实现。

template = """Answer the question based only on the following context:
{context}

Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

chain = (
    RunnableParallel(
        {
            "context": _search_query | retriever,
            "question": RunnablePassthrough(),
        }
    )
    | prompt
    | llm
    | StrOutputParser()
)

最后,我们可以继续测试我们的混合 RAG 实施。

chain.invoke({"question": "Which house did Elizabeth I belong to?"})
# Search query: Which house did Elizabeth I belong to?
# 'Elizabeth I belonged to the House of Tudor.'

我还集成了查询重写功能,使 RAG 链能够适应允许后续问题的对话设置。鉴于我们使用向量和关键字搜索方法,我们必须重写后续问题以优化我们的搜索过程。

chain.invoke(
    {
        "question": "When was she born?",
        "chat_history": [("Which house did Elizabeth I belong to?",
        "House Of Tudor")],
    }
)
# Search query: When was Elizabeth I born?
# 'Elizabeth I was born on 7 September 1533.'

您可以观察到它 When was she born? 首先被重写为 When was Elizabeth I born? .然后使用重写的查询来检索相关上下文并回答问题。


六、总结

随着 的引入 LLMGraphTransformer,生成知识图的过程现在应该更加流畅且更容易访问,让任何希望利用知识图提供的深度和上下文来增强基于 RAG 的应用程序的人变得更加容易。这只是一个开始,我们计划了很多改进。

如果您对我们与LLM生成图表有任何见解、建议或疑问,请随时与我们联系。

该代码可在 GitHub上获取。


2024-05-22(三)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682929.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在gitlab CICD中 小试 hooks:pre_get_sources_script 功能

参考链接&#xff1a; hooks:pre_get_sources_script 功能简介 hooks:pre_get_sources_script 是gitlab CICD中的一个功能&#xff0c;该功能可以指定在克隆 Git 仓库和任何子模块之前要在执行器上执行的某些命令。例如&#xff1a; 调整 Git 配置导出跟踪变量 下来简单给…

修改默认时区,默认语言,默认国家

确认时区&#xff0c;语言&#xff0c;国家 build/make/target/product/languages_default.mkframeworks/base/packages/SettingsLib/res/xml/timezones.xml设备mk中添加相关内容 PRODUCT_PROPERTY_OVERRIDES \persist.sys.timezoneEurope/AmsterdamPRODUCT_PROPERTY_OVERRI…

Centos7离线安装RabbitMQ教程

目录 安装包准备开始安装1. 创建目录2. 上传文件3. 安装erlang语言4. 安装socat5. 安装rabbitmq6. 启动、停止rabbitmq7. 设置开机启动8. 开启web界面管理工具9. 开启防火墙(root)10. 访问页面11. 附录 安装包准备 &#xff08;1&#xff09;准备RabbitMQ的安装包&#xff08;…

adb卸载系统垃圾应用

//获取包名 输入如下代码&#xff0c;然后在打开和关闭要获取包名的app就会打印出该app的包名 adb shell am monitor //卸载系统应用 -k会保留用户数据&#xff0c;不包含-k则不会保留用户数据 adb shell pm uninstall -k --user 0 包名 &#xff08;包名一般为&#xff1a;c…

探索k8s集群中kubectl的陈述式资源管理

一、k8s集群资源管理方式分类 1.1陈述式资源管理方式&#xff1a;增删查比较方便&#xff0c;但是改非常不方便 使用一条kubectl命令和参数选项来实现资源对象管理操作 即通过命令的方式来实 1.2声明式资源管理方式&#xff1a;yaml文件管理 使用yaml配置文件或者json配置文…

动态规划(算法)---01.斐波那契数列模型_第N个泰波那契数

前言&#xff1a; 有一个很著名的公式 “程序数据结构算法”。 算法是模型分析的一组可行的&#xff0c;确定的&#xff0c;有穷的规则。通俗的说&#xff0c;算法也可以理解为一个解题步骤&#xff0c;有一些基本运算和规定的顺序构成。但是从计算机程序设计的角度看&#xff…

全栈实现发送验证码注册账号 全栈开发之路——全栈篇(3)

全栈开发一条龙——前端篇 第一篇&#xff1a;框架确定、ide设置与项目创建 第二篇&#xff1a;介绍项目文件意义、组件结构与导入以及setup的引入。 第三篇&#xff1a;setup语法&#xff0c;设置响应式数据。 第四篇&#xff1a;数据绑定、计算属性和watch监视 第五篇 : 组件…

LangChain带你轻松玩转ChatGPT等大模型开发

大家好&#xff0c;我是herosunly。985院校硕士毕业&#xff0c;现担任算法研究员一职&#xff0c;热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名&#xff0c;CCF比赛第二名&#xff0c;科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

CDN管理平台安装说明

CDN管理平台安装说明 系统需求 操作系统&#xff1a;Linux CPU不少于1核心 可用内存不少于1G 可用硬盘空间不小于10G 对于每日千万访问以上的CDN系统推荐配置如下&#xff1a; CPU不少于8核心 可用内存不少于8G 可用硬盘空间不小于200G 准备工作 在安装GoEdge之前&#xff0…

集中电表抄表系统

1.集中电表抄表系统的简述 集中电表抄表系统是一种现代化电力管理方法&#xff0c;它通过自动化的形式搜集、解决与分析电力耗费数据信息&#xff0c;大大提升了电力行业经营效率。这类系统的主要目标是替代传统的人工抄水表方法&#xff0c;降低不正确&#xff0c;提升数据的…

【linux】详解vim编辑器

基本指令 【linux】详解linux基本指令-CSDN博客 【linux】详解linux基本指令-CSDN博客 vim的基本概念 vim有很多模式&#xff0c;小编只介绍三种就能让大家玩转vim了&#xff0c; 分别是&#xff1a; 正常/普通/命令模式 插入模式 末行/底行模式 命令模式 控制屏幕光标的…

Java面试八股之进程和线程的区别

Java进程和线程的区别 定义与作用&#xff1a; 进程&#xff1a;在操作系统中&#xff0c;进程是程序执行的一个实例&#xff0c;是资源分配的最小单位。每个进程都拥有独立的内存空间&#xff0c;包括代码段、数据段、堆空间和栈空间&#xff0c;以及操作系统分配的其他资源…

IT革命浪潮:技术革新如何改变我们的生活与工作

一、技术革新与行业应用 当前的IT行业正处于前所未有的技术革新阶段。其中&#xff0c;量子计算和虚拟现实是两项引人注目的技术。 量子计算&#xff1a;量子计算以其超越传统计算的潜力&#xff0c;正在逐步从理论走向实践。在材料科学、药物研发和气候模型等复杂计算领域&a…

前端学习-day08

文章目录 01-相对定位02-绝对定位03-绝对定位居中04-固定定位05-堆叠顺序06-CSS精灵-基本使用07-案例-京东服务08-字体图标10.垂直对齐方式11-过度12-透明度13-光标类型14-轮播图 01-相对定位 <!DOCTYPE html> <html lang"en"> <head><meta ch…

计算机网络学习小结_数据链路层

数据链路和帧 帧&#xff1a;数据链路层传输基本单元。链路层将网络层传过来的数据构成帧发到链路上&#xff0c;并将发到链路层的帧取出数据交给网络层 数据报/分组/包&#xff1a;网络层传输基本单元 三个基本问题 即封装成帧、透明传输、差错检测 封装成帧 概念&#…

阿木实验室联合openEuler开源社区-Embedded SlG组(海思项目)参加第五届「开源之夏」,参赛学生火热招募中...

开源之夏是中国科学院软件研究所发起的“开源软件供应链点亮计划”系列暑期活动&#xff0c;旨在鼓励高校学生积极参与开源软件的开发维护&#xff0c;促进优秀开源软件社区的蓬勃发展。活动联合各大开源社区&#xff0c;针对重要开源软件的开发与维护提供项目开发任务&#xf…

java+ vue.js+uniapp一款基于云计算技术的企业级生产管理系统,云MES源码 MES系统如何与ERP系统集成?

java vue.jsuniapp一款基于云计算技术的企业级生产管理系统&#xff0c;云MES源码&#xff0c;MES系统如何与ERP系统集成&#xff1f; MES系统&#xff08;制造执行系统&#xff09;与ERP系统&#xff08;企业资源规划系统&#xff09;的集成可以通过多种方式实现&#xff0c;这…

3D工业视觉

前言 本文主要介绍3D视觉技术、工业领域的应用、市场格局等&#xff0c;主要技术包括激光三角测量、结构光、ToF、立体视觉。 一、核心内容 3D视觉技术满足工业领域更高精度、更高速度、更柔性化的需求&#xff0c;扩大工业自动化的场景。 2D视觉技术基于物体平面轮廓&#…

LabVIEW超高温高压流变仪测试系统

LabVIEW超高温高压流变仪测试系统 超高温高压流变仪广泛应用于石油、天然气、化工等行业&#xff0c;用于测量材料在极端条件下的流变特性。随着计算机技术、测试技术和电子仪器技术的快速发展&#xff0c;传统的流变仪测试方式已无法满足现代工业的需求。因此&#xff0c;开发…

JavaFX学习教程一

一、准备工作 Jdk 从 1.8 起支持 JavaFx&#xff0c;到 Jdk 11 不再包含 JavaFx&#xff0c;而是改为 OpenJFX&#xff0c;需要另行安装。 以下是JavaFX的官方教程&#xff1a; java8(java1.8)的客户端技术说明指南(开发工具为NetBeans IDE )&#xff1a;客户端技术&#xf…