本篇文章主要介绍如何使用ollama本地部署微软的Graph RAG,,Graph RAG成为RAG一种新范式,对于全局总结性问题表现突出,当开始的技术路线是
Qwen2
+vllm
+fastchat
本地部署Grapg RAG,但是embedding 的openai服务怎么都跑不起来,只好更换技术路线,由ollama一站式解决。但是中间也出现非常多的问题,比如Columns must be same length as key。跟着本篇文章使用ollama
+mistral-nemo
+mxbai-embed-large
实现本地的GraphRAG的部署,再也不用担心tokens花费不起啦
!
文章目录
- 一、前沿知识
- 1. GraphRAG
- 2. mistral-nemo
- 3.mxbai-embed-large
- 二、环境配置
- 三、ollama下载需要的模型
- 四、建立GraphRAG.index
- 五、提问测试
一、前沿知识
1. GraphRAG
Graph RAG是一种基于知识图谱的检索增强技术。通过构建图模型的知识表达,将实体和关系之间的联系用图的形式展示出来,然后利用大语言模型(LLM)进行检索增强。这种方法将知识图谱视为一个超大规模的词汇表,实体和关系则对应于单词,从而在检索时能够将实体和关系作为单元进行联合建模。
本项目目的即为在本地实现GraphRAG部署
2. mistral-nemo
Today, we are excited to release Mistral NeMo, a 12B model built in collaboration with NVIDIA. Mistral NeMo offers a large context window of up to 128k tokens. Its reasoning, world knowledge, and coding accuracy are state-of-the-art in its size category. As it relies on standard architecture, Mistral NeMo is easy to use and a drop-in replacement in any system using Mistral 7B.链接
We have released pre-trained base and instruction-tuned checkpoints checkpoints under the Apache 2.0 license to promote adoption for researchers and enterprises. Mistral NeMo was trained with quantisation awareness, enabling FP8 inference without any performance loss.
The following table compares the accuracy of the Mistral NeMo base model with two recent open-source pre-trained models, Gemma 2 9B, and Llama 3 8B.
本文使用mistral-nemo作为chat的LLM
3.mxbai-embed-large
Here, we provide several ways to produce sentence embeddings. Please note that you have to provide the prompt Represent this sentence for searching relevant passages: for query if you want to use it for retrieval. Besides that you don’t need any prompt. Our model also supports Matryoshka Representation Learning and binary quantization.
huggingface链接
本文使用mxbai-embed-large作为embedding的模型
模型选择方面最好和我的保持一致,这样不会出错!
额外的知识(之前的技术路线介绍,可跳过)
2. Qwen2-7B
Qwen2是Qwen大型语言模型的新系列。对于Qwen2,我们发布了一系列基础语言模型和指令调优语言模型,参数范围从5亿到720亿,包括一个混合专家模型。这个存储库包含了7B的Qwen2基础语言模型。
与最新的开源语言模型相比,包括之前发布的Qwen1.5,Qwen2在大多数开源模型中通常表现优越,并在一系列针对语言理解、语言生成、多语言能力、编码、数学、推理等基准测试中展示了与专有模型的竞争力。魔塔社区介绍
准备使用Qwen2-7B作为chatLLM
3. vLLM
vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务。vLLM 利用 PagedAttention,这是我们的新注意力算法,可有效管理注意力键和值。配备 PagedAttention 的 vLLM 重新定义了 LLM 服务的新技术水平:它提供比 HuggingFace Transformer 高 24 倍的吞吐量,而无需更改任何模型架构。
准备使用vLLM开启openai服务
4. fastchat
FastChat 是以 UC Berkeley 主导的 Large Model Systems Organization 所开源的面向 LLM 的训练、推理与评估的开放平台,通过该平台可以快速部署多模型的 LLM 服务,并且通过 Web UI 以及兼容 OpenAI API 的 RESTful API 访问。
准备使用fastchat开启embedding服务
二、环境配置
博主没有自己的卡,只能在autodl中租服务器跑,组的是4090单显卡,内存24GB,系统盘是80G。pytorch框架选择2.3.0,python版本号选择3.12.
创建虚拟环境
需要创建两个个虚拟环境,分别对应ollama,和graphrag:
conda create -n ollama python==3.11
conda create -n graphrag python==3.11
进入ollama环境,安装ollama,最好先conda init
一下,关闭终端再激活环境
conda activate ollama
pip install ollama
还需要额外安装一下ollama工具包,要不然无法使用,官网给的方法是:
curl -fsSL https://ollama.com/install.sh | sh
但是速度太慢,可以借鉴这篇博客进行安装:Ollama linux脚本快速安装教程(国内适用)
进入fastchat环境,安装fastchat:
conda activate fastchat
pip install fschat==0.2.35
进入graphrag环境,进行配置,可参考Ollama linux脚本快速安装教程(国内适用),讲脚本下载到本地修改后在安装,亲测速度会快很多。
新建一个终端,进入graphrag环境,安装graphrag
conda activate graphrag
pip install graphrag
然后创建一下工作目录
mkdir -p ./ragtest/input
创建知识库,这里我想测试一下中文的效果,再服务器上root/目录下创建rag.txt
文件,粘贴如下信息:
Graph RAG是一种基于知识图谱的检索增强技术。通过构建图模型的知识表达,将实体和关系之间的联系用图的形式展示出来,然后利用大语言模型(LLM)进行检索增强。这种方法将知识图谱视为一个超大规模的词汇表,实体和关系则对应于单词,从而在检索时能够将实体和关系作为单元进行联合建模。
GraphRAG项目是微软团队的一项创新研究,旨在优化基于检索增强生成(RAG)的问答系统,尤其是针对整个文本语料库的全局性问题,如“数据集的主要主题是什么?”这种查询聚焦的总结任务。这种方法不仅适用于直接检索,还能应对大规模文本索引带来的挑战。
关键论文理论依据:《从局部到全局:一个基于图形的RAG方法用于查询聚焦的总结》
作者:Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Jonathan Larson
所在机构:微软研究院、微软战略任务与技术部、微软首席技术官办公室
文中详细阐述了这一方案背后要解决的核心RAG准确率和传统图谱查询的问题:
传统的RAG方法在处理全局问题时表现不佳,例如询问整个文本数据集的主要主题。这类问题本质上是一种查询聚焦的总结任务(QFS),而现有的QFS方法无法扩展到典型RAG系统索引的大量文本中。因此,论文提出了一种结合两者优点的新方法,称为Graph RAG,以应对这一挑战。
使用检索增强生成 (RAG) 从外部知识源检索相关信息,使得大型语言模型 (LLM) 能够回答有 关私有和/或以前未见过的文档集合的问题。
然而,RAG 无法解决针对整个文本语料库的全局问题,例如“数据集中的主要主题是什么?”,因为这本质上是一个以查询为中心的摘要 (QFS) 任务,而不是明确的检索任务。
同时,之前的 QFS 方法 无法扩展到典型 RAG 系统索引的文本数量。
Graph RAG 的全局方法,结合了知识图谱生成,检索增强生成 (RAG) 和以查询为中心的摘要 (QFS),以支持人类
在整个文本语料库上进行语义建构。初步评估显示,与朴素 RAG 基线既包括答案的全面性,也包括答案的多样性,以及有利的与使用 map‐reduce 源文本摘要的全局但无图方法进行比较。对于 在需要对同一数据集进行许多全局查询的情况下,基于实体的图形索引中的根级社区摘要提供了一种数据索引,它既优于 朴素 RAG,又以极低的token成本实现了与其他全局方法相媲美的性能。
何时使用 GraphRAG
它可以从检索前、检索后和即时压缩的角度解决上述 RAG 的一些局限性,考虑到知识图谱的检索和推理的背景。
图形检索专注于通过获取相关信息来增强上下文,而图形推理则适用于如何在 RAG 中遍历和搜索信息(例如分块和上下文输入)。
预检索可以利用知识图谱索引来获取相关文档。通过基于知识图谱中的节点和边对文档进行语义索引,它直接检索语义相关的文档。
该过程涉及考虑是否获取节点或子图。提取节点涉及将用户查询与分块节点进行比较以找到最相似的节点,并使用它们的连接路径作为查询语法。
然而,这种方法需要指定在路径中获取多少个节点,并且很大程度上依赖于用于创建知识图谱的信息提取模型,突出了模型性能的重要性。
此外,可变长度边 (VLE) 可用于获取相关信息,因此需要优化数据库以实现高效检索。数据库管理员和机器学习工程师参与的数据库设计和优化讨论对于提高性能至关重要。
子图涉及获取连接到相关节点的自我图,可能嵌入多个相关的自我图以将整体上下文与用户的查询进行比较。
由于所使用的嵌入技术不同,性能也存在差异,因此该方法需要进行各种图嵌入实验。
后检索涉及重新排序过程,该过程和谐地使用来自 RAG 和 GraphRAG 的值。通过利用来自 GraphRAG 的语义搜索值以及 RAG 的相似性搜索值,它可以生成上下文。GraphRAG 的值允许验证检索的语义基础,从而提高获取信息的准确性。
对 vectorDB 和 GraphDB 使用单个数据库允许在同一个数据库内进行语义(GraphRAG)和向量(RAG)索引,从而有助于验证检索准确性并改进不准确性。
提示压缩受益于提示工程期间的图形信息,例如决定将哪些块信息注入提示中。
图表可以根据查询上下文和文档之间的关系,在检索后仅返回相关信息。这样可以追踪不相关信息的来源,从而进行改进。
例如,如果产生了不适当的响应,则可以使用图形查询追溯到有问题的部分并立即纠正。
总体而言,GraphRAG 通过集成知识图谱技术来更好地检索信息、推理和生成上下文,从而提供了一种全面的方法来解决 RAG 的局限性,从而提高了生成的响应的准确性和相关性。
初始化工作目录
python -m graphrag.index --init --root ./ragtest
修改settings.yaml文件:
encoding_model: cl100k_base
skip_workflows: []
llm:
api_key: ollama
type: openai_chat # or azure_openai_chat
model: mistral-nemo
model_supports_json: true # recommended if this is available for your model.
#max_tokens: 10000
#request_timeout: 210.0
api_base: http://localhost:11434/v1/
# api_version: 2024-02-15-preview
# organization: <organization_id>
# deployment_name: <azure_model_deployment_name>
#tokens_per_minute: 150_000 # set a leaky bucket throttle
#requests_per_minute: 10_000 # set a leaky bucket throttle
# max_retries: 10
# max_retry_wait: 10.0
# sleep_on_rate_limit_recommendation: true # whether to sleep when azure suggests wait-times
# concurrent_requests: 25 # the number of parallel inflight requests that may be made
parallelization:
stagger: 0.3
# num_threads: 50 # the number of threads to use for parallel processing
async_mode: threaded # or asyncio
embeddings:
## parallelization: override the global parallelization settings for embeddings
async_mode: threaded # or asyncio
llm:
api_key: ollama
type: openai_embedding # or azure_openai_embedding
model: mxbai-embed-large
api_base: http://localhost:11434/v1/
# api_version: 2024-02-15-preview
# organization: <organization_id>
# deployment_name: <azure_model_deployment_name>
# tokens_per_minute: 150_000 # set a leaky bucket throttle
# requests_per_minute: 10_000 # set a leaky bucket throttle
# max_retries: 10
# max_retry_wait: 10.0
# sleep_on_rate_limit_recommendation: true # whether to sleep when azure suggests wait-times
# concurrent_requests: 25 # the number of parallel inflight requests that may be made
# batch_size: 16 # the number of documents to send in a single request
# batch_max_tokens: 8191 # the maximum number of tokens to send in a single request
# target: required # or optional
chunks:
size: 1200
overlap: 100
group_by_columns: [id] # by default, we don't allow chunks to cross documents
input:
type: file # or blob
file_type: text # or csv
base_dir: "input"
file_encoding: utf-8
file_pattern: ".*\\.txt$"
cache:
type: file # or blob
base_dir: "cache"
# connection_string: <azure_blob_storage_connection_string>
# container_name: <azure_blob_storage_container_name>
storage:
type: file # or blob
base_dir: "output/${timestamp}/artifacts"
# connection_string: <azure_blob_storage_connection_string>
# container_name: <azure_blob_storage_container_name>
reporting:
type: file # or console, blob
base_dir: "output/${timestamp}/reports"
# connection_string: <azure_blob_storage_connection_string>
# container_name: <azure_blob_storage_container_name>
entity_extraction:
## llm: override the global llm settings for this task
## parallelization: override the global parallelization settings for this task
## async_mode: override the global async_mode settings for this task
prompt: "prompts/entity_extraction.txt"
entity_types: [organization,person,geo,event]
max_gleanings: 1
summarize_descriptions:
## llm: override the global llm settings for this task
## parallelization: override the global parallelization settings for this task
## async_mode: override the global async_mode settings for this task
prompt: "prompts/summarize_descriptions.txt"
max_length: 500
claim_extraction:
## llm: override the global llm settings for this task
## parallelization: override the global parallelization settings for this task
## async_mode: override the global async_mode settings for this task
# enabled: true
prompt: "prompts/claim_extraction.txt"
description: "Any claims or facts that could be relevant to information discovery."
max_gleanings: 1
community_reports:
## llm: override the global llm settings for this task
## parallelization: override the global parallelization settings for this task
## async_mode: override the global async_mode settings for this task
prompt: "prompts/community_report.txt"
max_length: 2000
max_input_length: 8000
cluster_graph:
max_cluster_size: 10
embed_graph:
enabled: false # if true, will generate node2vec embeddings for nodes
# num_walks: 10
# walk_length: 40
# window_size: 2
# iterations: 3
# random_seed: 597832
umap:
enabled: false # if true, will generate UMAP embeddings for nodes
snapshots:
graphml: false
raw_entities: false
top_level_nodes: false
local_search:
# text_unit_prop: 0.5
# community_prop: 0.1
# conversation_history_max_turns: 5
# top_k_mapped_entities: 10
# top_k_relationships: 10
# llm_temperature: 0 # temperature for sampling
# llm_top_p: 1 # top-p sampling
# llm_n: 1 # Number of completions to generate
# max_tokens: 12000
global_search:
# llm_temperature: 0 # temperature for sampling
# llm_top_p: 1 # top-p sampling
# llm_n: 1 # Number of completions to generate
# max_tokens: 12000
# data_max_tokens: 12000
# map_max_tokens: 1000
# reduce_max_tokens: 2000
# concurrency: 32
之后需要修改原代码的几处地方,参考博客修改官方原始代码重要
!
三、ollama下载需要的模型
ollama下载模型也很简单:
新建一个端口进入ollama虚拟环境,开启ollama serve:
ollama serve
再新建一个端口进入ollama虚拟环境,进行pull模型(总共需要三个端口):
ollama pull mistral-nemo
ollama pull mxbai-embed-large
pull的过程需要耐心等待,pull完可以输入ollama list
查看模型服务,也可以通过ollama rm -modelname
删除指定模型。
pull之后,serve的窗口不要关闭。
四、建立GraphRAG.index
基于上面的工作,可以一键建立graphRAG索引,过程比较慢,需要耐心等待20min。在graphrag环境中输入:
python -m graphrag.index --root ./ragtest
等待建立完成即可。
如果模型选择和博主保持一致的话应该不会出现问题,根据之前debug的经验,如果报错有几个地方需要注意:
- setting.yaml 模型名是否正确
- ollama serve是否正常
- 查看
ragtest/output/(date)/reports/indexing-engine.log
最后的报错看具体是什么问题。 - Columns must be same length as key
五、提问测试
有两种提问方法,分别是全局搜素和本地搜素,分别进行测试:
全局(global)搜索
python -m graphrag.query \
--root ./ragtest \
--method global \
"GraphRAG有什么优势?"
回答:
GraphRAG, a novel approach to information retrieval and generation, offers several advantages over traditional methods:
1. **Contextual Understanding**
GraphRAG can generate more relevant and coherent responses by considering the context and relationships between data points [Data: Reports (1), (3)]. Unlike traditional retrieval methods that simply rank documents based on keyword matching, GraphRAG understands the semantic meaning of questions and the relationships between entities in its knowledge graph.
2. **Improved Language Model Performance**
By providing structured data from a knowledge graph, GraphRAG can improve the performance of language models [Data: Reports (2)]. This allows the model to generate more factual and relevant responses, enhancing the overall quality of generated text.
3. **Handling Complex Queries**
GraphRAG has the ability to handle complex queries and provide more accurate answers [Data: Report (4)]. It achieves this by understanding the semantic meaning of questions and leveraging the relationships between entities in its graph structure.
In summary, GraphRAG's strengths lie in its ability to understand context, improve language model performance, and handle complex queries effectively. These advantages make it a powerful tool for information retrieval and generation tasks.
本地搜索
python -m graphrag.query \
--root ./ragtest \
--method local \
"GraphRAG全称是什么?"
回答
Graph Retrieval-Augmented Generation,或简称为GraphRAG。它是一种技术,将知识图谱技术集成到检索增强生成(Retrieval-Augmented Generation,RAG)系统中,以改善信息检索、推理和上下文生成的准确性和相关性。
**GraphRAG的作用:**
GraphRAG通过集成知识图谱技术来更好地检索信息、推理和生成上下文,从而提供了一种全面的方法来解决RAG的局限性。它可以在检索后仅返回相关信息,追踪不相关信息的来源,并进行改进。例如,如果产生了不适当的响应,则可以使用图形查询追溯到有问题的部分并立即纠正。
**数据支持:**
- 实体表(Entities):GraphRAG(0),Retrieval-Augmented Generation(1),Knowledge Graph Techniques(2)
- 关系表(Relationships):GRAPHRAG与RETRIEVAL-AUGMENTED GENERATION的关系(0),GRAPHRAG与KNOWLEDGE GRAPH TECHNIQUES的关系(1)
- 源表(Sources):信息注入提示中的文本(0)
至此使用ollama本地部署GraphRAG成功!