如何基于 langchain与 LLM 构建自己的知识库系统

如何基于 langchain与 `LLM` 构建自己的知识库系统

前些时候字节上了自己的扣子，用来构建我们自己的 agent AI 实战：手把手教你使用「扣子/coze」来搭建个人blog知识库 - 掘金 (juejin.cn)[1] 受到启发，想在本地或者自己的服务器上面搭建一个知识库，所以就有了本文。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

什么是 `RAG`

RAG 是retrieval-augmented-generation的缩写，翻译为中文的意思就检索增强，以基于最新，最准确的数据建立LLM 的语料知识库。

`LLM` 现存问题

我们知道 LLM 的知识库是通过现有的网络公开的数据作为数据源来训练的，现在公开的很多模型他们基于的训练数据会比我们现在网络上公开的数据早很多，那自然就会产生一种问题，网络上最新的数据和知识 LLM 是不知道。还有一种情况就是很多企业他们对自己的数据的安全做的很好，也就是私有化数据（这些数据是有价值的，也是企业的立足之本）。这些数据网络上肯定是不存在，那自然 LLM 也是不知道的。

我们在提问LLM 对于一些不知道的知识时候，LLM 很多时候是不知道如何回答问题的。甚至会对我们的问题进行胡诌随机回答，也就是瞎说。

如何解决

那如何让 LLM 知道这些最新/私有的数据的知识呢❓

那就是 RAG。通过将模型建立在外部知识来源的基础上来补充回答。从而提高 LLM 生成回答的质量。

在基于 LLM 实现的问答系统中使用 RAG 有三方面的好处：

• 确保 LLM 可以回答最新，最准确的内容。并且用户可以访问模型内容的来源，确保可以检查其声明的准确性并最终可信。
• 通过将 LLM 建立在一组外部的、可验证的事实数据之上，该模型将信息提取到其参数中的机会更少。这减少了 LLM 泄露敏感数据或“幻觉”不正确或误导性信息的机会。
• RAG 还减少了用户根据新数据不断训练模型并随着数据的变化更新训练参数的需要。通过这种方式企业可以减低相关财务成本。

现在支撑所有基础模型的是一种称为 transformer 的 AI 架构。它将大量原始数据转换为其基本结构的压缩表示形式。从这种原始表示开始，基础模型可以适应各种任务，并对标记的、特定于领域的知识进行一些额外的微调。

但是，仅靠微调很少能为模型提供在不断变化的环境中回答高度具体问题所需的全部知识。所以当时的 Facebook提出了 RAG，让 LLM 能够访问训练数据之外的信息。RAG 允许 LLM 建立在专门的知识体系之上，以更准确的方式回答问题。

安装 `langchain` 相关依赖包

• pip install langchain
• pip install langchain-community
• pip install langchain-core
• pip install langchain-experimental
• pip install langchain-experimental
• pip install “langserve[all]”
• pip install langchain-cli
• pip install langsmith

实现

OpenAI 相关配置

     os.environ["AZURE_OPENAI_ENDPOINT"] = ""
     os.environ["AZURE_OPENAI_API_KEY"] = ""

embedding model 账户配置


     os.environ["AZURE_OPENAI_ENDPOINT"] = ""
     os.environ["AZURE_OPENAI_API_KEY"] = ""
     os.environ["OPENAI_API_VERSION"] = "2023-05-15"
     os.environ["OPENAI_API_TYPE"] = "azure"

`RAG` 增强检索的流程图

代码执行流程

• 加载 langchain 相关包
• 加载 url 网页的文档并生成 langchain Document raw_documents
• 将 raw_documents 拆分为适合 embedding model 能够处理大小的 chunk 小文档。
• 使用 embedding model API 将小的 chunk 向量化，并保存向量数据库
• 构建 ``RAG prompt 提示，并使用变量 {context} {question}, 并限定回答问题所使用的文本
• 使用 LCEL 表达式构建 RAG chain
• 在 app/server.py 中添加 add_routes(app, rag_chroma_chain, path="/dify") 代码
• 执行代码 langchain serve 启动服务
代码实现

导入 langchain 的百度千帆 embedding model

定义 embedding model的初始化


 from langchain_community.embeddings import QianfanEmbeddingsEndpoint
 import os
 def embedQianfan():
     os.environ["QIANFAN_AK"] = ""
     os.environ["QIANFAN_SK"] = ""
     embed = QianfanEmbeddingsEndpoint()
     return embed

定义 OpenAI 实现

根据自己的账户情况去配置相关参数

 def openai`LLM `() -> AzureChatOpenAI:
     # 设置环境变量
     os.environ["AZURE_OPENAI_ENDPOINT"] = ""
     os.environ["AZURE_OPENAI_API_KEY"] = ""
     # os.environ["OPENAI_API_VERSION"] = "2023-05-15"
     # os.environ["OPENAI_API_TYPE"] = "gpt-35-turbo"
     from langchain_openai import AzureChatOpenAI
     `LLM ` = AzureChatOpenAI(
         azure_deployment="gpt-4",
         openai_api_version="2023-05-15"
     )
     return `LLM `

OpenAI

如果你用的是 OpenAI 官方的服务，那么使用就更加的简单了

 os.environ["OPENAI_API_KEY"] = getpass.getpass()
 `LLM ` = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

整体代码实现详解

 
 # 导入 langchain 相关的依赖包
 
 # 导入向量数据库（向量存储、查询）
 from langchain_community.vectorstores import Chroma
 
 # 导入 langchain 输出函数(格式化输出)
 from langchain_core.output_parsers import StrOutputParser
 
 # 导入 langchain Prompt 模板, prompt 管理
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_core.pydantic_v1 import BaseModel
 
 # 导入 langchain 的 LCEL 解释器包
 from langchain_core.runnables import RunnableParallel, RunnablePassthrough
 
 # 导入langchain 文本拆分器
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 
 # 导入 langchain 的文件加载器 (WebBaseLoader的功能是拉取网页数据，解析为 langchain Document 结构)
 from langchain_community.document_loaders import WebBaseLoader
 
 #  加载网页 https://docs.dify.ai/v/zh-hans/getting-started/readme 的数据
 raw_documents = WebBaseLoader("https://docs.dify.ai/v/zh-hans/getting-started/readme").load()
 # raw_documents = WebBaseLoader("https://docs.dify.ai/v/zh-hans/guides/knowledge-base").load()
 
 # 将网页数据拆分为 chunk 的大小
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
 all_splits = text_splitter.split_documents(raw_documents)
 
 # 将文本编码为向量，并保存为向量
 vectorstore = Chroma.from_documents(
     documents=all_splits,
     collection_name="`RAG`-chroma",
     embedding=embedQianfan(),
 )
 retriever = vectorstore.as_retriever()
 
 # 构建 `RAG` prompt
 template = """Answer the question with chinese and based only on the following context:
 {context}
 
 Question: {question}
 """
 prompt = ChatPromptTemplate.from_template(template)
 
 # 初始化`LLM `
 # model = ChatOpenAI()
 model = openai`LLM `()
 # 使用 LCEL 表达式构建 `RAG` chain
 chain = (
         RunnableParallel({"context": retriever, "question": RunnablePassthrough()})
         | prompt
         | model
         | StrOutputParser()
 )
 
 
 # Add typing for input
 class Question(BaseModel):
     __root__: str
 
 chain = chain.with_types(input_type=Question)
 
 #
 print(chain.invoke("dify 是什么"))
 print(chain.invoke("dify 能干什么？请用列表形式回答"))
 print(chain.invoke("dify 可以导入哪些数据？"))
 print(china.invoke("dify如何导入 nation 数据？"))

启动项目

如果你使用的是 langchain serve 构建的，那么你可以按下面的启动命令启动服务。服务你只是一个单文件，那么执行 python 你的文件你的文件

 `langchain serve`

启动成功后访问地址： http://127.0.0.1:8000/dify/playground/

提问示例

• dify 是什么？
• dify 能干什么？请用列表形式回答

切换文档后继续提问，观察输出

• dify 可以导入哪些数据？

总结：

注意点：

1、文件拆分

 `text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)`

文本拆分一定需要注意 embedding model窗口所能处理的 token 数量。如果超出则会出问题。

思考点：

1、prompt 缓存思考

RAG 知识库的中存在慢的点：

• query 向量化
• query LLM 得到 answer

我们需要构建 query 缓存策略，直接在 query 的时候找到最相似的 answer.

2、脱离项目 `langchain template`

• 构建自己 AI Agent 的方式

AI 实战：手把手教你使用「扣子/coze」来搭建个人blog知识库 - 掘金 (juejin.cn)[2]

更多相关文章持续更新中，欢迎关注! ❤️

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈