Chainlit集成LlamaIndex并使用通义千问模型实现AI知识库检索网页对话应用增强版

前言

之前使用Chainlit集成LlamaIndex并使用通义千问大语言模型的API接口，实现一个基于文档文档的网页对话应用。
可以点击我的上一篇文章《Chainlit集成LlamaIndex并使用通义千问模型实现AI知识库检索网页对话应用》查看。本次针对上一次的代码功能进一步的完善和增强。主要改进，完善异步处理和数据库知识来源。

LlamaIndex 简介

LlamaIndex是一个数据框架，它主要为基于大语言模型（LLM）的应用程序设计，允许这些应用程序摄取、结构化并访问私有或特定领域的数据。这种框架对于那些希望利用LLM的强大能力来处理自身专属数据集的组织来说尤其有用。由于大多数公开的大语言模型都是在大量的公共数据上训练的，它们缺乏对用户特定数据的理解，而这正是LlamaIndex发挥作用的地方。

LlamaIndex支持Python和TypeScript，使得开发者可以通过使用这些编程语言来集成和操作数据。它不仅提供了一个与LLM交互的自然语言接口，还允许用户安全地将自己的数据注入到LLM中，以增强模型的响应能力和准确性。

LlamaIndex的一些关键特点包括：

上下文增强：LlamaIndex是一个检索增强生成（RAG）系统，意味着它可以使用外部数据来增强模型生成的答案。
易用性：作为一个开发者友好的接口，LlamaIndex简化了将外部数据连接到LLM的过程。
灵活性：支持多种数据源类型，包括API、PDF文件、文档以及SQL数据库。
安全性：确保私有数据的安全接入，不会被泄露给模型训练过程。
可组合性：允许在不同级别定义索引，比如单个文档级别的索引或文档组级别的索引。

总的来说，LlamaIndex旨在帮助开发人员和企业更好地利用现有的数据资源，通过与先进的LLM相结合，创造出更加智能化的应用和服务。

LlamaIndex官方地址 https://docs.llamaindex.ai/en/stable/

快速上手

创建一个文件，例如“chainlit_chat”

mkdir chainlit_chat

进入 chainlit_chat文件夹下，执行命令创建python 虚拟环境空间(需要提前安装好python sdk。 Chainlit 需要python>=3.8。,具体操作，由于文章长度问题就不在叙述，自行百度)，命令如下：

python -m venv .venv

这一步是避免python第三方库冲突，省事版可以跳过
.venv是创建的虚拟空间文件夹可以自定义

接下来激活你创建虚拟空间，命令如下：

#linux or mac
source .venv/bin/activate
#windows
.venv\Scripts\activate

在项目根目录下创建`requirements.txt`，内容如下：

chainlit
llama-index-core
llama-index-llms-dashscope
llama-index-embeddings-dashscope

执行以下命令安装依赖：

pip install -r .\requirements.txt

安装后，项目根目录下会多出.chainlit 和.files文件夹和chainlit.md文件

代码创建

只使用通义千问的DashScope模型服务灵积的接口

在项目根目录下创建`.env`环境变量，配置如下：

DASHSCOPE_API_KEY="sk-api_key"

DASHSCOPE_API_KEY 是阿里dashscope的服务的APIkey，代码中使用DashScope的sdk实现，所以不需要配置base_url。默认就是阿里的base_url。
阿里模型接口地址 https://dashscope.console.aliyun.com/model

在项目根目录下创建app.py文件，代码如下：

import os
import time

import chainlit as cl
from llama_index.core import (
    Settings,
    VectorStoreIndex,
    SimpleDirectoryReader, load_index_from_storage, StorageContext,
)
from llama_index.core.node_parser import SentenceSplitter
from llama_index.embeddings.dashscope import DashScopeEmbedding, DashScopeTextEmbeddingModels, \
    DashScopeTextEmbeddingType
from llama_index.llms.dashscope import DashScope, DashScopeGenerationModels

Settings.llm = DashScope(
    model_name=DashScopeGenerationModels.QWEN_TURBO, api_key=os.environ["DASHSCOPE_API_KEY"]
)
Settings.embed_model = DashScopeEmbedding(
    model_name=DashScopeTextEmbeddingModels.TEXT_EMBEDDING_V2,
    text_type=DashScopeTextEmbeddingType.TEXT_TYPE_DOCUMENT,
)
Settings.node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=20)
Settings.num_output = 512
Settings.context_window = 3900


@cl.cache
def get_vector_store_index():
    storage_dir = "./storage_default"
    if os.path.exists(storage_dir):
        storage_context = StorageContext.from_defaults(persist_dir=storage_dir)
        index = load_index_from_storage(storage_context)
    else:
        documents = SimpleDirectoryReader("./data_file").load_data(show_progress=True)
        index = VectorStoreIndex.from_documents(documents)
        index.storage_context.persist(persist_dir=storage_dir)
    return index


vector_store_index = get_vector_store_index()


@cl.on_chat_start
async def start():
    await cl.Message(
        author="Assistant", content="你好! 我是泰山AI智能助手. 有什么可以帮助你的吗?"
    ).send()


@cl.on_message
async def main(message: cl.Message):
    start_time = time.time()
    query_engine = vector_store_index.as_query_engine(streaming=True, similarity_top_k=5)
    msg = cl.Message(content="", author="Assistant")
    res = await query_engine.aquery(message.content)
    async for token in res.response_gen:
        await msg.stream_token(token)
    print(f"代码执行时间: {time.time() - start_time} 秒")
    source_names = []
    for idx, node_with_score in enumerate(res.source_nodes):
        node = node_with_score.node
        source_name = f"source_{idx}"
        source_names.append(source_name)
        msg.elements.append(
            cl.Text(content=node.get_text(), name=source_name, display="side")
        )
    await msg.stream_token(f"\n\n **数据来源**: {', '.join(source_names)}")
    await msg.send()

代码中的persist_dir=storage_dir 不设置的默认是 ./storage.
代码中的 SentenceSplitter(chunk_size=512, chunk_overlap=20) ,chunk_size是将长文档分割的文本块的大小，chunk_overlap 是和上下文本块的重合文本的大小。

代码解读

这段代码使用了chainlit和llama_index两个Python库来创建一个基于文档的问答系统。下面是对代码段的解释：

导入必要的模块：
- os 和 time 是Python标准库的一部分，分别用于操作系统相关的功能和计时。
- chainlit 是一个用于快速构建交互式AI应用的库。
- llama_index 是一个框架，用于构建索引并进行文档检索。
配置llama_index的核心设置：
- 设置了使用的LLM（大语言模型）为DashScope的Qwen Turbo版本，并通过环境变量获取API密钥。
- 设置了嵌入模型（Embedding Model）为DashScope的文本嵌入模型，并指定了模型类型。
- 使用SentenceSplitter来分割文本节点，定义了块大小和重叠。
- 定义了输出长度和上下文窗口大小。
缓存函数get_vector_store_index()：
- 这个函数负责加载或创建一个向量存储索引。如果存储目录存在，则从该目录加载已有的索引；否则，从指定的数据文件夹读取文档并创建新的索引。
使用chainlit装饰器定义事件处理函数：
- @cl.on_chat_start 在聊天开始时发送欢迎消息。
- @cl.on_message 在接收到用户消息时触发，使用向量索引来查询相关性最高的文档，并将结果流式传输给用户。同时，显示每个答案片段的来源。
主逻辑部分：
- 创建一个流式查询引擎，设置相似度搜索的前k个结果。
- 当接收到消息时，使用查询引擎异步查询并流式传输响应到用户。
- 计算执行时间，并记录下每个源文档的名字以便后续引用。
- 将每个源文档的内容作为元素附加到消息中，并在最后告知用户数据来源。