基于AutoDL部署langchain-chatchat-0.3.1实战

news2025/7/13 19:13:56

一、租用AutoDL云服务器，配置环境

1.1 配置AutoDL环境

注册好autodl账户之后，开始在上面租服务器，GPU我选择的是RTX4090*2，西北B区，基础镜像选择的是Pytorch-2.3.0-python-3.12（ubuntu22.04）- cuda版本12.1。

1.2 了解AutoDl学术加速的使用

进入JupyterLab，在/root目录下建立data文件夹，进行学术加速，提高在国外网站（github等学术网站）拉取文件的速度：

# 开启学术加速
source /etc/network_turbo

# 取消学术加速：
unset http_proxy && unset https_proxy

1.3 基于AutoDL的虚拟环境激活

source ~/.bashrc
conda init

二、设置和安装Langchain-Chatchat及相关依赖

1.打开终端从github上将新版本的项目拉取下来，指令如下(如果学术加速不稳定，需要取消学术加速):

git clone https://github.com/chatchat-space/Langchain-Chatchat.git

2.新建一个虚拟环境(进入glm4_text前可能需要激活：source ~/.bashrc conda init)

conda create -n glm4_text python==3.11

conda activate glm4_text

3.安装 Langchain-Chatchat，从 0.3.0 版本起，Langchain-Chatchat 提供以 Python 库形式的安装方式，具体安装请执行：（请不要着急使用该命令，看下一条命令）

pip install langchain-chatchat -U  -i https://pypi.tuna.tsinghua.edu.cn/simple

4.因模型部署框架 Xinference 接入 Langchain-Chatchat 时需要额外安装对应的 Python 依赖库，因此如需搭配 Xinference 框架使用时，建议使用如下指令进行安装：（因为我使用的就是Xinference框架）

pip install langchain-chatchat[xinference] -U  -i https://pypi.tuna.tsinghua.edu.cn/simple

三、Xinference框架部署与大模型 & embidding模型加载

从 0.3.0 版本起，Langchain-Chatchat 不再根据用户输入的本地模型路径直接进行模型加载，涉及到的模型种类包括 LLM、Embedding、Reranker 及后续会提供支持的多模态模型等，均改为支持市面常见的各大模型推理框架接入，如 Xinference、Ollama、LocalAI、FastChat、One API 等。因此，请确认在启动 Langchain-Chatchat 项目前，首先进行模型推理框架的运行，并加载所需使用的模型。然后再正式启动 Langchain-Chatchat。

1.新开终端再次新建一个推理虚拟环境llm_tl并激活：

conda create -n llm_tl python==3.11
conda activate llm_tl

3.Xinference 在 Linux, Windows, MacOS 上都可以通过 pip 来安装。如果需要使用 Xinference 进行模型推理，可以根据不同的模型指定不同的引擎。

这一步骤请记得不要使用AutoDL中的无卡模式开机！不然会遇到进程杀死的错误！

pip install "xinference[all]"  -i https://pypi.tuna.tsinghua.edu.cn/simple

报错：Failed to build llama-cpp-python
ERROR: ERROR: Failed to build installable wheels for some pyproject.toml based projects (llama-cpp-python)

当前虚拟机的 g++ --version，发现版本为“g++ (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0”，如果高于10的话就需要降级到10。降级后重新运行即可成功！

在创建的虚拟环境中更新需如下指令：

conda config --add channels conda-forge

conda install gxx_linux-64=10

pip install "xinference[all]"  -i https://pypi.tuna.tsinghua.edu.cn/simple

4.本地运行Xinference配置

让我们以一个经典的大语言模型 glm4-9b-chat 来展示如何在本地用 Xinference 运行大模型,我这里自定义了一个存储日志文件和大模型，embedding模型的路径，如果不自定义一个路径将会下载到默认的一个路径下，这样很容易将我们的系统盘给撑爆，以魔塔社区下载模型为例。

XINFERENCE_HOME=/root/autodl-tmp/xinference XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 --port 9997

5.新建一个终端依次输入如下代码：

进入llm_tl环境，输入如下指令下载embeding模型和glm4-chat模型。

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

xinference launch --model-engine vllm --model-name glm4-chat --size-in-billions 9 --model-format pytorch --quantization none

遗憾的是看不到下载过程（不知道下载过程报错时如何处理），下载完后，我们安装apt-get install tree后，进入目录/root/autodl-tmp/xinference/modelscope，通过tree把文件路径列出来：

sudo apt-get update
apt-get install tree
tree

(base) root@autodl-container-75ca4f8174-f38c15a5:~/autodl-tmp/xinference/modelscope# tree
.
└── hub
    ├── Xorbits
    │   └── bge-large-zh-v1___5
    │       ├── 1_Pooling
    │       │   └── config.json
    │       ├── README.md
    │       ├── config.json
    │       ├── config_sentence_transformers.json
    │       ├── configuration.json
    │       ├── model.safetensors
    │       ├── modules.json
    │       ├── pytorch_model.bin
    │       ├── sentence_bert_config.json
    │       ├── special_tokens_map.json
    │       ├── tokenizer.json
    │       ├── tokenizer_config.json
    │       └── vocab.txt
    └── ZhipuAI
        └── glm-4-9b-chat
            ├── LICENSE
            ├── README.md
            ├── README_en.md
            ├── config.json
            ├── configuration.json
            ├── configuration_chatglm.py
            ├── generation_config.json
            ├── model-00001-of-00010.safetensors
            ├── model-00002-of-00010.safetensors
            ├── model-00003-of-00010.safetensors
            ├── model-00004-of-00010.safetensors
            ├── model-00005-of-00010.safetensors
            ├── model-00006-of-00010.safetensors
            ├── model-00007-of-00010.safetensors
            ├── model-00008-of-00010.safetensors
            ├── model-00009-of-00010.safetensors
            ├── model-00010-of-00010.safetensors
            ├── model.safetensors.index.json
            ├── modeling_chatglm.py
            ├── tokenization_chatglm.py
            ├── tokenizer.model
            └── tokenizer_config.json

6 directories, 35 files

6.以使用 `--model-uid` 或者 `-u` 参数指定模型的 UID，如果没有指定，Xinference 会随机生成一个 ID，下面的命令xinference list 可以看出UID分别为glm4-chat和bge-large-zh-v1.5:

四、启动项目

1.切换成我们最开始新建的虚拟环境，在启动项目之前确保首先进行模型推理框架的运行，并加载所需使用的模型，查看与修改 Langchain-Chatchat 配置

运行chatchat --help命令：

chatchat --help

2.可根据上述配置命令选择需要查看或修改的配置类型，以项目初始化init`配置`为例，想要进行`项目初始化`查看或修改时可以输入以下命令chatchat init --help获取帮助信息，如下图所示：

从返回信息可以看出，chatchat init可以指定API，LLM模型，Embedding模型等，使用如下命令指定默认llm和embedding。

chatchat init -l glm4-chat
chatchat init -e bge-large-zh-v1.5

3.初始化知识库（不初始化官方提供的知识库也没问题，后面直接在UI界面中操作自己的本地知识库就好！）。

chatchat kb -r

有一个报错：“ FileExistsError: 从文件 samples/test_files/langchain.pdf 加载文档时出错：[Errno 17] File exists: '/root/nltk_data/tokenizers' ” ，将文件'/root/data/Langchain-Chatchat/data/knowledge_base/samples/content/test_files/langchain.pdf'复制到'/root/nltk_data/tokenizers'即可。