ChatGLM-6B的部署步骤

news2025/1/13 17:04:40

2022年8月，清华背景的智谱AI基于GLM框架，正式推出拥有1300亿参数的中英双语稠密模型 GLM-130B(论文地址、代码地址，论文解读之一，GLM-130B is trained on a cluster of 96 DGX-A100 GPU (8×40G) servers with a 60-day，可以较好的支持2048个token的上下文窗口)

其在一些任务上的表现优于GPT3-175B，是国内与2020年5月的GPT3在综合能力上差不多的模型之一(即便放到23年年初也并不多)，这是它的一些重要特点

1.3 ChatGLM-6B的训练框架与部署步骤
1.3.1 ChatGLM-6B的训练框架
ChatGLM-6B(介绍页面、代码地址)，是智谱 AI 开源、支持中英双语的对话语言模型，其

基于General Language Model(GLM)架构，具有62亿参数，无量化下占用显存13G
INT8量化级别下支持在单张11G显存的 2080Ti 上进行推理使用(因为INT8下占用显存8G)
而INT4量化级别下部署的话最低只需 6GB显存(另基于 P-Tuning v2 的高效参数微调方法的话，在INT4 下最低只需 7GB 显存即可启动微调)

INT8量化是一种将深度学习模型中的权重和激活值从32位浮点数（FP32）减少到8位整数（INT8）的技术。这种技术可以降低模型的内存占用和计算复杂度，从而减少计算资源需求，提高推理速度，同时降低能耗
量化的过程通常包括以下几个步骤：
1 量化范围选择：确定权重和激活值的最小值和最大值
2 量化映射：根据范围将32位浮点数映射到8位整数
3 反量化：将8位整数转换回浮点数，用于计算
ChatGLM-6B参考了 ChatGPT 的训练思路，在千亿基座模型GLM-130B中注入了代码预训练，通过监督微调(Supervised Fine-Tuning)、反馈自助(Feedback Bootstrap)、人类反馈强化学习(Reinforcement Learning from Human Feedback)等方式等技术实现人类意图对齐，并针对中文问答和对话进行优化

以下是具体的部署过程：

1、硬件配置

操作系统：Ubuntu_64（ubuntu22.04.3）

GPU：4050

显存：16G

2、配置环境
建议最好自己新建一个conda环境
pip install -r requirements.txt
(ChatGLM-6B/requirements.txt at main · THUDM/ChatGLM-6B · GitHub)

注意torch版本，，和transformers版本

使用的pip命令安装的，命令如下：

后面补上

3、下载项目仓库
git clone https://github.com/THUDM/ChatGLM-6B（这里github不行就换个地方我后面补上)
cd ChatGLM-6B

4、下载ChatGLM-6B模型文件
文件可以从这里下载(点击中间的下载按钮即可)：https://huggingface.co/THUDM/chatglm-6b