开源双语对话语言模型 ChatGLM-6B 本地私有化部署

news2025/4/8 5:41:06

本文首发于：https://www.licorne.ink/2023/08/llm-chatglm-6b-local-deploy/

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。ChatGLM-6B 权重对学术研究完全开放，在填写问卷进行登记后亦允许免费商业使用。

其中一个比较关键的点是：消费级的显卡即可进行私有化部署，下文将着重介绍部署的相关步骤。

建议硬件配置：
在这里插入图片描述不过该模型也可在无GPU的情况下部署，但是推理速度会更慢，最低需要32G内存。

一、克隆仓库

本地部署的话实际需要用到两个仓库，一个是源码仓，一个是模型仓。在操作之前请确认Git已正确安装并启用了LFS。

源码仓库：https://github.com/THUDM/ChatGLM-6B

模型仓库：https://huggingface.co/THUDM/chatglm-6b

使用 git clone 命令克隆至本地即可，由于仓库的默认名称一致，建议在克隆一个仓库后改名再继续克隆另一个仓库。模型仓库体积较大，请确保网络连接稳定。

在这里插入图片描述

二、安装依赖

1. 更新显卡驱动

进行下面的操作前请确认已更新最新的显卡驱动。如果显卡本身就以工作负载为主，请选择 Studio 版本的驱动。

2. Python3

首先确保 Python3 已正确安装并配置了相应的环境变量。打开命令窗口能正常调用 py 和 pip 命令说明配置正确。

3. 自动安装依赖

进入源码仓库，执行以下命令安装依赖：

pip install -r requirements.txt

4. 安装 PyTorch 和对应版本的 CUBA

为了确保 Torch 版本与 CUBA 匹配，先执行以下命令移除已有的 PyTorch：

pip3 uninstall torch torchvision torchaudio

在这里插入图片描述
打开 https://pytorch.org/get-started/locally/ 页面，选择 PyTorch 的版本，注意 CUBA 版本的选择，然后复制如图的安装命令。

在这里插入图片描述
打开 https://developer.nvidia.com/cuda-downloads 页面，如果自动跳转的 CUBA 版本与要求的版本不一致，可以找到在页面下方的 Archive of Previous CUDA Releases 链接打开新的页面检索并下载安装。

在这里插入图片描述

三、改用本地模型

源码仓库在没有修改的情况下默认不会使用本地的模型，接下来需要修改模型引用的代码来指向本地的模型文件。建议使用 VS Code 之类的工具来进行批量的替换。

实际操作时，只需要将整个源码目录下的 “THUDM/chatglm-6b” （注意，搜索替换时一定要带上这对英文的双引号，否则可能会错误匹配）替换成第一步中克隆下来的模型的目录的路径（注意替换后的文本也需要英文的双引号，Windows 下要注意 \ 需要以转义符 \ 的形式写入）。

四，启动 WebDemo

上述步骤全部完成后，进入源码仓库，使用下述命令启动即可：

py .\web_demo.py

启动完毕后会自动打开 Web 页面，Enjoy It！

在这里插入图片描述

PS：这玩意儿确实吃显存啊！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/930917.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

开源双语对话语言模型 ChatGLM-6B 本地私有化部署

一、克隆仓库

二、安装依赖

1. 更新显卡驱动

2. Python3

3. 自动安装依赖

4. 安装 PyTorch 和对应版本的 CUBA

三、改用本地模型

四，启动 WebDemo

相关文章

人员跌倒检测识别预警

Vue2向Vue3过度Vuex核心概念state状态

Dubbo—流量管控

为什么使用Nacos而不是Eureka（Nacos和Eureka的区别）

推荐前 6 名 JavaScript 和 HTML5 游戏引擎

Nuxt3打包部署到Linux（node+pm2安装和运行步骤+nginx代理）

Linux常用命令_文件搜索命令

c语言练习题30：判断一个数是否为2^n

Android 之 WindowManager (窗口管理服务)

用MFC打开外部程序

VBJSON报错：缺少：语句结束

51WORLD李熠：地球克隆计划就像攀登珠峰

基于Java+SpringBoot+Vue前后端分离医院资源管理系统设计和实现

阿里云将关停代销业务

21.图的应用

Pygame编程（1）初始化和退出模块

【精品】基于VUE3的电商详情图片显示模块

freertos之任务调度算法

Linux操作系统--常用指令(文件目录类指令)

记录--一个炫酷的css动画