一、模型介绍
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
接下来我们试试部署ChatGLM4-9B基础版模型。
二、项目地址
Github地址:https://github.com/THUDM/GLM-4/tree/main
模型地址:https://huggingface.co/THUDM/glm-4-9b/tree/main
模型有很多,如下图:可以在 hugging face 选择不同的模型下载。
三、硬件条件
服务器环境:Linux
操作系统:ubuntu 22.04
架构:x86_64
实例规格:GPU A10 24G显存
四、ChatGLM4-9B部署
1.准备工作
(1)安装Anaconda软件
注意:Anaconda无版本要求,主要和Linux的架构保持一致。
可参考博客:Linux环境安装Anaconda(详细图文)_linux安装anaconda-CSDN博客
(2)创建GLM4需要的python环境并激活
① 创建GLM4环境
conda create -n glm4 python=3.10.12
② 激活环境
conda activate glm4
2.拉取GLM4项目代码
(1)切换到磁盘挂载目录
cd /data/
(2)拉取代码并切换到对应目录
git clone https://github.com/THUDM/GLM-4.git
cd GLM-4/basic_demo
(3)下载依赖
pip install -r requirements.txt --upgrade
3.下载GLM4模型
说明:如果不能直接通过服务器上下载,可以通过windows上挂载代理软件访问抱脸地址:https://huggingface.co/THUDM/glm-4-9b/tree/main 把Files and versions 下文件全部下载,模型下载时间比较长,耐心等待。
下载完成后并将下载好模型传到服务器上(上传的位置是刚刚克隆下github的目录 basic_demo 下新建一个model目录,再在model下创建一个glm-4-9b目录存放模型) 如下所示:
4. 运行GLM4模型
(1)编辑trans_web_demo.py
修改模型加载目录,由于我新建了一个model目录就修改如下图所示:
在文件底部还需要修改下服务器IP,由于之前写的是127.0.0.1,只能本地访问,需要修改为0.0.0.0 所有IP都可以访问。
修改完成之后保存并退出。
(2)运行ChatGLM4的web
在 basic_demo 目录下运行命令:python trans_web_demo.py
报错1:找不到peft库
解决方案:下载peft库命令:pip install peft
报错2:
解决方案:下载穿透工具,按照上面步骤下载穿透工具并移动到对应目录,第三步骤根据自己的位置,移动到对应为止即可。下载这个frpc_linux_amd64 需要关闭防火墙不然下载不成功。
报错3:不能创建分享链接
解决方案:给下载好的frpc_linux_amd64设置可执行权限即可 命令:chmod +x /xx/xx/frpc_linux_amd64_vo.3
运行成功后的截图:
说明:如果想尝试 trans_cli_demo.py 也是修改文件的模型路径即可。
5.成果展示
浏览器访问:公网IP+8000端口 注意开放8000端口。
GPU显存为24G的推理速度很快,GPU显存占用18G左右。到此ChatGLM4-9B部署完成,大家感兴趣可以试试。