手把手带你在AutoDL上部署InternLM-Chat-7B Transformers

news2025/4/15 10:18:33

手把手带你在AutoDL上部署InternLM-Chat-7B Transformers 调用
项目地址：https://github.com/KMnO4-zx/self_llm.git
如果大家有其他模型想要部署教程，可以来仓库提交issue哦~ 也可以自己提交PR！

InternLM-Chat-7B Transformers 部署调用

环境准备

在autoal平台中租一个3090等24G显存的显卡机器，如下图所示镜像选择pytorch–>1.11.0–>3.8(ubuntu20.04)–>11.3

请添加图片描述

接下来打开自己刚刚租用服务器的JupyterLab，并且打开其中的终端开始环境配置、模型下载和运行demo.
在这里插入图片描述

pip换源和安装依赖包

# 升级pip
python -m pip install --upgrade pip
# 更换 pypi 源加速库的安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install modelscope==1.9.5
pip install transformers==4.35.2
pip install streamlit==1.24.0
pip install sentencepiece==0.1.99
pip install accelerate==0.24.1

模型下载

使用modelscope（魔塔社区）中的snapshot_download函数下载模型，第一个参数为模型名称，参数cache_dir为模型的下载路径。

在/root/autodl-tmp路径下新建download.py文件

#将当前工作目录切换到/root/autodl-tmp目录下
cd /root/autodl-tmp
#创建一个名为download.py的空文件
touch download.py

并在其中输入以下内容：

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os
model_dir = snapshot_download('Shanghai_AI_Laboratory/internlm-chat-7b', cache_dir='/root/autodl-tmp', revision='master')

粘贴代码后记得保存文件(Ctrl+S)，如下图所示。

在这里插入图片描述
保存后返回终端界面，运行Python /root/autodl-tmp/download.py执行下载，模型大小为14GB,下载模型大概需要10~20分钟。

代码准备

在/root/autodl-tmp路径下新建trans.py文件并在其中输入以下内容

# 导入所需的库
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 从预训练模型加载 tokenizer 和 model
# AutoTokenizer 用于处理文本输入并准备模型输入
# AutoModelForCausalLM 是一个生成式语言模型，支持生成对话
# trust_remote_code=True 表示信任从远程加载的代码
#通过AutoTokenizer.from_pretrained()函数加载预训练模型的tokenizer
tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/Shanghai_AI_Laboratory/internlm-chat-7b", trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained("/root/autodl-tmp/Shanghai_AI_Laboratory/internlm-chat-7b",trust_remote_code=True).to(torch.bfloat16).cuda()
# 将模型加载到 GPU（如果可用）并设置为评估模式
model = model.eval().cuda()

# 准备对话的历史记录
# 在开始对话之前，历史记录为空列表
#调用model.chat(tokenizer, "hello", history=[])来生成对话，将使用模型和tokenizer来根据给定的历史记录生成回复。生成的回复存储在response变量中
response, history = model.chat(tokenizer, "hello", history=[])

# 打印模型生成的响应文本
print(response)

粘贴代码后记得保存文件，上面的代码有比较详细的注释，大家如有不理解的地方，欢迎提出issue。

部署

在终端输入以下命令启动transformers服务

cd /root/autodl-tmp
python trans.py

耐心等待一下它加载，得到返回值如下所示：

Hello!How can I assist you today?

在这里插入图片描述

然后可以在以上trans.py代码的基础上加一个对话，代码如下所示：

response,history = model.chat(tokenizer,"please provide three suggestions about time management",history=history)

print(response)

耐心等待加载，首先会出来第一个对话内容模型生成的响应文本如下图所示,然后再等待一会它会接着出现第二个对话模型生成的响应文本如下所示：

在这里插入图片描述

耐心等待加载，首先会出来第一个对话内容模型生成的响应文本如下图所示,然后再等待一会它会接着出现第二个对话模型生成的响应文本如下所示：

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1234856.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！