LMDeploy 量化部署

news2026/2/14 12:39:14

创建环境和模型

conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3

mkdir /root/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-7b-chat /root/models
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat /root/models
ln -s /root/share/new_models/OpenGVLab/InternVL2-26B /root/models

LMDeploy验证启动模型文件

conda activate lmdeploy
lmdeploy chat /root/models/internlm2_5-7b-chat

启动API服务器

conda activate lmdeploy
lmdeploy serve api_server \
/root/models/internlm2_5-7b-chat \
--model-format hf \
--quant-policy 0 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1

启动客户端

conda activate lmdeploy
lmdeploy serve api_client http://localhost:23333

启用量化后的模型、设定kv cache占用和kv cache int4量化。

conda activate lmdeploy
lmdeploy serve api_server \
/root/models/internlm2_5-1_8b-chat-w4a16-4bit \
--model-format awq \
--cache-max-entry-count 0.4 \
--quant-policy 4 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1

touch /root/internlm2_5.py

文件内容为

# 导入openai模块中的OpenAI类，这个类用于与OpenAI API进行交互
from openai import OpenAI

# 创建一个OpenAI的客户端实例，需要传入API密钥和API的基础URL
client = OpenAI(
api_key='YOUR_API_KEY',
# 替换为你的OpenAI API密钥，由于我们使用的本地API，无需密钥，任意填写即可
base_url="http://0.0.0.0:23333/v1"
# 指定API的基础URL，这里使用了本地地址和端口
)

# 调用client.models.list()方法获取所有可用的模型，并选择第一个模型的ID
# models.list()返回一个模型列表，每个模型都有一个id属性
model_name = client.models.list().data[0].id

# 使用client.chat.completions.create()方法创建一个聊天补全请求
# 这个方法需要传入多个参数来指定请求的细节
response = client.chat.completions.create(
model=model_name,
# 指定要使用的模型ID
messages=[
# 定义消息列表，列表中的每个字典代表一个消息
{"role": "system", "content": "你是一个友好的小助手，负责解决问题."},
# 系统消息，定义助手的行为
{"role": "user", "content": "帮我讲述一个关于狐狸和西瓜的小故事"},
# 用户消息，询问时间管理的建议
],
temperature=0.8,
# 控制生成文本的随机性，值越高生成的文本越随机
top_p=0.8
# 控制生成文本的多样性，值越高生成的文本越多样
)

# 打印出API的响应结果
print(response.choices[0].message.content)

运行

conda activate lmdeploy
python /root/internlm2_5.py

效果：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2085966.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！