启动服务
我已经把模型下载到/data/xiedong/Qwen2.5-72B-Instruct-GPTQ-Int4
所以docker直接启动:
docker run --runtime nvidia --gpus device=0 \
-p 23333:23333 \
--ipc=host -v /data/xiedong:/data/xiedong/ \
openmmlab/lmdeploy:latest \
lmdeploy serve api_server /data/xiedong/Qwen2.5-72B-Instruct-GPTQ-Int4
浏览器访问接口文档:http://101.136.8.66:23333