书生大模型学习笔记9 - LMDeploy 量化部署

news2026/2/11 23:06:56

LMDeploy 量化部署

InternLM 2.5 20b量化前部署
W4A16 模型量化
量化模型部署
streamlit web

InternLM 2.5 20b量化前部署

lmdeploy serve api_server \
    /root/learning/InternLM/XTuner/merged_20b \
    --model-format hf \
    --quant-policy 0 \
    --cache-max-entry-count 0.01\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

lmdeploy serve api_server：这个命令用于启动API服务器。
/root/learning/InternLM/XTuner/merged_20b：这是模型的路径。
–model-format hf：这个参数指定了模型的格式。hf代表“Hugging Face”格式。
–quant-policy 0：这个参数指定了量化策略。
–cache-max-entry-count 0.01: 这个参数控制kv缓存占用剩余显存的最大比例。默认的比例为0.8
–server-name 0.0.0.0：这个参数指定了服务器的名称。在这里，0.0.0.0是一个特殊的IP地址，它表示所有网络接口。
–server-port 23333：这个参数指定了服务器的端口号。在这里，23333是服务器将监听的端口号。
–tp 1：这个参数表示并行数量（GPU数量）。

显存占用
在这里插入图片描述

W4A16 模型量化

HF_DATASETS_TRUST_REMOTE_CODE=True
lmdeploy lite auto_awq \
   /root/learning/InternLM/XTuner/merged_20b \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 2048 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 1 \
  --search-scale False \
  --work-dir /root/learning/InternLM/XTuner/merged_20b-w4a16-4bit

lmdeploy lite auto_awq: lite这是LMDeploy的命令，用于启动量化过程，而auto_awq代表自动权重量化（auto-weight-quantization）。
/root/learning/InternLM/XTuner/merged_20b: 模型文件的路径。
–calib-dataset ‘ptb’: 这个参数指定了一个校准数据集，这里使用的是’ptb’（Penn Treebank，一个常用的语言模型数据集）。
–calib-samples 128: 这指定了用于校准的样本数量—128个样本
–calib-seqlen 2048: 这指定了校准过程中使用的序列长度—1024
–w-bits 4: 这表示权重（weights）的位数将被量化为4位。
/root/learning/InternLM/XTuner/merged_20b-w4a16-4bit: 这是工作目录的路径，用于存储量化后的模型和中间结果。

量化模型部署

lmdeploy serve api_server \
    /root/learning/InternLM/XTuner/merged_20b-w4a16-4bit \
    --model-format awq \
    --quant-policy 4 \
    --cache-max-entry-count 0.01\
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

显存占用
在这里插入图片描述

streamlit web

streamlit run /root/learning/HayLM/app.py

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2054705.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！