vLLM实战:多机多卡大模型分布式推理部署全流程指南

news2025/4/14 23:10:11

1. 环境准备与基础配置

1.1 系统要求

依赖组件:

# 基础工具安装
sudo apt-get install -y lsof git-lfs nvidia-cuda-toolkit

1.2 虚拟环境配置

使用conda创建隔离环境,避免依赖冲突:

conda create -n vllm python=3.10 -y
conda activate vllm
# 配置conda源加速
conda config --add channels conda-forge
conda config --set channel_priority strict
conda install sqlite=3.42.0

1.3 vLLM与依赖安装

# 安装xFormers加速组件
pip install xformers-0.0.27.post2-cp310-cp310-manylinux2014_x86_64.whl
# 通过清华源安装vLLM
pip install vllm==0.5.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装Ray分布式框架
conda install -c conda-forge ray-default

2. 分布式集群搭建

2.1 Ray集群配置

主节点启动(假设IP为192.168.1.1):

ray start --head --port=6379 \
          --node-ip-address=192.168.1.1 \
          --dashboard-host=0.0.0.0 \
          --num-gpus=4 \
          --object-store-memory=4294967296

工作节点加入:

ray start --address=192.168.1.1:6379 \
          --node-ip-address=192.168.1.2 \
          --num-gpus=4

关键参数说明:

–num-gpus:必须与物理GPU数量一致
–object-store-memory:建议设置为可用内存的70%

2.2 网络优化配置

# 设置通信网卡(根据实际网卡名称调整)
export GLOO_SOCKET_IFNAME=eth0
export NCCL_SOCKET_IFNAME=eth0
export NCCL_ALGO=Tree
export NCCL_NSOCKS_PERTHREAD=4
export NCCL_SOCKET_NTHREADS=2

常见问题:

若出现Gloo connectFullMesh failed错误,需检查防火墙设置并确认网卡名称正确

跨节点通信延迟高时,可尝试export NCCL_NET_GDR_LEVEL=PHB启用高性能模式

3. 模型部署与启动

3.1 模型下载

从ModelScope下载模型(以Qwen2.5-1.5B为例):

modelscope download --model qwen/Qwen2.5-1.5B

模型默认保存在~/.cache/modelscope/hub/目录

3.2 分布式启动命令

两节点部署示例(每节点4卡):

节点0启动命令

GLOO_SOCKET_IFNAME=eth0 NCCL_SOCKET_IFNAME=eth0 RAY_USE_IPV4=1 \
vllm serve qwen/Qwen2.5-1.5B \
    --dtype half \
    --tensor-parallel-size 4 \
    --pipeline-parallel-size 2 \
    --distributed-executor-backend ray \
    --gpu-memory-utilization 0.9 \
    --max-model-len 2048 \
    --host 0.0.0.0 \
    --port 6397 \
    --api-key key-abc123 \
    --cpu-offload-gb 64 \
    --block-size 8 \
    --swap-space 16

参数解析:

参数作用推荐值
–tensor-parallel-size单节点内GPU并行数通常等于单节点GPU数
–pipeline-parallel-size跨节点并行数通常等于节点数
–cpu-offload-gbCPU内存卸载量显存不足时可设为物理内存的50%
–swap-spaceSSD交换空间建议16-32GB

3.3 服务验证

健康检查:

curl http://localhost:6397/health

正常响应应包含200 OK状态码

模型列表查询:

curl http://localhost:6397/v1/models \
    -H "Authorization: Bearer key-abc123"

对话测试:

curl -X POST http://localhost:6397/v1/chat/completions \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer key-abc123" \
    -d '{
        "model": "qwen/Qwen2.5-1.5B",
        "messages": [
            {"role": "system", "content": "你是一个专业的中文助手"},
            {"role": "user", "content": "用200字介绍下你自己"}
        ],
        "temperature": 0.1,
        "max_tokens": 300,
        "stop": ["<|im_end|>"]
    }'

4. 性能优化策略

4.1 显存管理

分块处理:通过–block-size 8减小内存块大小,提升显存利用率
交换空间:启用–swap-space 16利用SSD扩展内存
动态卸载:设置–cpu-offload-gb 64将部分计算卸载到CPU

4.2 通信优化

拓扑感知:通过nvidia-smi topo -m查看GPU连接方式,优先使用NVLink互联的GPU组
协议调优:

export NCCL_IB_DISABLE=1  # 非InfiniBand环境禁用
export NCCL_SOCKET_NTHREADS=2  # 增加通信线程

4.3 批处理优化

连续批处理:vLLM默认启用,通过–max-num-seqs 256控制并发量
预填充优化:添加–enable-chunked-prefill参数减少延迟

5. 常见问题排查

5.1 部署阶段问题

问题1:Ray节点无法加入集群
解决方案:
检查防火墙设置:sudo ufw allow 6379/tcp
验证网络连通性:ping <主节点IP>
确认Ray版本一致:ray --version

问题2:NCCL通信超时
解决方案:

export NCCL_DEBUG=INFO
export NCCL_P2P_DISABLE=1  # 临时禁用P2P

5.2 推理阶段问题

问题3:显存不足(OOM)
解决方案:
降低–gpu-memory-utilization至0.7-0.8
启用量化:–quantization awq
减少–max-model-len值

问题4:响应延迟高
解决方案:
检查GPU利用率:nvidia-smi -l 1
调整–tensor-parallel-size与–pipeline-parallel-size比例

6. 监控与维护

6.1 集群监控

Ray Dashboard:访问http://:8265查看集群状态
Prometheus:集成vLLM指标导出:

vllm serve ... --enable-prometheus

6.2 日志分析

关键日志路径:
Ray日志:/tmp/ray/session_latest/logs/
vLLM日志:启动时添加> vllm.log 2>&1

注:实际性能取决于硬件配置和模型特性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333937.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

贪心算法 day08(加油站+单调递增的数字+坏了的计算机)

目录 1.加油站 2.单调递增的数字 3.坏了的计算器 1.加油站 链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; gas[index] - cost[index]&#xff0c;ret 表示的是在i位置开始循环时剩余的油量 a到达的最大路径假设是f那么我们可以得出 a b …

String类基本使用

文章目录 1. String类的理解和创建对象2. 创建String对象的两种方式3. 两种创建String对象的区别4. 测试5. 字符串的特性6. String 类的常见方法 1. String类的理解和创建对象 String 对象用于保存字符串&#xff0c;也就是一组字符序列字符串常量对象是用双引号括起的字符序列…

华为机试—火车进站

题目 火车站一共有 n 辆火车需要入站&#xff0c;每辆火车有一个编号&#xff0c;编号为 1 到 n。 同时&#xff0c;也有火车需要出站&#xff0c;由于火车站进出共享一个轨道&#xff0c;所以后入站的火车需要先出站。换句话说&#xff0c;对于某一辆火车&#xff0c;只有在它…

Python数组(array)学习之旅:数据结构的奇妙冒险

Python数组学习之旅:数据结构的奇妙冒险 第一天:初识数组的惊喜 阳光透过窗帘缝隙洒进李明的房间,照亮了他桌上摊开的笔记本和笔记本电脑。作为一名刚刚转行的金融分析师,李明已经坚持学习Python编程一个月了。他的眼睛因为昨晚熬夜编程而微微发红,但脸上却挂着期待的微…

spark-core编程2

Key-Value类型&#xff1a; foldByKey 当分区内计算规则和分区间计算规则相同时&#xff0c;aggregateByKey 就可以简化为 foldByKey combineByKey 最通用的对 key-value 型 rdd 进行聚集操作的聚集函数&#xff08;aggregation function&#xff09;。类似于aggregate()&…

AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用

Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用 大型语言模型&#xff08;LLMs&#xff09;&#xff0c;如 ChatGPT&#xff0c;因其对人类语言的理解与生成能力而备受关注。尽管越来越多研究探索其在临床诊断辅助、医学教育等任务中的应用&#xff0c;但关于其发展、…

Windows 系统中安装 Git 并配置 GitHub 账户

由于电脑重装系统&#xff0c;重新配置了git. 以下是在 Windows 系统中安装 Git 并配置 GitHub 账户的详细步骤&#xff1a; 1. 安装 Git 访问 Git 官网下载页面下载 Windows 版本的 Git 安装程序运行安装程序&#xff0c;使用默认选项即可 2. 配置 Git 用户信息 打开命令…

QQ风格客服聊天窗口

QQ风格客服聊天窗口 展示引入方式 展示 引入方式 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title&g…

MCU刷写——Hex文件格式详解及Python代码

工作之余来写写关于MCU的Bootloader刷写的相关知识,以免忘记。今天就来聊聊Hex这种文件的格式,我是分享人M哥,目前从事车载控制器的软件开发及测试工作。 学习过程中如有任何疑问,可底下评论! 如果觉得文章内容在工作学习中有帮助到你,麻烦点赞收藏评论+关注走一波!感谢…

汇舟问卷:国外问卷调查技巧有哪些,具体该怎么操作

大家好&#xff0c;我是汇舟问卷&#xff0c;今天咱们就聊聊国外问卷答题的技巧和操作步骤&#xff0c;保你听完立马能上手&#xff01; 一、答题前先创建人设 1&#xff0c;进题时先瞄两眼问题&#xff0c;快速判断问卷主题&#xff0c;再定人设。比如遇到奶粉问卷&#xff…

C++标识符:检查是否和保留字冲突

1. 基础知识 最基本的要求&#xff1a; 字母、数字、下划线组成&#xff0c; 并且不能是数字开头。 禁忌1&#xff1a; C 关键字不能用做标识符。 它们是&#xff1a; alignas alignof asm auto bool break case catch char char16_t char32_t class const constexpr const_…

《Python星球日记》第27天:Seaborn 可视化

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 专栏&#xff1a;《Python星球日记》&#xff0c;限时特价订阅中ing 目录 一、Seabor…

自动驾驶技术-相机_IMU时空标定

自动驾驶技术-相机_IMU时空标定 时间延迟 时间延迟 参考链接1、2 相机主要分为全局和卷帘快门相机&#xff0c;从触发到成像的过程包括&#xff1a;复位时间、AE()曝光时间、读出时间 全局快门如下图所示 卷帘快门如下图所示 相机录制视频时&#xff0c;为了保持固定频率&am…

”插入排序“”选择排序“

文章目录 插入排序1. 直接插入排序(O(n^2))举例1&#xff1a;举例2&#xff1a;直插排序的"代码"直插排序的“时间复杂度” 2. 希尔排序(O(n^1.3))方法一方法二(时间复杂度更优) 选择排序堆排序直接选择排序 我们学过冒泡排序&#xff0c;堆排序等等。&#xff08;回…

Python深度学习基础——卷积神经网络(CNN)(PyTorch)

CNN原理 从DNN到CNN 卷积层与汇聚 深度神经网络DNN中&#xff0c;相邻层的所有神经元之间都有连接&#xff0c;这叫全连接&#xff1b;卷积神经网络 CNN 中&#xff0c;新增了卷积层&#xff08;Convolution&#xff09;与汇聚&#xff08;Pooling&#xff09;。DNN 的全连接…

MTK7628基于原厂的mtk-openwrt-sdk-20160324-8f8e4f1e.tar.bz2 源代码包,配置成单网口模式的方法

一、配置. 在SDK工程下&#xff0c;运行make kernel_menuconfig&#xff0c;如下图所示&#xff1a; Ralink Module --->选上“One Port Only”&#xff0c;如下图所示&#xff1a; 如果P0网口实现WAN口&#xff0c;就配置成W/LLLL,否则就配置成LLLL/W. 二、修改网口的原代…

艾伦·图灵:计算机科学与人工智能之父

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 艾伦图灵&#xff1a;计算机科学与人工智能之父 一、天才的诞生与早期生涯 1912年6月…

策略模式实现 Bean 注入时怎么知道具体注入的是哪个 Bean?

Autowire Resource 的区别 1.来源不同&#xff1a;其中 Autowire 是 Spring2.5 定义的注解&#xff0c;而 Resource 是 Java 定义的注解 2.依赖查找的顺序不同&#xff1a; 依赖注入的功能&#xff0c;是通过先在 Spring IoC 容器中查找对象&#xff0c;再将对象注入引入到当…

React九案例中

代码下载 地图找房模块 顶部导航栏 封装NavHeader组件实现城市选择&#xff0c;地图找房页面的复用&#xff0c;在 components 目录中创建组件 NavHeader&#xff0c;把之前城市列表写过的样式复制到 NavHeader.scss 下&#xff0c;在该组件中封装 antd-mobile 组件库中的 N…

第一期:[特殊字符] 深入理解MyBatis[特殊字符]从JDBC到MyBatis——持久层开发的转折点[特殊字符]

前言 &#x1f31f; 在软件开发的过程中&#xff0c;持久层&#xff08;或数据访问层&#xff09;是与数据库进行交互的关键部分。早期&#xff0c;开发者通常使用 JDBC&#xff08;Java Database Connectivity&#xff09;来实现与数据库的连接与操作。虽然 JDBC 在一定程度上…