vLLM初识（一）

news2025/2/22 13:38:39

vLLM初识（一）

在这里插入图片描述

前言

在LLM推理优化——KV Cache篇（百倍提速）中，我们已经介绍了KV Cache技术的原理，从中我们可以知道，KV Cache本质是空间换时间的技术，对于大型模型和长序列，它可能会占用大量内存。实际上LLM从诞生之初就在与内存作斗争，只是计算时间问题更加尖锐，掩盖了这一部分。随着研究的推进，内存问题也变得越来越突出。

vLLM提出了PagedAttention方法，尝试通过将 KV 缓存划分为可通过查找表访问的块来优化内存使用。因此，KV 缓存不需要存储在连续内存中，并且根据需要分配块。内存效率可以提高内存受限工作负载上的 GPU 利用率，因此可以支持更多推理批处理。我接下来就使用几篇博客来初步了解一下vLLM。

vLLM初探

vLLM 是一个快速且易于使用的库，用于 LLM 推理和服务。

vLLM速度很快，具有以下特点：

最先进的服务吞吐量
使用 PagedAttention 高效管理注意力键和值内存
连续批处理传入请求
使用 CUDA/HIP 图快速执行模型
量化：GPTQ、AWQ、SqueezeLLM、FP8 KV 缓存
优化的 CUDA 内核

vLLM 灵活且易于使用：

与流行的 HuggingFace 型号无缝集成
使用各种解码算法提供高吞吐量服务，包括并行采样、波束搜索等
面向分布式推理的张量并行性和流水线并行性支持
面向分布式推理的张量并行性和流水线并行性支持
流式输出
兼容 OpenAI 的 API 服务器
支持 NVIDIA GPU 和 AMD GPU

安装

为了提高性能，vLLM编译了许多cuda内核。该编译引入了与其他 CUDA 版本和 PyTorch 版本的二进制不兼容。安装时务必注意cuda版本和pytorch版本。

# Install vLLM with CUDA 12.1.
pip install vllm

# Install vLLM with CUDA 11.8.
export VLLM_VERSION=0.4.0
export PYTHON_VERSION=310
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

从源代码构建

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .  # This may take 5-10 minutes.

使用docker镜像

# Use `--ipc=host` to make sure the shared memory is large enough.
docker run --gpus all -it --rm --ipc=host nvcr.io/nvidia/pytorch:23.10-py3

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1976518.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

vLLM初识（一）

vLLM初识（一）

前言

vLLM初探

安装

从源代码构建

使用docker镜像

相关文章

MyBatis动态代理和映射器

动手学深度学习V2每日笔记（卷积层）

3.OpenFeign与负载均衡

清华计算几何-算法LowBound和ConvexHull(凸包)-GrahamScan

5.0-软件工程基础知识-考点分析

【小技巧】Keil5 和 NotePad++ 代码格式化 (Ctrl + Q) ( 插件安装astyle-3.5-x64 / NppAStyle)

【qiankun微前端】基座主应用（vue2）+多个微应用(任意框架)

预警器件控制思考

私藏心术：低谷期翻身转运秘籍

第一个 Flask 项目

程序员学长 | 快速学习一个算法，CLIP

机器学习流程图

【课程总结】day19（下）：Transformer源码深入理解

LaneATT推理详解及部署实现（上）

Java游戏源码：象棋网络对战版

二维码生成原理及解码原理

Star-CCM+负体积网格检查与出现原因

＜数据集＞人员摔倒识别数据集＜目标检测＞

当前生物信息学研究面临的四大机遇和挑战（特别是最后一个，一定要足够重视）...

如何快速入门 PyTorch ？