大模型分布式推理和量化部署

大模型分布式推理和量化部署

news2025/4/16 10:16:21

一、小常识

1、计算大模型占用多少显存

对于一个7B（70亿）参数的模型，每个参数使用16位浮点数（等于 2个 Byte）表示，则模型的权重大小约为：

70×10^9 parameters×2 Bytes/parameter=14GB
70亿个参数×每个参数占用2个字节=14GB

所以我们需要大于14GB的显存。注意14GB单纯是大模型启动所占的显存大小，还有推理过程的输入和输出，kv缓存，推理框架运行等，都需要消耗显存。

2、大模型推理

大模型已经训练好了，现在拿它来“用”——让它预测、生成或分类。比如你用 ChatGPT 聊天、用图像模型生成图像，这些都是大模型推理阶段。

二、分布式推理的场景

1.单卡显存不足：如QwQ-32B（320亿参数）需在双A6000显卡上部署。
2.高并发请求：在线服务需同时处理多用户请求，分布式推理通过连续批处理（Continuous Batching）提升效率。

三、vLLM的分布式推理实现

vLLM通过PagedAttention和张量并行技术优化显存管理和计算效率，支持多GPU推理。核心机制：

张量并行：通过tensor_parallel_size参数指定GPU数量，模型自动拆分到多卡。
PagedAttention：将注意力机制的键值（KV）缓存分块存储，减少显存碎片，提升利用率。
连续批处理：动态合并不同长度的请求，减少GPU空闲时间。

官方文档：https://docs.vllm.ai/en/latest/serving/distributed_serving.html

中文文档（非官方）：https://vllm.hyper.ai/docs/serving/distributed-inference-and-serving

vLLM分布式推理实战

1、要使用 LLM 类运行多 GPU 推理，将 tensor_parallel_size 参数设置为要使用的 GPU 数量。例如，要在 4 个 GPU 上运行推理:

from vllm import LLM
llm = LLM(`facebook/opt-13b`, tensor_parallel_size=4)
output = llm.generat

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2335004.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【ROS】分布式通信架构

【ROS】分布式通信架构

【ROS】分布式通信架构前言环境要求主机设置（Master）从机设置（Slave）主机与从机通信测试本文示例启动ROS智能车激光雷达节点本地计算机配置与订阅前言在使用 ROS 时，我们常常会遇到某些设备计算能力不足的情况。例…

阅读更多...

零基础HTML·笔记(持续更新…)

零基础HTML·笔记(持续更新…)

基础认知 HTML标签的结构 <strong>文字变粗</strong> ＜开始标签＞内容＜结束标签＞ 结构说明： 标签由<、>、1、英文单词或字母组成。并且把标签中<>包括起来的英文单词或字母称为标签名。常…

阅读更多...

Visual Studio 2022 UI机器学习训练模块

Visual Studio 2022 UI机器学习训练模块

VS你还是太超标了，现在机器学习都不用写代码了吗！！ 右键项目解决方案，选择机器学习模型

阅读更多...

FreeRTOS使任务处于阻塞态的API

FreeRTOS使任务处于阻塞态的API

在FreeRTOS中，任务进入阻塞状态通常是因为等待某个事件或资源。以下是常用的使任务进入阻塞态的API及其分类： 1. 任务延时 vTaskDelay(pdMS_TO_TICKS(ms)) 将任务阻塞固定时间（相对延时，从调用时开始计算）。示例&…

阅读更多...

独立开发者之网站的robots.txt文件如何生成和添加

独立开发者之网站的robots.txt文件如何生成和添加

robots.txt是一个存放在网站根目录下的文本文件，用于告诉搜索引擎爬虫哪些页面可以抓取，哪些页面不可以抓取。下面我将详细介绍如何生成和添加robots.txt文件。什么是robots.txt文件？ robots.txt是遵循"机器人排除协议"(Robots…

阅读更多...

Leedcode刷题 | Day31_贪心算法05

Leedcode刷题 | Day31_贪心算法05

一、学习任务 56. 合并区间代码随想录738. 单调递增的数字968. 监控二叉树二、具体题目 1.56合并区间56. 合并区间 - 力扣（LeetCode） 给出一个区间的集合，请合并所有重叠的区间。示例 1: 输入: intervals [[1,3],[2,6],[8,10],[15,1…

阅读更多...

猫咪如厕检测与分类识别系统系列【一】功能需求分析及猫咪分类特征提取

猫咪如厕检测与分类识别系统系列【一】功能需求分析及猫咪分类特征提取

开发背景家里养了三只猫咪，其中一只布偶猫经常出入厕所。但因为平时忙于学业，没法时刻关注牠的行为。我知道猫咪的如厕频率和时长与健康状况密切相关，频繁如厕可能是泌尿问题，停留过久也可能是便秘或不适。为了更科学地了解牠的…

阅读更多...

粘性定位（position:sticky）——微信小程序学习笔记

粘性定位（position:sticky）——微信小程序学习笔记

1. 简介 CSS 中的粘性定位（Sticky positioning）是一种特殊的定位方式，它可以使元素在滚动时保持在视窗的特定位置，类似于相对定位（relative），但当页面滚动到元素的位置时，它会表现得…

阅读更多...

最新版IDEA超详细图文安装教程（适用Mac系统）附安装包及补丁2025最新教程

最新版IDEA超详细图文安装教程（适用Mac系统）附安装包及补丁2025最新教程

目录前言一、IDEA最新版下载二、IDEA安装三、IDEA补丁前言 IDEA（IntelliJ IDEA）是专为Java语言设计的集成开发环境（IDE），由JetBrains公司开发，被公认为业界最优秀的Java开发工具之一。DEA全称Int…

阅读更多...

JavaWeb-04-Web后端基础(SpringBootWeb、HTTP协议、分层解耦、IOC和DI)

JavaWeb-04-Web后端基础(SpringBootWeb、HTTP协议、分层解耦、IOC和DI)

目录一、SpringBootWeb入门 1.1 概述 1.2 入门程序 1.2.1 需求 1.2.2 开发步骤 1.3 入门解析二、HTTP协议 2.1 HTTP概述 2.1.1 介绍 2.1.2 特点 2.2 HTTP请求协议 2.2.1 介绍 2.2.2 获取请求数据 2.3 HTTP响应协议 2.3.1 格式介绍 2.3.2 响应状态码 2.3…

阅读更多...

SQLite + Redis = Redka

SQLite + Redis = Redka

Redka 是一个基于 SQLite 实现的 Redis 替代产品，实现了 Redis 的核心功能，并且完全兼容 Redis API。它可以用于轻量级缓存、嵌入式系统、快速原型开发以及需要事务 ACID 特性的键值操作等场景。功能特性 Redka 的主要特点包括： 使用 SQLi…

阅读更多...

wkhtmltopdf 实现批量对网页转为图片的好工具，快速实现大量卡片制作

wkhtmltopdf 实现批量对网页转为图片的好工具，快速实现大量卡片制作

欢迎来到涛涛聊AI 1、需求痛点在学习当中经常遇到一些知识点，想和大家分享。但只有文本形式，很多人不愿意去阅读，也看不到重点。如果自己去单独设计页面版式，又太浪费时间。那就想着有没有一种方法，可以把一个知识…

阅读更多...

深入解析xDeepFM：结合压缩交互网络与深度神经网络的推荐系统新突破

深入解析xDeepFM：结合压缩交互网络与深度神经网络的推荐系统新突破

今天是周日，我来解读一篇有趣的文章——xDeepFM。这篇文章由 Mao et al. 发表在SIGIR 2019会议。文章提出了一个新的网络模型——压缩交互网络（CIN），用于显式地学习高阶特征交互。通过结合 CIN 和传统的深度神经网络（D…

阅读更多...

CST1017.基于Spring Boot+Vue共享单车管理系统

CST1017.基于Spring Boot+Vue共享单车管理系统

计算机/JAVA毕业设计【CST1017.基于Spring BootVue共享单车管理系统】【项目介绍】共享单车管理系统，基于 Spring Boot Vue 实现，功能丰富、界面精美【业务模块】系统共有四类用户，分别是：监管用户、运营用户、调度用户、普…

阅读更多...

vue实现二维码生成器和解码器

vue实现二维码生成器和解码器

vue实现二维码生成器和解码器 1.生成基本二维码：根据输入的value生成二维码。 2.可定制尺寸：通过size调整大小。 3.颜色和背景色：设置二维码颜色和背景。 4.静区（quiet zone）支持：通过quietZone调整周围的…

阅读更多...

c#和form实现WebSocket在线聊天室

c#和form实现WebSocket在线聊天室

c#和form实现WebSocket在线聊天室功能点后端程序 (Program.cs)1.WebSocket 聊天服务器核心功能a.管理客户端连接（ConnectionManager 类）b.支持公聊消息广播（所有用户可见）c.支持私聊消息（通过用户ID 格式指…

阅读更多...

量子代理签名：量子时代的数字授权革命

量子代理签名：量子时代的数字授权革命

1. 量子代理签名的定义与核心原理量子代理签名（Quantum Proxy Signature, QPS）是经典代理签名在量子信息领域的延伸，允许原始签名者（Original Signer）授权给代理签名者（Proxy Signer）代为签署文…

阅读更多...

「Unity3D」TextMeshPro中的TMP_InputField，用来实现输入框的几个小问题

「Unity3D」TextMeshPro中的TMP_InputField，用来实现输入框的几个小问题

第一，正确设置Scrollbar。设置Scrollbar之后，不能设置Text Component的Font Size为Auto Size，否则Scrollbar无法正确计算显示。那么，要想自动适配字体大小，可以让Placeholder中的Font Size设置为Auto，这…

阅读更多...

Docker 介绍 · 安装详细教程

Docker 介绍 · 安装详细教程

为什么选择 Docker？ ✅ 环境一致性 – 告别“在我机器上能跑”的问题，确保开发、测试、生产环境一致。 ✅ 高效轻量 – 秒级启动，资源占用远低于传统虚拟机。 ✅ 跨平台支持 – 可在任何支持 Docker 的环境中运行，包括云服务器、…

阅读更多...

vulnhub：sunset decoy

vulnhub：sunset decoy

靶机下载地址https://www.vulnhub.com/entry/sunset-decoy,505/ 渗透过程简单信息收集 nmap 192.168.56.0/24 -Pn # 确定靶机ip：192.168.56.121 nmap 192.168.56.121 -A -T4 # 得到开放端口22,80 在80端口得到save.zip，需要密码解压。 john破解压缩…

阅读更多...

推荐文章

最新文章