大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

news2025/12/20 9:44:09

通过本文，你将了解以下几个方面的内容：

要运行一个LLM需要多少显存？（我的GPU可以运行多大LLM？）
不同LLM推理速度如何？
量化对显存、推理速度和性能的影响？
vLLM、DeepSeed等工具的加速效果如何？
上下文、batch-size对显存和推理的影响？

本文内容和测试数据主要来自Qwen，零一万物，Nvidia等官方材料（相关文档请查看参考资料部分）。

1. 不同参数量LLM推理需要多少显存？

实验设置：batch-size = 1
部分模型只推荐GPU，没有显存数据。

1.1 低配使用（计算资源有限）

Int4量化，约2K上下文

模型（int4）	所需显存 (GB)	推荐GPU	参考模型
0.5B	<5G		Qwen2-0.5B-Instruct
1.5B	<3G		Qwen-1_8B-Chat, Qwen2-1.5B-Instruct
6B	4G		Yi-6B-Chat-4bits
7B	<11G		Qwen2-7B-Instruct，Qwen-7B-Chat-Int4
14B	13G		Qwen-14B-Chat-Int4
34B	20G		Yi-34B-Chat-4bits
57B	<35G		Qwen2-57B-A14B-Instruct
72B	<47G		Qwen2-72B-Instruct
130B	-	8 * RTX 2080 Ti(11G) 4 * RTX 3090(24G)	GLM-130B
236B	130G	8xA100(80G)	DeepSeek-V2-Chat

1.2 标配使用（性能与资源平衡）

Int8量化，4K、6K上下文

模型（int8）	所需显存 (GB)	推荐GPU	参考模型
0.5B	6G		Qwen2-0.5B-Instruct
1.5B	8G		Qwen2-1.5B-Instruct
6B	8G		Yi-6B-Chat-8bits
7B	14G		Qwen2-7B-Instruct
14B	27G		Qwen-14B-Chat-Int8
34B	38G		Yi-34B-Chat-8bits
57B	117G (bf16)		Qwen2-57B-A14B-Instruct
72B	80G		Qwen2-72B-Instruct
130B	-	8xRTX3090 (24G)	GLM-130B
236B	490G (fb16)	8xA100 (80G)	DeepSeek-V2-Chat
340B	-	16xA100(80G) 16xH100(80G) 8xH200	Nemotron-4-340B-Instruct

1.3 高配使用（高级用法，性能优先）

性能优先，不量化，数据格式FB16，32K上下文

模型（fb16）	所需显存 (GB)	推荐GPU	参考模型
0.5B	27G		Qwen2-0.5B-Instruct
1.5B	30G		Qwen2-1.5B-Instruct
6B	20G		Yi-6B-200K
7B	43G		Qwen2-7B-Instruct
14B	39G (8k)		Qwen-14B-Chat
34B	200G (200k)	4 x A800 (80G)	Yi-34B-200K
57B	117G		Qwen2-57B-A14B-Instruct
72B	209G		Qwen2-72B-Instruct

若以上内容无法帮助你做出判断，你可以参考Qwen官网更详细的数据：Qwen速度基准

2. Batch Size和量化对显存的影响

要点：

Batch Size增加，显存占用也会增加。
量化可以节省显存：通过下表中的数据可以看到，6B模型在float16时占用12G显存，8bit量化占用7G，4bit量化只需要4G显存。

Model	batch=1	batch=4	batch=16	batch=32
Yi-6B-Chat	12 GB	13 GB	15 GB	18 GB
Yi-6B-Chat-8bits	7 GB	8 GB	10 GB	14 GB
Yi-6B-Chat-4bits	4 GB	5 GB	7 GB	10 GB
Yi-34B-Chat	65 GB	68 GB	76 GB	>80 GB
Yi-34B-Chat-8bits	35 GB	37 GB	46 GB	58 GB
Yi-34B-Chat-4bits	19 GB	20 GB	30 GB	40 GB

数据来源：Yi-6B-Chat

3. 上下文长度对显存和推理速度的影响

要点：

上下文越长，推理速度越慢。
显存占用也会增加。

输入长度（上下文）	推理速度 (Tokens/s)	GPU占用
1	37.97	14.92
6144	34.74	20.26
14336	26.63	27.71
30720	17.49	42.62

数据整理自Qwen2官方测试报告。

4. 量化对推理速度的影响

要点：

量化后推理速度会变慢或持平。
当量化影响到GPU使用量时，例如从多张GPU降低到单GPU，推理速度会明显变快。

Qwen2模型的测试结果如下：

Qwen2-0.5B模型：量化模型速度变慢。
Qwen2-1.5B模型：量化与fb16相比速度持平。
Qwen2-7B模型：稍微变慢，使用vLLM时，量化版本更快。
Qwen2-72B模型：速度变快（尤其是Int4量化后，从2GPU变为1GPU后推理速度明显变快），但使用长context时（120k），量化版本推理速度变慢。

详细结果请访问：Qwen速度基准

5. 参数量对推理速度的影响

单位：tokens/s

推理工具	0.5B	1.5B	7B	72B
Transformers	50.83	40.86	34.74	5.99
vLLM	256.16	166.23	76.41	27.98
vLLM 速度提升倍数	5.04倍	4.07倍	2.20倍	4.67倍

模型：Qwen2系列，上下文6K，FB16模型

6. vLLM、DeepSeed、CTranslate2等工具推理速度如何？

与Transformers相比，使用vLLM、DeepSeed等工具加速，推理速度可以提升2到5倍。
DeepSeed、vLLM、CTranslate2三个加速工具中，CTranslate2的表现更好，尤其是batch size为1时。

在这里插入图片描述

7. 量化对模型性能的影响

Int8量化模型性能与float16格式差别不大。量化文档
Int4量化模型与float16模型相比，精度损失在1-2个百分点左右。（Yi模型与Baichuan2模型有类似结论）Baichuan2

8. 常见LLM用GPU参考

GPU	显存
H200	141GB
H100, H800	80GB
A100, A800	80GB
A100	40GB
V100	32GB
RTXA6000	48GB
RTX4090, RTX3090, A10, A30	24GB
RTX4070	12GB
RTX3070	8GB

参考资料

Qwen速度基准
Qwen-1_8B-Chat
Qwen-7B-Chat-Int8
Qwen-14B-Chat-Int8
Yi-6B-Chat
GLM-130B量化
Nemotron-4-340B-Instruct
DeepSeek-V2-Chat
Zenn文章
Baichuan2

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1876177.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

智慧校园-档案管理系统总体概述

智慧校园-档案管理系统总体概述

智慧校园档案管理系统，作为教育信息化进程中的重要一环，它运用现代信息技术的力量，彻底改变了传统档案管理的面貌，为学校档案资源的收集、整理、存储、检索与利用开辟了全新的途径。这一系统全面覆盖学生、教职工、教学科研及行政…

阅读更多...

Rocky Linux设置静态IP

Rocky Linux设置静态IP

[connection] idens160 uuidcd246f67-c929-362a-809d-f1b44ddc5d25 typeethernet autoconnect-priority-999 interface-nameens160 timestamp1719094243[ethernet][ipv4] ## 在IPV4下面修改如下内容 methodmanual address192.…

阅读更多...

常见的反爬手段和解决思路（爬虫与反爬虫）

常见的反爬手段和解决思路（爬虫与反爬虫）

常见的反爬手段和解决思路（爬虫与反爬虫） 学习目标1 服务器反爬的原因2 服务器长反什么样的爬虫（1）十分低级的应届毕业生（2）十分低级的创业小公司（3）不小心写错了没人去停止的失控小…

阅读更多...

nuxt实现vuex持久化

nuxt实现vuex持久化

前言： 此处不借助插件实现 store 本地持久化所有状态持久化使用 vuex 里面的 replaceState 方法还原 store 的根状态 API 参考 | Vuex 创建 store-cache.js 文件在 plugins 目录下创建 store-cache.js 文件； store-cache.js export default (ctx) &g…

阅读更多...

深度之眼（二十八）——神经网络基础知识（三）-卷积神经网络

深度之眼（二十八）——神经网络基础知识（三）-卷积神经网络

文章目录一、前言二、卷积操作2.1 填充（padding）2.2 步长2.3 输出特征图尺寸计算2.4 多通道卷积三、池化操作四、Lenet-5及CNN结构进化史4.1 Lenet-5 一、前言卷积神经网络–AlexNet(最牛)-2012 Lenet-5-大规模商用（1989） 二、…

阅读更多...

如何保护磁盘数据？电脑磁盘数据怎么保护？

如何保护磁盘数据？电脑磁盘数据怎么保护？

电脑磁盘是存储数据的基础，可以将各种重要数据保存在其中。为了避免数据泄露，我们需要保护磁盘数据。那么，电脑磁盘数据怎么保护呢？下面我们就一起来了解一下吧。文件夹加密超级大师文件夹加密超级大师是一款优秀的电脑数据加密…

阅读更多...

收银系统源码-千呼新零售2.0【宠物、养生、大健康行业解决方案】

千呼新零售2.0系统是零售行业连锁店一体化收银系统，包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体，线上线下数据全部打通。适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物、中医养生、大健康等连锁店…

阅读更多...

ubuntu丢失网络/网卡的一种原因解决方案

ubuntu丢失网络/网卡的一种原因解决方案

现象开机进入ubuntu后发现没有网络，无论是在桌面顶部状态栏的快捷键还是系统设置中，都没有”有线网“和”无线网“的选项，”代理“的选项是有的使用数据线连接电脑和手机，手机开启”通过usb共享网络“，还是没有任何…

阅读更多...

【shell脚本实战案例】主机状态监控脚本

【shell脚本实战案例】主机状态监控脚本

文章目录案例需求脚本应用场景解决问题脚本思路实现代码 🌈你好呀！我是山顶风景独好 🎈欢迎踏入我的博客世界，能与您在此邂逅，真是缘分使然！😊 🌸愿您在此停留的每一刻&#xff0c…

阅读更多...

日期类（java)

日期类（java)

文章目录第一代日期类 Date常用构造方法SimpleDateFormat 日期格式化类日期转字符串（String -> Date)字符串转日期 (String->Date) 第二代日期类 Calendar常用字段与如何得到实例对象相关 API 第三代日期类（LocalDate\TIme)日期，时间&…

阅读更多...

datax入门（data-web的简单使用）——02

datax入门（data-web的简单使用）——02

datax入门（data-web的简单使用）——02 1. 前言1.1 关于data-web官网1.1.1 源码下载1.1.2 datax-Web部署手册1.1.2.1 Linux环境部署手册1.1.2.2 本地开发环境部署手册 1.2 关于datax入门 2. 下载之后打包、启动、登录2.1 我的本地环境2.2 修改配置2.3 初始…

阅读更多...

[C语言]指针

[C语言]指针

一、指针简介 1、指针(Pointer)是C语言的一个重要知识点，其使用灵活、功能强大，是C语言的灵魂 2、指针与底层硬件联系紧密，使用指针可操作数据的地址，实现数据的间接访问 3、计算机存储机制 4、定义指针 （1&#x…

阅读更多...

C++ 史上首次超越 C，仅次于Python！【送源码】

C++ 史上首次超越 C，仅次于Python！【送源码】

TIOBE 公布了 2024 年 6 月的编程语言排行榜——C 史上首次超越 C，跃至榜二，仅次于 Python。 C 是一种广泛应用于嵌入式系统、游戏开发和金融交易软件等领域的语言，在本月成功超越了 C， 成为了 TIOBE 指数中新的第二名。这是 C …

阅读更多...

一个 API 客户端和一份 TS 学习手册

一个 API 客户端和一份 TS 学习手册

第75期： Insomnia：超好看的 API 客户端项目介绍： 一款适用于 GraphQL、REST、WebSockets 和 gRPC 的开源 API 客户端，颜值超高。跨平台，支持 Mac、Windows 和 Linux。但不支持网页版，需要下载客户端。…

阅读更多...

[XYCTF新生赛2024]-PWN:EZ2.0?（arm架构，arm架构下的系统调用）

[XYCTF新生赛2024]-PWN:EZ2.0?（arm架构，arm架构下的系统调用）

查看保护查看ida 完整exp： from pwn import*pprocess(./arm) premote(gz.imxbt.cn,20082) svc0x0001c58c mov_r2_r4_blx_r30x00043224 pop_r70x00027d78 pop_r40x000104e0 pop_r30x00010160 pop_r10x0005f824 pop_r00x0005f73c sh0x0008A090payloadba*0x44 payloa…

阅读更多...

重生奇迹MU新手攻略：入坑之后怎样快速升级

重生奇迹MU新手攻略：入坑之后怎样快速升级

今天为大家带来重生奇迹MU新手升级攻略，如果你希望在游戏中快速提升等级并达到满级，以下是一些快速升级的方法： 确保经验章及时更新。经验章是升级过程中必不可少的道具，根据个人偏好选择是否使用黄金线。对于有较多时间的玩家&a…

阅读更多...

Maven - 在没有网络的情况下强制使用本地jar包

Maven - 在没有网络的情况下强制使用本地jar包

文章目录问题解决思路解决办法删除 _remote.repositories 文件代码手动操作步骤验证问题非互联网环境，无法从中央仓库or镜像里拉取jar包。服务器上搭建了一套Nexus私服。 Nexus私服故障，无法连接。工程里新增了一个Jar的依赖， 本地仓…

阅读更多...

Go-知识测试-工作机制

Go-知识测试-工作机制

Go-知识测试-工作机制生成test的maintest的main如何启动case单元测试 runTeststRunnertesting.T.Run 示例测试 runExamplesrunExampleprocessRunResult 性能测试 runBenchmarksrunNtesting.B.Run 在 Go 语言的源码中，go test 命令的实现主要在 src/cmd/go/internal…

阅读更多...

南昌高校大学智能制造实验室数字孪生可视化系统平台建设项目验收

南昌高校大学智能制造实验室数字孪生可视化系统平台建设项目验收

南昌高校大学智能制造实验室，作为该地区乃至全国智能制造领域的重要研究和教学基地，一直致力于探索和创新智能制造技术。近日，该实验室的数字孪生可视化系统平台建设项目成功通过了验收，标志着其在数字孪生技术领域取得了重大突破…

阅读更多...

【期末速成】计算机操作系统 EP04 | 学习笔记

【期末速成】计算机操作系统 EP04 | 学习笔记

文章目录一、前言🚀🚀🚀二、正文：☀️☀️☀️2.1 考点七：进程通信2.2 考点八：线程的概念2.3 考点九：处理机调度的概念及原则2.4 考点十：调度方式与调度算法一、前言🚀…

阅读更多...

推荐文章

最新文章