【第三期实战营闯关作业##LMDeploy 量化部署进阶实践】

【第三期实战营闯关作业##LMDeploy 量化部署进阶实践】

news2026/2/13 5:48:03

《LMDeploy 量化部署进阶实践》这节课内容有些多，因此分了两部分提交了。以下是记录复现过程及截图;
在这里插入图片描述
这是执行了下面的命令，占用显存的情况。（如截图顶部）
lmdeploy chat /root/models/internlm2_5-7b-chat --cache-max-entry-count 0.4
在这里显存41833M,41833/1024=40.8G,那(80-27)=66G,因cache为0.4，660.4=26.4G, 26.4+2*7=40.4G, 40.8G与40.4G很相近吧！
0.4G的差值是实际还有别的内存占用
在这里插入图片描述
这是对internlm2_5-7b-chat用 W4A16 量化和部署
W4：这通常表示权重量化为4位整数（int4）。这意味着模型中的权重参数将从它们原始的浮点表示（例如FP32、BF16或FP16，Internlm2.5精度为BF16）转换为4位的整数表示。这样做可以显著减少模型的大小。
A16：这表示激活（或输入/输出）仍然保持在16位浮点数（例如FP16或BF16）。激活是在神经网络中传播的数据，通常在每层运算之后产生。
因此，W4A16的量化配置意味着：

权重被量化为4位整数。
激活保持为16位浮点数。在这里插入图片描述
量化中
量化中
推理完成，便可以直接在你设置的目标文件夹看到对应的模型文件internlm2_5-7b-chat-w4a16-4bit。
那么推理后的模型和原本的模型区别最明显的两点是模型文件大小以及占据显存大小有了很大差别。
internlm2_5-7b-chat是： 15GB

nternlm2_5-7b-chat-w4a16-4bit/是：4.9GB 在这里插入图片描述
这是模型对话的截图

在 BF16 精度下，7B模型权重占用14GB：70×10^9 parameters×2 Bytes/parameter=14GB

2、kv cache占用8GB：剩余显存24-14=10GB，kv cache默认占用80%，即10*0.8=8GB

3、其他项1GB

因此23GB=（权重占用）14GB +（kv cache占用）8GB + （其它项）1GB

而对于W4A16量化之后的显存占用情况(20.9GB)：

1、在 int4 精度下，7B（模型权重）占用 3.5GB：14/4=3.5GB

bfloat16是16位的浮点数格式，占用2字节（16位）的存储空间。int4是4位的整数格式，占用0.5字节（4位）的存储空间。因此，从

bfloat16到int4的转换理论上可以将模型权重的大小减少到原来的1/4，即7B个int4参数 (270.5 = 3.5GB) 的显存。

2、kv cache 占用 16.4GB是这样得到的：（剩余显存）24-3.5 = 20.5GB，kv cache默认占用 80%，即：20.5*0.8 = 16.4GB

3、其他项1GB

因此 20.9GB=（权重占用）3.5GB+（kv cache占用）16.4GB +（其它项）1GB

以上是记录了主要过程，请佬们☞正

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2093103.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

视觉检索（以图搜图）技术分享

视觉检索（以图搜图）技术分享

视觉检索（Visual Retrieval）是一个涉及计算机视觉和图像处理的技术领域，主要目标是从大量的视觉数据中找到与查询图像或视频相关的内容。视觉检索技术在多个领域都有广泛应用，如医疗图像分析、安全监控、机器人视觉、电子商务等。…

阅读更多...

《高等代数》“爪”字型行列式

《高等代数》“爪”字型行列式

说明：此文章用于本人复习巩固，如果也能帮助到大家那就更加有意义了。注：1）“爪”字型行列式的第一种求解方法是利用初等行（列）变换，将第一列除第一行的第一个数以外的其它数…

阅读更多...

浅谈常见的分布式ID生成方案

浅谈常见的分布式ID生成方案

一、UUID UUID是通用唯一标识码的缩写，其目的是让分布式系统中的所有元素都有唯一的辨识信息，而不需要通过中央控制器来指定唯一标识。优点： （1）降低全局节点的压力，使得主键生成速度更快； &…

阅读更多...

Llamaindex RAG实践

Llamaindex RAG实践

加入xtunert文档作为提示词让大模型理解xtuner

阅读更多...

【C++ Primer Plus习题】7.8

【C++ Primer Plus习题】7.8

问题: 解答: #include <iostream> using namespace std;#define SEASONS 4typedef struct _Spend {double money[SEASONS]; }Spend;const char* Snames[SEASONS] { "Spring","Summer","Fall","Winter" };void fill(double* ex…

阅读更多...

vue2表格显隐列的封装【升级缓存版】

vue2表格显隐列的封装【升级缓存版】

背景我们知道，若依后台有列表页、表格字段有显隐列的功能，但是，页面一旦刷新，就又回到初始状态了，但是有时候我们想要刷新后也保留我们设置的显隐列，就需要自己封装了若依显隐列示例图如下： …

阅读更多...

RK3568笔记五十八：基于SIP的视频通话测试

RK3568笔记五十八：基于SIP的视频通话测试

若该文为原创文章，转载请注明原文出处。一、简介记录SIP的视频通话测试过程，以前有做过GB28181了解过SIP协议，后面由于一些原因，没有在做了，在安防领域上，有很多终端设备使用SIP协议实现视频对讲等功能。此篇记录交叉编译eXosip和osip，并编写检测的SIP客户端，通过…

阅读更多...

【kubernetes】kubernetes Deployment 详解

【kubernetes】kubernetes Deployment 详解

Deployment 详解 kubernetes Deployment 详解创建与删除kubernetes Deployment更新/回滚/缩放/暂停/恢复部署操作发布策略1、在zs命名空间下创建3个httpd副本并查看结果2、尝试删除其中一个副本并查看结果3、删除所有副本并查看结果4、使用k8s做金丝雀发布测试 kubernetes Dep…

阅读更多...

teamtalk最近联系会话

teamtalk最近联系会话

最近联系人相关信令和协议设计 enum BuddyListCmdID {CID_BUDDY_LIST_RECENT_CONTACT_SESSION_REQUEST 513,CID_BUDDY_LIST_RECENT_CONTACT_SESSION_RESPONSE 514,};流程图根据最新的时间戳查找最新的会话更新客户端的会话时间 /*** 获取最近会话接口** param pPdu …

阅读更多...

Java数据结构（七）——优先级队列与PriorityQueue

Java数据结构（七）——优先级队列与PriorityQueue

文章目录优先级队列与PriorityQueue堆基本概念和性质建堆堆的插入堆的删除堆的应用 PriorityQueuePriorityQueue的构造方法PriorityQueue的常用方法PriorityQueue的模拟实现经典TopK问题优先级队列与PriorityQueue 优先级队列是一种特殊类型的队列，其中元素按照…

阅读更多...

聊聊 OceanBase 内存管理

聊聊 OceanBase 内存管理

内存配置管理是数据库日常管理中非常重要的工作，正确合理配置数据库内存是保障系统高效运行的前提条件。 OceanBase 数据库是一个支持多租户架构的准内存级的分布式数据库，对大容量内存的管理和使用提出了很高的要求。实际使用上，OceanBase …

阅读更多...

1.【R语言】R语言的下载和安装

1.【R语言】R语言的下载和安装

R语言是一种开源编程语言，它提供了丰富的统计模型和图形绘制功能，广泛用于数据科学、统计分析、数据挖掘和机器学习。R有一个活跃的社区和大量的包，可以满足各种需求，如数据清洗、绘图和报告生成。其强大的数据处理能力和灵活的可…

阅读更多...

【ESP-IDF FreeRTOS】队列管理

【ESP-IDF FreeRTOS】队列管理

先包含下头文件。 #include "freertos/queue.h" 队列大家应该不陌生，就是一个先进先出的容器。用在FreeRTOS里用途就多了。首先是可以让任务与任务之间以及中断之间通信，任务A把数据塞进队列再让任务B取出，这样就可以传递数据了…

阅读更多...

BMC lighttpd kvm数据分析(websocket)

BMC lighttpd kvm数据分析(websocket)

1.说明 lighttpd源码: https://github.com/lighttpd/lighttpd1.4.gitlighttpd wiki: https://redmine.lighttpd.net/projects/lighttpd/wiki/libfcgi: https://github.com/toshic/libfcgi/tree/master 注意: 本章的代码仓库: https://gitee.com/wit_yuan/lighttpd_kvm 2.编…

阅读更多...

3127.构造相同颜色的正方形

3127.构造相同颜色的正方形

1.题目描述给你一个二维 3 x 3 的矩阵 grid ，每个格子都是一个字符，要么是 B ，要么是 W 。字符 W 表示白色，字符 B 表示黑色。你的任务是改变至多一个格子的颜色，使得矩阵中存在一个 2 x 2 颜色完全相同的正方形。…

阅读更多...

无敌美少男和无敌美少女构建企业级私有仓库(harbor)

无敌美少男和无敌美少女构建企业级私有仓库(harbor)

一：harbor简介 Harbor 是由 vmware 公司开源的企业级 Docker Registry 项目。它提供了以下主要功能和特点： 基于角色的访问控制（RBAC）：可以为不同的用户和用户组分配不同的权限，增强了安全性和管理的灵…

阅读更多...

Linux下的MySQL8.0报错：[Err]1055

Linux下的MySQL8.0报错：[Err]1055

Linux下的MySQL8.0报错：[Err]1055 报错信息解决办法报错信息在Linux环境下的MySQL里执行SQL语句报如下错误：[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column information_schema.PROFIL…

阅读更多...

maven 父子工程创建详解

maven 父子工程创建详解

maven 父子工程创建详解一、Maven工程继承关系继承概念 maven继承是指的Maven的项目中，让一个项目从另外项目中继承配置信息的机制。继承可以让我们在多个项目中共享同一个配置信息，简化项目的管理和维护工作继承作用：在父工程中统一管理…

阅读更多...

Datawhale AI夏令营第五期 CV方向 Task3笔记

Datawhale AI夏令营第五期 CV方向 Task3笔记

Task3：上分思路——数据集增强与模型预测 Part1：数据增强数据增强是机器学习和深度学习中的一种技术，通过在原始数据集上应用一系列变换来人工地增加数据样本的数量和多样性，从而提高模型的泛化能力，减少过拟合&…

阅读更多...

简单的 nginx 学习

简单的 nginx 学习

简单的 nginx 学习 1. nginx的安装 1.1 下载安装包去官网下载对应的nginx包，推荐使用稳定版本，上传nginx到linux系统 1.2 安装依赖环境安装gcc环境 yum install gcc-c安装PCRE库，用于解析正则表达式 yum install -y pcre pcre-develzlib压…

阅读更多...

推荐文章

最新文章