chatglm本地服务器大模型量化cpu INT4 INT8 half float运行、多卡多GPU运行改这一条指令就行啦！

chatglm本地服务器大模型量化cpu INT4 INT8 half float运行、多卡多GPU运行改这一条指令就行啦！

news2026/2/12 3:41:41

一、ChatGLM3的几种推演方式

ChatGLM3常规方案的GPU推演中half和float是两种最常用的格式，half格式占13GB显存，float格式占40GB显存。此外还提供了几种GPU量化格式的推演：INT4和INT8量化。

CPU版本的ChatGLM3推演：

model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).cpu().float()

INT4版本的ChatGLM3推演：(不是所有的硬件都支持INT4操作)

model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).quantize(4).cuda()

INT8版本的ChatGLM3推演：

model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).quantize(8).cuda()

half版本的ChatGLM3推演：

model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).half().cuda()

float版本的ChatGLM3推演：

model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).float().cuda()

二、多卡推演

由于高精度的float推演形式需要较大的显存（40G）,往往一张显卡很难满足其生产力需求，这时我们就可以使用多张显卡同时进行推演运算，而实现多卡推演的方式其实也特别简单。我们在这采取最简单的一种方式，就是在上述代码中加上一句device_map="auto"就可以了。

例：

model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True, device_map="auto").float()

这时我们将float量化的模型启动起来，新建一个terminal窗口输入nvidia-smi -l 2便可查看各显卡的使用情况：

nvidia-smi -l 2

就可以看到三张显卡都自动分配运行起来了以满足40G的运存要求：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2173791.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Java 常用的一些Collection的实现类

Java 常用的一些Collection的实现类

Java 常用的一些Collection的实现类 Collection 1.集合基础 Java 集合框架是一个强大的工具，它提供了一套标准化的接口和类，用于存储和操作集合数据。Collection 接口是这个框架的核心，它定义了一系列通用的集合操作。 2.Collection接口方法 …

阅读更多...

既然有HTTP协议，为什么还要有RPC？

既然有HTTP协议，为什么还要有RPC？

既然有HTTP协议，为什么还要有RPC？ 既然有HTTP协议，为什么还要有RPC？ 有点既生瑜何生亮的味道。第一次接触RPC我就很懵，平时我HTTP协议用得好好的，为什么还需要RPC协议？ 于是我去百度&am…

阅读更多...

最详细！适合AI大模型零基础入门的学习路线+学习方法+学习资料，全篇干货，建议收藏！

最详细！适合AI大模型零基础入门的学习路线+学习方法+学习资料，全篇干货，建议收藏！

前言随着ChatGPT的横空出世，大模型时代正式来临。千亿甚至万亿参数的大模型陆续出现，各大企业、高校纷纷推出自己的大模型，这标志着通用智能时代的到来。对于零基础的初学者来说，如何快速入门AI大模型，抓住这个时代的…

阅读更多...

通过管道和共享存储映射实现进程通信

通过管道和共享存储映射实现进程通信

1.IPC方法 Linux环境下，进程地址空间相互独立，每个进程各自有不同的用户地址空间。任何一个进程的全局变量在另一个进程中都看不到，所以进程和进程之间不能相互访问，要交换数据必须通过内核，在内核中开辟一块缓冲区&a…

阅读更多...

物联网智能项目全面解析

物联网智能项目全面解析

目录引言一、物联网概述 1.1 什么是物联网 1.2 物联网的历史与发展二、物联网智能项目分类三、关键组件与技术 3.1 传感器和执行器 3.2 连接技术 3.3 数据处理与分析 3.4 用户界面四、物联网智能项目案例分析 4.1 智能家居 4.2 智慧城市 4.3 工业物联网 4.4…

阅读更多...

孩子英语不好，能学编程吗？

孩子英语不好，能学编程吗？

随着编程教育的普及，越来越多的家长开始关注孩子的编程学习。然而，不少家长提出了这样的疑问：“孩子的英语不好，是否还能学编程？”毕竟，编程语言是基于英语的，代码中也充斥着大量的英语单词和短…

阅读更多...

数据结构-3.6.队列的链式实现

数据结构-3.6.队列的链式实现

队列可以理解为单链表的阉割版，相比单链表而言，队列只有在添加和删除元素上和单链表有区别一.队列的链式实现： 1.图解： 2.代码： #include<stdio.h> typedef struct LinkNode //链式队列结点 {int data;st…

阅读更多...

【韩顺平Java笔记】第1章

【韩顺平Java笔记】第1章

0-1可以看视频，下面记录主要内容 2. 就业方向 Java基础又叫JavaSE，Java有三个主要的就业方向： JavaEE软件工程师：电商，团购，众筹，sns（社交网络），教育&…

阅读更多...

纠删码参数自适应匹配问题ECP-AMP实验方案（一）

纠删码参数自适应匹配问题ECP-AMP实验方案（一）

摘要关键词：动态参数；多属性决策；critic权重法；DBSCA聚类分析引言云服务存储系统是一种基于互联网的数据存储服务，它可以为用户提供大规模、低成本、高可靠的数据存储空间。云服务存储系统的核心技术之一是数据容…

阅读更多...

winsoft公司Utils组件功能简介

winsoft公司Utils组件功能简介

Winsoft Utils Library 2.3 是一个为 Delphi 和 C Builder（版本 7 到 12 Athens）设计的实用工具库。它提供了一系列组件和类，旨在简化和增强开发过程。以下是一些主要功能和特点： 1.组件集合：包含多种实用组件&#x…

阅读更多...

AB plc设备数据转profinet IO项目案例

AB plc设备数据转profinet IO项目案例

目录 1 案例说明 1 2 VFBOX网关工作原理 1 3 准备工作 2 4 网关采集AB PLC数据 2 5 用PROFINET IO协议转发数据 4 6 案例总结 7 1 案例说明设置网关采集AB PLC数据把采集的数据转成profinet IO协议转发给其他系统。 2 VFBOX网关工作原理 VFBOX网关是协议转换网关&#xff0…

阅读更多...

如果再回到从前——备忘录模式

如果再回到从前——备忘录模式

文章目录如果再回到从前——备忘录模式如果再给我一次机会……游戏存进度备忘录模式备忘录模式基本代码游戏进度备忘如果再回到从前——备忘录模式如果再给我一次机会…… 时间：5月6日18点　　地点：小菜、大鸟住所的客厅　　人物：小菜、…

阅读更多...

Sharding-JDBC笔记03-分库分表代码示例

Sharding-JDBC笔记03-分库分表代码示例

文章目录一、水平分库1. 将原有order_db库拆分为order_db_1、order_db_22. 分片规则修改分片策略standardcomplexinlinehintnone 3. 插入测试4. 查询测试5. 使用分库分片键查询测试总结二、公共表1. 创建数据库2. 在Sharding-JDBC规则中修改3. 数据操作4. 字典操作测试5. 字典…

阅读更多...

Linux线程-POSIX信号量与锁以及条件变量

Linux线程-POSIX信号量与锁以及条件变量

POSIX信号量 POSIX没有元素这个概念相比于SYSTEM-V更简洁，POSIX不一定适用老版本；二者都是系统范畴，都需要手动删除，POSIX相关函数属于线程库，所有编译时需要末尾加上-lpthread选项 POSIX POSIX有名信号量主要用于进…

阅读更多...

华为 HCIP-Datacom H12-821 题库 (29)

华为 HCIP-Datacom H12-821 题库 (29)

🐣博客最下方微信公众号回复题库,领取题库和教学资源 🐤诚挚欢迎IT交流有兴趣的公众号回复交流群 🦘公众号会持续更新网络小知识😼 1.BFD 为确保两端系统都知道状态的变化，在BFD 状态机的建立和拆除时都采用三次握手…

阅读更多...

【LeetCode:75. 颜色分类 + 快速排序】

【LeetCode:75. 颜色分类 + 快速排序】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…

阅读更多...

图像超分辨率（SR）

图像超分辨率（SR）

图像超分辨率（Image Super-Resolution, SR）是一种图像处理技术，旨在从低分辨率（LR）图像中恢复出高分辨率（HR）图像。这种技术通过增加图像中的细节和清晰度来提高图像的视觉质量，从而…

阅读更多...

微信支付准备工作之内网穿透2024/9/28

微信支付准备工作之内网穿透2024/9/28

微信支付部分好像做不了，但是跟着写了点东西。做项目的微信支付功能时，微信后台需要调用到商户管理系统，但是我们的管理系统写在自己的电脑里。微信后台如何调用到商户系统？内网穿透。还有如何保证调用过程数据安全&#xff1…

阅读更多...

PowerDesigner 16.5安装教程 + 轻松解决软件证书过期导致的无法使用问题

PowerDesigner 16.5安装教程 + 轻松解决软件证书过期导致的无法使用问题

目录背景: 安装教程 ： 证书过期的解决方法： 背景: PowerDesigner16.5凭借强大的功能集成、广泛的兼容性和高效的模型驱动开发方法成为了企业级建模于设计领域的佼佼者。无论是在企业信息化建设、软件开发项目还是数据库设计于管理等领域它都能提有利…

阅读更多...

【步联科技身份证】身份证读取与解析———未来之窗行业应用跨平台架构

【步联科技身份证】身份证读取与解析———未来之窗行业应用跨平台架构

一、身份证解析代码 C# function 身份证数据解析_湖南步联科技(wzxx) {var result {};result[xm] wzxx.substr(0, 15);result[xbdm] wzxx.substr(15, 1);result[mzdm] wzxx.substr(16, 2);result[csrq] wzxx.substr(18, 8);result[dzmc] wzxx.substr(26, 35);result[gms…

阅读更多...

推荐文章

最新文章