如何学习大型语言模型中的量化

news2024/11/16 10:55:32

前言

图片来自作者:Flow 展示了量化的必要性。(笑脸和生气脸图片来自Yan Krukau)


在我解释上面的图表之前,让我先介绍一下您将在本文中学习的重点内容。

  1. 首先,您将了解量化是什么以及为什么量化。
  2. 接下来,您将深入了解如何通过一些简单的数学推导来实现量化。
  3. 最后,我们将在 PyTorch 中一起编写一些代码来执行 LLM 权重参数的量化和反量化

让我们一起来一一解开吧。


1. 什么是量化?为什么需要它?

量化是一种将较大尺寸的模型(LLM 或任何深度学习模型)压缩为较小尺寸的方法。量化的主要目的是量化模型的权重参数和激活。让我们进行一个简单的模型大小计算来验证我们的陈述。

作者提供的图片:左图:以 GB 为单位的基本模型大小计算,右图:以 GB 为单位的量化模型大小计算


在上图中,基础模型 Llama 3 8B 的大小为 32 GB。经过 Int 8 量化后,大小减小到 8Gb(减少了 75%)。通过 Int4 量化,大小进一步减小到 4GB(减少了约 90%)。这是模型大小的大幅减少。这确实很神奇!不是吗?这要归功于量化论文的作者,我对数学的力量深表赞赏。

现在您已经了解了什么是量化,让我们继续讨论为什么。

让我们看一下图 1,作为一名有抱负的 AI 研究人员、开发人员或架构师,如果您想对数据集或推理执行模型微调,很可能由于内存和处理器的限制,您将无法在机器或移动设备上执行此操作。

可能和我一样,您也会像选项 1b 一样怒气冲冲。这将我们带到了选项 1a,您可以让云提供商为您提供所需的所有资源,并且可以轻松地使用任何您想要的模型完成任何任务。

但这会花费您很多钱。如果你能负担得起,那就太好了。但如果您的预算有限,好消息是您还有选项 2 可用。在这里,您可以执行量化方法来减小模型的大小并方便地在您的用例中使用它。如果您的量化做得好,您将获得与原始模型大致相同的准确度。

注意:如果您想将模型投入生产,一旦您在本地机器上对模型完成微调或其他任务,我建议您将模型托管在云中,以便为您的客户提供可靠、可扩展和安全的服务。ParagogerAI训练营 2img.ai

2. 量化是如何实现的?一个简单的数学推导。

从技术上讲,量化将模型的权重值从较高精度(例如 FP32)映射到较低精度(例如 FP16|BF16|INT8)。虽然有许多量化方法可用,但在本文中,我们将学习一种广泛使用的量化方法,即线性量化方法。线性量化有两种模式:A.非对称量化B.对称量化。我们将逐一了解这两种方法。

A.非对称线性量化:非对称量化方法 将原始张量范围(Wmin,Wmax)中的值映射到量化张量范围(Qmin,Qmax)中的值。

作者图片:非对称线性量化


  • Wmin、Wmax:原始张量的最小值和最大值(数据类型:FP32,32 位浮点数)。大多数现代 LLM 中权重张量的默认数据类型为 FP32。
  • Qmin、Qmax:量化张量的最小值和最大值(数据类型:INT8,8 位整数)。我们还可以选择其他数据类型(如 INT4、INT8、FP16 和 BF16)进行量化。我们将在示例中使用 INT 8。
  • 比例值(S):在量化过程中,比例值会缩小原始张量的值,得到量化张量。在反量化过程中,比例值会放大量化张量的值,得到反量化值。比例值的数据类型与原始张量相同,均为 FP32。
  • 零点 (Z):零点是量化张量范围内的非零值,直接映射到原始张量范围内的值0。零点的数据类型为 INT8,因为它位于量化张量范围内。
  • 量化:图表的“ A ”部分显示了量化过程,将 [Wmin, Wmax] 映射到 [Qmin, Qmax]。
  • 反量化:图的“B”部分显示了反量化过程,该过程映射 [Qmin, Qmax] -> [Wmin, Wmax]。

那么,我们如何从原始张量值导出量化张量值呢?这很简单。如果你还记得高中数学,你可以轻松地理解下面的推导。让我们一步一步来(我建议你在推导方程时参考上面的图表,以便更清楚地理解)。

我知道你们中的许多人可能不想经历下面的数学推导。但相信我,它肯定会帮助你理清概念,并在后期为量化编码时节省大量时间。我在研究这个问题时也有同样的感受。




  • 潜在问题 1:如果 Z 的值超出范围该怎么办?解决方案:使用简单的 if-else 逻辑,如果 Z 的值小于 Qmin,则将其更改为 Qmin;如果 Z 的值大于 Qmax,则将其更改为 Qmax。下图 4 中的图 A 对此进行了很好的描述。
  • 潜在问题 2:如果 Q 值超出范围该怎么办?解决方案:在 PyTorch 中,有一个名为clamp 的函数,它会调整值以保持在特定范围内(在我们的示例中为 -128, 127)。因此,如果 Q 值低于 Qmin,则 clamp 函数会将 Q 值调整为 Qmin;如果 Q 值高于 Qmax,则将 Q 值调整为 Qmax。问题解决了,让我们继续。

作者的图片:零点和量化张量超出范围


附注:对于 INT8(有符号整数数据类型),量化张量值的范围为 (-128, 127)。如果量化张量值的数据类型为 UINT8(无符号整数),则范围为 (0, 255)。

B. 对称线性量化:在对称方法中,原始张量范围中的 0 点映射到量化张量范围中的 0 点。因此,这被称为对称。由于 0 在范围的两侧都映射到 0,因此对称量化中没有 Z(零点)。整体映射发生在原始张量范围的 (-Wmax, Wmax) 和量化张量范围的 (-Qmax, Qmax) 之间。下图显示了量化和去量化情况下的对称映射。

作者图片:对称线性量化

由于我们已经定义了非对称段中的所有参数,因此这里也同样适用。让我们进入对称量化的数学推导。

非对称量化和对称量化之间的区别:


现在您已经了解了线性量化是什么、为什么和如何,这将引导我们进入文章的最后一部分,即编码部分。ParagogerAI训练营 2img.ai

3. 在PyTorch中编写代码来执行LLM权重参数的量化和反量化。

正如我之前提到的,量化也可以在模型的权重、参数和激活上进行。但是,为了简单起见,我们将在编码示例中仅量化权重参数。在开始编码之前,让我们快速看一下 Transformer 模型中量化后权重参数值的变化情况。我相信这会让我们的理解更加清晰。

作者提供的图片:Transformer 架构中权重参数的量化


当我们仅对 16 个原始权重参数从 FP32 量化到 INT8 后,内存占用就从 512 位减少到了 128 位(减少了 25%)。这证明对于大模型的情况,减少会更加显著。

下面,您可以看到 FP32、Signed INT8 和 Unsigned UINT8 等数据类型在实际内存中的分布。我已经以 2 的补码进行了实际计算。您可以自行练习计算并验证结果。

作者提供的图片:FP32、INT8、UINT8 数据类型分布及计算示例


现在,我们已经介绍了开始编码所需的一切。我建议您继续学习以熟悉推导。

A.非对称量化代码:我们一步一步来编码。

步骤 1:我们首先为原始权重张量分配随机值(大小:4x4,数据类型:FP32)# !pip install torch; 如果尚未安装 torch 库,请先安装
# import torch library
import torch

original_weight = torch.randn(( 4 , 4 ))
print (original_weight)


FP32 中的 original_weight 张量


第 2 步:我们将定义两个函数,一个用于量化,另一个用于反量化。def asymmetric_quantization(original_weight):
# define the data type that you want to quantize. In our example, it's INT8.
quantized_data_type = torch.int8

# Get the Wmax and Wmin value from the orginal weight which is in FP32.
Wmax = original_weight.max().item()
Wmin = original_weight.min().item()

# Get the Qmax and Qmin value from the quantized data type.
Qmax = torch.iinfo(quantized_data_type).max
Qmin = torch.iinfo(quantized_data_type).min

# Calculate the scale value using the scale formula. Datatype - FP32.
# Please refer to math section of this post if you want to find out how the formula has been derived.
S = (Wmax - Wmin)/(Qmax - Qmin)

# Calculate the zero point value using the zero point formula. Datatype - INT8.
# Please refer to math section of this post if you want to find out how the formula has been derived.
Z = Qmin - (Wmin/S)
# Check if the Z value is out of range.
if Z < Qmin:
Z = Qmin
elif Z > Qmax:
Z = Qmax
else:
# Zero point datatype should be INT8 same as the Quantized value.
Z = int(round(Z))

# We have original_weight, scale and zero_point, now we can calculate the quantized weight using the formula we've derived in math section.
quantized_weight = (original_weight/S) + Z

# We'll also round it and also use the torch clamp function to ensure the quantized weight doesn't goes out of range and should remain within Qmin and Qmax.
quantized_weight = torch.clamp(torch.round(quantized_weight), Qmin, Qmax)

# finally cast the datatype to INT8.
quantized_weight = quantized_weight.to(quantized_data_type)

# return the final quantized weight.
return quantized_weight, S, Z

def asymmetric_dequantization(quantized_weight, scale, zero_point):
# Use the dequantization calculation formula derived in the math section of this post.
# Also make sure to convert quantized_weight to float as substraction between two INT8 values (quantized_weight and zero_point) will give unwanted result.
dequantized_weight = scale * (quantized_weight.to(torch.float32) - zero_point)

return dequantized_weight


步骤 3:我们将通过调用asymmetric_quantization函数来计算量化权重、比例和零点。您可以在下面的屏幕截图中看到输出结果,请注意,quantized_weight 的数据类型为 int8,scale 为 FP32,zero_point 为 INT8。quantized_weight, scale, zero_point = asymmetric_quantization(original_weight)
print(f"quantized weight: {quantized_weight}")
print("\n")
print(f"scale: {scale}")
print("\n")
print(f"zero point: {zero_point}")


量化的重量、尺度和零点值


步骤 4:现在我们已经有了量化权重、比例和零点的所有值。让我们通过调用 asymmetric_dequantization 函数来获取反量化权重值。请注意,反量化权重值为 FP32。dequantized_weight = asymmetric_dequantization(quantized_weight, scale, zero_point)
打印(dequantized_weight)

去量化权重值


步骤5:让我们通过计算它们之间的量化误差来找出最终的去量化权重值与原始权重张量相比的准确度。quantization_error = (dequantized_weight - original_weight).square().mean()
print(quantization_error)

输出结果:quantization_error 少了很多。因此,我们可以说非对称量化方法做得很好。


B. 对称量化代码:我们将使用与非对称方法相同的代码。对称方法唯一需要做的改变是始终确保 zero_input 的值为 0。这是因为在对称量化中,zero_input 值始终映射到原始权重张量中的 0 值。我们无需编写额外代码即可继续操作。



就这样!

我们到了这篇文章的结尾。我希望这篇文章能帮助你对量化建立坚实的直觉,并清楚地理解数学推导部分。

我最后的想法是……

  • 在这篇文章中,我们涵盖了参与任何 LLM 或深度学习量化相关任务所需的所有必要主题。
  • 虽然,我们已经成功地对权重张量进行了量化,并且也取得了良好的精度。在大多数情况下,这已经足够了。但是,如果你想对更大的模型应用更高精度的量化,你需要执行通道量化(量化权重矩阵的每一行或列)或组量化(在行或列中分成更小的组并分别量化它们)。这些技术更复杂。我将在即将发布ParagogerAI训练营 2img.ai中介绍它们。

欢迎你分享你的作品到我们的平台上. http://www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易,觉得不错的话,点个赞吧!!!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1892345.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sssssssssssssssshare_ptrrrrrrrrrrrrrrrrrrrrrrrrr

智能指针——shared_ptr的原理及仿写 shared_ptr的原理及仿写 共享指针允许多个指针指向同一份数据&#xff0c;因为它使用了引用计数&#xff0c;每多一个指针指向这个数据&#xff0c;引用技术加一&#xff0c;每销毁一个指针&#xff0c;引用技术减一&#xff0c;如果引用计…

【 2024!深入了解 大语言模型(LLM)微调方法(总结)】

引言 众所周知&#xff0c;大语言模型(LLM)正在飞速发展&#xff0c;各行业都有了自己的大模型。其中&#xff0c;大模型微调技术在此过程中起到了非常关键的作用&#xff0c;它提升了模型的生成效率和适应性&#xff0c;使其能够在多样化的应用场景中发挥更大的价值。 那么&…

助力企业数字化转型:无锡哲讯——您的专业SAP系统运维服务商

数字化时代&#xff0c;企业对SAP系统的依赖程度日益加深&#xff0c;而SAP系统的稳定运行对于企业的核心业务至关重要。 无锡哲讯作为专业的SAP运维服务商&#xff0c;致力于为客户提供全面的SAP运维解决方案&#xff0c;助力企业实现数字化转型&#xff0c;提升核心竞争力。 …

再次登榜,深兰科技荣膺全球独角兽企业500强

6月27&#xff5e;28日&#xff0c;《2024全球独角兽企业500强》榜单发布&#xff0c;深兰科技凭借在AI产业赋能和产品出海方面的出色表现&#xff0c;继2023年之后再次登榜。 《2024全球独角兽企业500强》评委会介绍&#xff0c;本届榜单的产生&#xff0c;是由“全球独角兽企…

logback log.info耗时异常,RollingFileAppender+TimeBasedRollingPolicy配置踩坑

我喜欢把核心内容放开头 此次log.info耗时异常升高&#xff0c;是由于日志量过大&#xff08;5G甚至以上&#xff09;&#xff0c;并且使用同步阻塞的RollingFileAppenderTimeBasedRollingPolicy&#xff0c;导致log.info一直等待日志文件滚动&#xff0c;造成了异常。解决方式…

ETCD概述--使用/特性/架构/原理

ETCD概述 ETCD是一个高度一致的分布式键值存储, 它提供了一种可靠的方式来存储需要由分布式系统或机器集群访问的数据(高可用, 强一致性)​全局的配置服务中心. 本文将介绍其特性、相关操作和常见的应用场景. 如果想了解更多, 请查阅我的技术博客: https://dingyuqi.com 特性 …

专访ATFX首席战略官Drew Niv:以科技创新引领企业高速发展

在金融科技创新的浪潮中&#xff0c;人才是推动企业高速发展的核心驱动力&#xff0c;优质服务是引领企业急速前行的灯塔。作为差价合约领域的知名品牌&#xff0c;ATFX高度重视人才引进工作&#xff0c;秉持“聚天下英才而用之”的理念&#xff0c;在全球范围内广揽科技精英&a…

某业帮六月校招后端笔试

题目一 解题思路 签到题&#xff0c;dp就行。 题目二 解题思路 这个比较烦人&#xff0c;需要处理额外的引号和括号。用DFS&#xff0c;对于每个间隙&#xff0c;插入与不插入都搜一遍。 题目三 解题思路&#xff1a; 双指针&#xff0c;左右各一个指针&#xff0c;对比长度&…

变频器配置V20

变频器控制最好是变频电机&#xff0c;在速度不低的情况下工频电机 改变电机转速&#xff0c;调节扭矩&#xff0c; 变频器 L1 L2 L3 ,R S T 电机输入 uvw 电机输出 FSD 制动电阻 设置步骤 恢复出厂设置 p0010:30 p0970:21p0003:3(设定访问级别) P0003 用户访问级别 0 - 4 1…

沟通方法和技巧

0 Preface/Foreword 1 沟通对象 沟通维度&#xff1a; upward&#xff0c;向上沟通&#xff0c;直接上级downward&#xff0c;向下沟通&#xff0c;直接下级horizontal&#xff0c;横向沟通&#xff0c;同部门/跨部门同事 2 沟通方式&#xff08;5W2H&#xff09; 对于开会和…

css样式flex布局之,盒子垂直居中

<div class"item"><img src"../../assets/images!code_app.png" alt"" /><div>5555</div><p>微信扫一扫关注</p><p>“快速预约挂号”</p></div>.item{display: flex;flex-direction: col…

两个令人兴奋的 PostgreSQL 特性可改善 NULL 处理#PG认证

唯一列中的 NULL 值永久链接 一个众所周知但令人讨厌的怪异值NULL是NULL ! NULL&#xff0c;因此一UNIQUE列仍然可以有多个NULL值。 #PG培训#PG考试#postgresql培训#postgresql考试#postgresql认证 &#xff08;为了简单起见&#xff0c;示例使用数字 id 列&#xff0c;但我…

DevExpress WPF中文教程:Grid - 如何显示摘要(设计时)?

DevExpress WPF拥有120个控件和库&#xff0c;将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序&#xff0c;这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…

chrome 谷歌浏览器插件打包

1、找到id对应的字符串去搜索 C:\Users\<你的用户名>\AppData\Local\Google\Chrome\User Data\Default\Extensions2、选择根目录 直接加载下面的路径扩展可用&#xff1a;

liteide教程-运行平台和3264位

【1】编译后的运行平台选择&#xff08;linux/windows&#xff09; 1&#xff09;点击"查看"&#xff0c;选择"编辑当前环境" 2)GOOS参数修改 GOOSlinux //表示linux系统 GOOSwindows //表示Windows系统 【2】编译后的是32位还是64位程序 1&#x…

Word文档中公式的常用操作

一、参考资料 二、常用操作 插入公式 Alt 多行公式 Shift Enter 多行公式对齐 WORD Tips: 多行公式编辑及对齐 word自带公式等号对齐&#xff08;可任意符号处对齐&#xff09; 多行公式按照 为基准对齐。 拖动鼠标选中整个公式点击右键&#xff0c;选择【对齐点(…

使用表单系统快速搭建邀请和签到系统

在组织活动时&#xff0c;邀请和签到环节往往是活动成败的关键之一。传统的纸质邀请和签到方式不仅费时费力&#xff0c;还容易出现各种问题&#xff0c;例如名单遗漏、签到混乱等。而使用TDuckX“搭建邀请和签到系统”将彻底改变这一现状&#xff0c;为活动组织者提供了一种高…

半实物仿真测试系统

设备组成 test系统主要由硬件部分与软件部分组成。硬件部分由PCI机箱、PCI控制器以及各种PCI接口板卡组成。软件部分由测试设计软件模块、测试执行服务软件模块、测试执行客户端软件模块、设备资源管理软件模块等主要软件模块以及曲线数据生成、CRC插件生成与诊断、测试数据记录…

模块一SpringBoot(一)

maven记得配置本地路径和镜像 IJ搭建 SpringIntiallizer--》将https://start.spring.io改成https://start.aliyun.com/ 项目结构 Spring有默认配置&#xff0c; application.properties会覆盖默认信息&#xff1a; 如覆盖端口号server.port8888

项目管理:项目进度延迟怎么办?做好这三点就够了

项目管理中&#xff0c;项目进度延迟是项目经理常常面临的挑战之一。它不仅影响项目的按时完成&#xff0c;还可能对项目的整体质量、成本控制及客户满意度产生负面影响。 更为严重的是&#xff0c;当管理者对项目进度的实际情况一无所知&#xff0c;即出现“无法掌控”的局面…