一个小技巧轻松提升量化精度!IntactKV:保持关键词元无损的大语言模型量化方法

news2025/1/12 18:13:33

目录

  • 摘要
  • 关键词元(Pivot Tokens)
  • 方法概述
  • 实验验证
    • 1. 权重量化
    • 2. KV Cache 量化
    • 3. 权重和激活值量化
  • 参考文献

本文介绍我们针对大语言模型量化的工作 IntactKV,可以作为插件有效提升 GPTQ、AWQ、QuaRot 等现有主流量化方法效果。论文作者来自清华大学、华为诺亚、中科院自动化所和香港中文大学。论文代码已经开源,欢迎大家使用!

  • 论文链接:IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact
  • 开源代码:https://github.com/ruikangliu/IntactKV

在这里插入图片描述

摘要

  • 大语言模型(LLM)在自然语言处理的各项任务上都取得了出色的表现,但其庞大的参数量也给实际部署带来了新的挑战。模型量化是一种常用的模型压缩方法,可以通过将模型权重和激活值压缩到低比特来有效降低模型推理时的算力和内存开销,然而量化往往伴随着模型的精度损失。对此,我们提出了一种新的量化方法 IntactKV。我们发现 LLM 中存在关键词元(pivot tokens),这些关键词元的表征上存在极大的离群值,这会导致模型将大量自注意力得分分配到这些词元上,而模型量化会使得这些关键词元表征受损,严重损害了量化模型精度。IntactKV 通过预先缓存关键词元的无损 KV cache 来保证量化模型中关键词元表征无损,理论推导证明这能有效降低模型的量化误差上界。此外,缓存的无损 KV cache 还可以作为模型的额外参数做进一步校准,进一步弥补量化误差
  • IntactKV 实现简单并且与 GPTQ[1]、AWQ[2]、QuaRot[3] 等当前主流的 LLM 量化方法正交,实验表明,IntactKV 可以作为插件有效提升现有量化模型精度,同时不会带来额外的推理开销,在权重量化和权重激活值量化上均取得了当前的 SOTA 精度

图1 IntactKV示意图

关键词元(Pivot Tokens)

  • 现有研究[3][4][5]发现,LLM 激活值的特定通道上存在离群值,这些离群值往往出现在所有词元的激活值上,使得 LLM 的激活值难以量化。而我们发现 LLM 中还存在另一种特殊的离群值,如图 2 所示,它只存在于 LLM 输入的首词元 [BOS] 以及开头的一些特定词元上(如 “,”、“.” 等标点符号),并且这类离群值比特定通道上的离群值还要大得多。更为重要的是,这类特定词元上的离群值会导致 LLM 将大量的自注意力得分分配到这些词元上,形成 Attention Sink[6],因此我们将这些特定词元称为关键词元(pivot tokens)。由于汇聚了大量自注意力得分,关键词元的表征对 LLM 来说至关重要。类似的现象也在同期工作 Massive Activations[7] 中被发现并得到了更为细致的研究。然而,还没有其他研究针对这一现象对于量化模型的影响做深入探索

图2 关键词元示意图

方法概述

  • 我们发现,模型量化会不可避免地导致关键词元表征受损,进而严重影响模型精度,因此如果能保证关键词元的表征,也就是其 KV cache 无损,就能有效降低量化误差。为此,我们提出使用 IntactKV — 先使用全精度模型生成关键词元的无损 KV cache 并将其缓存下来(i.e., IntactKV),量化模型在推理时就能直接使用无损的关键词元表征,从而有效提升量化模型精度。如图 3 所示,IntactKV 包含了从首词元 [BOS] 开始的若干词元,随着 IntactKV 包含词元数的增加,量化误差也不断降低,尤其是当 IntactKV 包含关键词元时,量化误差会得到明显下降,这也进一步验证了关键词元的重要性
    图3 保证关键词元表征无损能有效降低量化误差
  • 然而,模型在每次推理时的输入序列各不相同,这意味着我们并不能使用任意长度的 IntactKV,否则在每次量化模型推理前都必须调用全精度模型来生成对应输入的 IntactKV,这会带来额外的推理开销。对此,我们利用了 LLM 推理时的公共前缀,如果 IntactKV 只包含公共前缀,那么全精度模型在生成 IntactKV 后就可以被释放,不会给之后量化模型的推理带来任何额外开销。对于预训练 LLM,输入序列前一般都会加上 [BOS] 词元作为公共前缀,因此可以使用只包含 [BOS] 词元的长度为 1 的 IntactKV,称为 IntactKV_[B]。如图 3 所示,由于首词元总为关键词元,因此使用 IntactKV_[B] 就可以明显地降低量化误差。而对于 SFT 模型,输入序列前一般会包含一段系统提示词作为公共前缀,因此可以使用长度为系统提示词的 IntactKV,称为 IntactKV_[P]。由于使用了更长的 IntactKV,IntactKV_[P] 能覆盖更多关键词元,进一步降低量化误差。我们在实验中发现,对于 Vicuna 模型,长度为 34 的系统提示词就足以覆盖全部关键词元
  • 此外,缓存的 IntactKV 还可以作为模型的额外参数做校准来进一步弥补量化误差。具体来说,我们在大小为128的校准集上做了轻量化训练,可学习参数仅为缓存下来的 IntactKV,损失函数采用量化模型和全精度模型输出的 MSE loss:
    L ( Θ ) = 1 2 ∑ l = 1 L ∥ f l ( w , x ) − f l ( w ^ , x ; Θ ) ∥ 2 2 \mathcal L(\Theta)=\frac{1}{2}\sum_{l=1}^L\|f_l(\mathbf w, \mathbf x)-f_l(\hat{\mathbf w}, \mathbf x; \Theta)\|_2^2 L(Θ)=21l=1Lfl(w,x)fl(w^,x;Θ)22其中, Θ \Theta Θ 为 IntactKV, f l f_l fl 为第 l l l 个 Transformer 层的映射函数, L L L 为 LLM 中 Transformer 层的层数, x \mathbf x x 为输入激活值, w , w ^ \mathbf w,\hat{\mathbf w} w,w^ 分别为全精度权重和量化权重

实验验证

1. 权重量化

  • 我们首先在 PPL 任务上进行了实验。如表 1 所示,IntactKV 能很好地与 GPTQ、OmniQuant、AWQ 等主流量化方法结合,无需任何训练或额外推理开销即可在 LLaMA 系列的各种不同模型上有效提升量化模型精度,其中 AWQ+IntactKV 在各个模型上都达到了最优效果
    表1 权重量化 PPL 任务实验结果
  • 我们基于 Vicuna 模型,在 MMLU 和 QA 任务上做了进一步实验。如表 2 所示,实验结论与 PPL 任务基本一致
    表2 权重量化 MMLU 和 QA 任务实验结果
  • 我们对量化模型的生成质量也进行了评估,通过 GPT-4 对模型生成回答进行打分来衡量量化模型的生成能力。如表 3 所示,IntactKV_[P] 已经能明显提升量化模型的回复得分,对 IntactKV 的轻量化校准则进一步提升了模型的回复质量
    表3 权重量化MT-bench任务实验结果

2. KV Cache 量化

  • 为了将 IntactKV 用于 KV cache 量化,我们采用混合精度量化策略,将 IntactKV 保存为全精度,其余 KV cache 量化到低比特。对于 KV cache 量化,由于模型仍然需要先将量化的 KV cache 反量化为全精度才能进行自注意力计算,因此上述混合精度方案在推理时只需要将 IntactKV 和反量化后的 KV cache 重新拼接到一起即可,并不会带来额外的推理开销。如图 4 所示,IntactKV 在不同的量化比特设置下均可以有效提升 AWQ 量化模型精度,尤其是在低比特时提升更加明显。目前,IntactKV 已经被集成到了 SOTA KV cache 量化方法 KVQuant[8] 中
    图4 权重和 KV Cache 量化 MMLU 任务实验结果

3. 权重和激活值量化

  • 对于权重激活值量化,KV cache 需要全部量化到低比特才能有效利用低比特矩阵乘进行运算加速。我们发现,关键词元的 KV cache 表征明显比其余 KV cache 表征更加平坦,就算直接将 IntactKV 量化到低比特也只会带来极少的精度损失,因此对于激活值量化,我们选择将 IntactKV 进一步压缩到低比特以免引入额外的推理开销。如表 4 所示,IntactKV 能有效提升当前SOTA量化方法精度,进一步缩小了 W4A4 量化模型与原始模型间的精度损失
    表4 权重和激活值量化 PPL 任务实验结果

参考文献

  • [1] Frantar, Elias, et al. “OPTQ: Accurate quantization for generative pre-trained transformers.” The Eleventh International Conference on Learning Representations. 2022.
  • [2] Lin, Ji, et al. “Awq: Activation-aware weight quantization for llm compression and acceleration.” arXiv preprint arXiv:2306.00978 (2023).
  • [3] Ashkboos, Saleh, et al. “Quarot: Outlier-free 4-bit inference in rotated llms.” arXiv preprint arXiv:2404.00456 (2024).
  • [4] Dettmers, Tim, et al. “Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale.” Advances in Neural Information Processing Systems 35 (2022): 30318-30332.
  • [5] Xiao, Guangxuan, et al. “Smoothquant: Accurate and efficient post-training quantization for large language models.” International Conference on Machine Learning. PMLR, 2023.
  • [6] Xiao, Guangxuan, et al. “Efficient Streaming Language Models with Attention Sinks.” The Twelfth International Conference on Learning Representations. 2023.
  • [7] Sun, Mingjie, et al. “Massive Activations in Large Language Models.” arXiv preprint arXiv:2402.17762 (2024).
  • [8] Hooper, Coleman, et al. “KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.” arXiv preprint arXiv:2401.18079 (2024).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CPU对代码执行效率的优化,CPU的缓存、指令重排序

目录 一、CPU对代码执行效率的优化 1. 指令流水线(Instruction Pipelining) 2. 超标量架构(Superscalar Architecture) 3. 动态指令重排序(Dynamic Instruction Reordering) 4. 分支预测(…

visio中画乘法器加法器符号

情景:在进行rtl设计时,需要画出简单的电路实现图,需要用到加法器,乘法器的符号。 位置:在visio的更多形状中,找到如下图的位置,进行添加,即可 最终效果: 可以满足我们日…

基于L1范数惩罚的稀疏正则化最小二乘心电信号降噪方法(Matlab R2021B)

L1范数正则化方法与Tikhonov正则化方法的最大差异在于采用L1范数正则化通常会得到一个稀疏向量,它的非零系数相对较少,而Tikhonov正则化方法的解通常具有所有的非零系数。即:L2范数正则化方法的解通常是非稀疏的,并且解的结果在一…

虹科Pico汽车示波器 | 免拆诊断案例 | 2010 款北京现代ix35车挡位偶尔锁定在4挡

故障现象 一辆2010款北京现代ix35车,搭载G4KD发动机和6速自动变速器,累计行驶里程约为23.6万km。该车行驶中急加速时,挡位偶尔锁定在4挡,同时发动机故障灯异常点亮。 故障诊断 该车自动变速器控制模块(TCM&#xff0…

css-calc动态计算属性值无效

1.calc计算 可以使用css属性动态适应盒子的宽高,适用于布局中左侧固定宽或高,右侧宽度适应;右侧宽度等于calc(100vw - rightWidth); 2.属性值无效 3.解决 width: calc(100vw - 360px); 减号左右需要空格

Kivy 项目51斩百词 5

MRWord\pages\infopage\info.py def read_random_word(self) def read_random_word(self):"""随机读取一条数据"""sql "SELECT * FROM word WHERE id (SELECT word_id FROM today ORDER BY RANDOM() limit 1)"rows select_data(sq…

Google使用AI改进了 Sheets;开源视觉语言模型llama3v;开源情绪语音模型ChatTTS;

✨ 1: Google has improved Sheets with AI. Google 使用 AI 改进了 Sheets 您可以使用 Gemini 处理您的数据并将其变成老师。 优化您的数据 Gemini 了解您的数据并提出改进建议。 例如,它可以将重复数据转换为更实用的下拉框。 解释数据 通过单击双子座图标…

产品推荐 | 基于Xilinx Zynq-7015 FPGA的MYC-C7Z015开发板

一、产品概述 基于 Xilinx Zynq-7015,双Cortex-A9FPGA全可编程处理器;PS部分(ARM)与PL部分(FPGA)之间采用AXI高速片上总线通信,吉比特级带宽,突破传统ARMFPGA架构的通信瓶颈,通过PL部分(FPGA)灵活配置丰富的外设接口&…

电表自动抄表系统:智能时代的能源管理新方式

1.界定和功能 电表自动抄表系统是一种现代化电力计量技术,它利用先进的通讯技术和互联网,完成了远程控制、实时电磁能数据采集和处理。系统的主要作用包含全自动载入电表数据信息、实时检测电力应用情况、出现异常报案及其形成详尽能源使用报告&#xf…

OpenHarmony面向万物智联的应用框架的思考与探索

应用框架,是操作系统连接开发者生态,实现用户体验的关键基础设施。业务的飞速发展促进了应用框架不断演进和变化。 01►业界应用框架的演进 应用是用户使用操作系统/设备的入口,应用框架则是应用开发和运行的基础设施。以移动端为例&#x…

逍遥散人的“痛婚”,让《光夜》玩家悄悄破防了

网红博主的一场求婚,让《光与夜之恋》玩家破防了。 知名游戏博主逍遥散人发微博公布求婚成功,本来应该是一件喜事,但却因为求婚场景布满了《光与夜之恋》男主角之一陆沉的谷子(周边),遭到了“6推”&#x…

什么是组态?什么是工业控制中的组态软件?

随着工业4.0和智能制造的发展,工控软件的应用越来越广泛,它们在提高生产效率、降低能耗和减少人力成本等方面发挥着越来越重要的作用。 什么是工控软件? 工控软件是指用于工业控制系统的软件,主要应用于各种生产过程控制、自动化…

6种经典的网页布局设计,你最喜欢哪个?

信息时代,我们每天都会浏览很多网页,但你有没有想过,让你停留在一个新网页的关键因素有哪些?毫无疑问,网页布局一定是关键因素之一。一个优秀的网页布局不仅可以让网站看起来更美观、更专业,还能够抓住用户…

如何顺利通过软考中级系统集成项目管理工程师?

中级资格的软考专业包括"信息系统",属于软考的中级级别。熟悉软考的人都知道,软考分为初级、中级和高级三个级别,涵盖计算机软件、计算机网络、计算机应用技术、信息系统和信息服务五个专业,共设立了27个资格。本文将详…

代码随想录算法训练营第八天| 344.反转字符串、541. 反转字符串II、 卡码网:54.替换数字、151.翻转字符串里的单词、卡码网:55.右旋转字符串

344.反转字符串 题目链接&#xff1a; 344.反转字符串 文档讲解&#xff1a;代码随想录 状态&#xff1a;so easy 题解&#xff1a; public void reverseString(char[] s) {int left 0, right s.length - 1;char temp s[0];while (left < right) {temp s[left];s[left] …

linux下常用的终端命令

文章目录 1. MV移动文件、重命名文件1.1 移动文件&#xff1a;mv [选项] 源文件或目录 目标文件或目录1.2 文件重命名 2. 查找&#xff1a;文件&#xff0c;内容&#xff0c;统计文件2.1 find查找文件2.2 Linux查找文件内容 3. 查看当前用户4. linux修改文件所属用户和组5. 复制…

MiniPCIe/SATA双用插槽无法识别minipcie模块怎么回事!

在计算机和嵌入式系统设计中,MiniPCIe/SATA双用插槽作为一种高度集成的解决方案,提供了极大的灵活性与扩展能力。它不仅能够支持MiniPCIe接口的无线网卡、固态硬盘控制器等模块,还能适应SATA接口的硬盘或固态存储设备,大大丰富了系统配置的可能性。尽管设计初衷良好,但在实…

【YOLO系列】YOLOv10模型结构详解与推理部署实现

点击开始系统化学习YOLOv系列网络 YOLOv10模型 早晨看到一堆推文&#xff0c;说YOLOv10已经发布了&#xff0c;吓我一跳&#xff0c;这个世界变化这么快&#xff0c; 然后快速的看一下相关的文档&#xff0c;发现YOLOv10 相比YOLOv8有两个最大的改变分别是 添加了PSA层跟CIB…

【AI赋能】香橙派OrangePi AIpro初体验

【AI赋能】香橙派OrangePi AIpro初体验 1、初识香橙派1.1、仪式感开箱1.2、OrangePi AIpro(8T)介绍 2、上电开机2.1、开机2.2、串口调试2.2.1 两种方式登录2.2.2 相关信息 2.3、启动系统2.4、网络配置 3、连接摄像头4、目标检测4.1、Jupyter Lab模式4.2、 目标检测测试4.2.1 视…

开一个抖音小店可以经营几个类目?经营几个类目最合适?

大家好&#xff0c;我是喷火龙。 抖音小店的商品类目和商品数量是没有限制的&#xff0c;只要是在营业执照的经营范围之内的类目都能入驻抖音小店&#xff0c;但是选择的主营类目不能超过三个。 有些商家可能会想&#xff0c;自己经营多个类目&#xff0c;做多种商品种类&…