大语言模型量化方法GPTQ、GGUF、AWQ详细原理

news2024/9/24 5:33:08

大语言模型量化的目的是减少模型的计算资源需求和存储占用,同时尽量保持模型的性能。以下是几种常见的量化方法的原理;

1. GPTQ (Gradient-based Post-training Quantization)

GPTQ 是一种基于梯度的后训练量化方法,主要目的是在减少浮点计算时尽量保持模型的性能。这种方法对大语言模型的量化尤其有效,适用于 8-bit 或更低的量化需求。

原理

  • 后训练量化:模型已经训练完毕,不需要重新训练,只需在训练后对权重进行量化。
  • 梯度校正:在进行量化的过程中,GPTQ 通过优化目标函数,对量化误差进行最小化。它通过梯度优化调整量化时的权重误差,使得量化后模型的表现与未量化模型尽可能接近。
  • 误差补偿:由于量化不可避免地引入误差,GPTQ 采用了误差反馈机制,将量化过程中产生的误差传播到后续的层进行补偿,从而减少累积误差对模型输出结果的影响。

优点

  • 不需要额外的训练数据,只使用训练后的模型即可。
  • 相较于传统的直接量化方法(如固定比特宽度量化),GPTQ 的精度损失较小,特别适合复杂模型。

假设量化 LLaMA 模型,以下是一个基本的示例代码::

# # 环境安装
# pip install transformers accelerate
# pip install git+https://github.com/qwopqwop200/GPTQ-for-LLaMa.git

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from gptq import GPTQ

# 选择模型(你可以使用 LLaMA 或其他支持的模型)
model_name = "huggingface/llama"

# 加载预训练模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)

# 初始化 GPTQ
quantizer = GPTQ(model)

# 设置量化位数(比如8-bit量化)
W_BITS = 8

# 开始量化模型
quantizer.quantize(w_bits=W_BITS, layer_types=["self_attn", "mlp"])

# 生成量化后的模型
quantized_model = quantizer.finish()

# 测试模型推理(生成文本)
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = quantized_model.generate(**inputs, max_new_tokens=20)

# 解码输出
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(decoded_output)

2. GGUF (Generalized Global Uniform Quantization Framework)

GGUF 是一种通用的全局统一量化框架,专门设计用于处理大规模神经网络。它通常采用全局统一量化策略,即对整个模型的权重或激活值采用相同的量化参数,保持模型的一致性。

原理

  • 全局量化:将整个模型中的所有参数统一映射到固定的范围,比如使用 8-bit 或 4-bit 表示所有的浮点数。它假设模型的所有层或某一类参数具有相似的分布,从而可以使用相同的量化范围。
  • 均匀量化:所有的数值都被线性地映射到一个均匀的范围。这种方式计算效率高,尤其适合硬件加速器。
  • 权重重定标:由于采用统一量化策略,GGUF 通常会引入一个缩放因子,用来在推理阶段重定标量化后的数值,以避免数值溢出或精度过低的问题。

优点

  • 简单且高效,适用于低延迟推理场景。
  • 算法计算复杂度低,适合部署在资源有限的硬件上。

缺点

  • 由于全局采用统一的量化范围,对于模型某些权重分布极端的层来说,精度损失可能较大

演示如何对 Hugging Face 上的 GPT-2 模型进行 8-bit 全局统一量化

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.quantization import QuantStub, DeQuantStub, quantize_dynamic

# 加载 GPT2 模型和分词器
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

# 打印原始模型的大小
print(f"Original model size: {model.num_parameters()} parameters")

# 模型准备:将全局所有层量化(使用动态量化)
quantized_model = quantize_dynamic(
    model,  # 要量化的模型
    {torch.nn.Linear},  # 量化哪些层(这里是线性层)
    dtype=torch.qint8  # 量化数据类型,这里使用 8-bit 量化
)

# 打印量化后的模型大小
print(f"Quantized model size: {sum(p.numel() for p in quantized_model.parameters())} parameters")

# 测试量化后的模型生成文本
input_text = "Once upon a time"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = quantized_model.generate(**inputs, max_new_tokens=50)

# 解码输出
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Generated text:", generated_text)

3. AWQ (Activation-aware Quantization)

AWQ 是一种关注激活值的量化方法,主要在量化过程中考虑了激活值分布对模型性能的影响。这种方法通过分析激活值的分布特性,在量化过程中对激活值进行适应性处理,从而提高量化后模型的准确性。

原理

  • 激活值感知:在对权重进行量化的同时,AWQ 也会对每一层的激活值分布进行分析。在某些层,激活值可能呈现出不均匀或长尾分布,导致量化过程中精度下降。AWQ 对这些激活值分布进行感知并自适应调整量化策略。
  • 非均匀量化:在量化激活值时,AWQ 并不采用线性均匀量化,而是针对不同的激活值范围选择不同的量化尺度。这样可以更好地捕捉激活值的细节,减少量化误差。
  • 动态缩放:通过动态调整每层的量化缩放因子,使得量化后的激活值分布尽量保持和原始模型一致。

优点

  • 在模型的不同层次灵活调整量化策略,减少精度损失。
  • 适合模型推理阶段需要高精度的场景。

缺点

  • 相比全局统一量化,计算复杂度略高,可能需要更多的计算资源。
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.quantization import QuantStub, DeQuantStub, prepare_qat, convert

# 加载 GPT-2 模型和分词器
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

# 定义量化模块
class QuantizedGPT2(torch.nn.Module):
    def __init__(self, model):
        super(QuantizedGPT2, self).__init__()
        self.quant = QuantStub()  # 用于激活值的量化
        self.model = model
        self.dequant = DeQuantStub()  # 用于激活值的反量化
    
    def forward(self, input_ids):
        # 对输入的激活值进行量化
        quantized_inputs = self.quant(input_ids)
        outputs = self.model(input_ids=quantized_inputs)
        # 对输出进行反量化
        return self.dequant(outputs.logits)

# 将模型包装在量化模块中
quantized_model = QuantizedGPT2(model)

# 量化感知训练准备(QAT)
quantized_model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')

# 准备 QAT
quantized_model = prepare_qat(quantized_model, inplace=True)

# 模拟训练(可以加载现有权重并继续训练)
# 这里使用了一些样本数据
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")['input_ids']
quantized_model.train()

for _ in range(10):  # 模拟训练步骤
    outputs = quantized_model(inputs)
    loss = torch.nn.functional.cross_entropy(outputs.view(-1, outputs.size(-1)), inputs.view(-1))
    loss.backward()

# 完成量化
quantized_model.eval()
quantized_model = convert(quantized_model)

# 测试量化后的模型
with torch.no_grad():
    outputs = quantized_model(inputs)

generated_text = tokenizer.decode(outputs[0].argmax(dim=-1), skip_special_tokens=True)
print("Generated text:", generated_text)

总结

  • GPTQ 通过梯度优化对量化误差进行最小化,适用于后训练阶段的精细量化,精度较高。
  • GGUF 采用全局统一的量化策略,具有简单高效的优点,适用于资源受限的部署场景,但可能导致某些模型层的精度损失。
  • AWQ 关注激活值的量化,通过分析激活值的分布对量化策略进行自适应调整,精度更高但计算复杂度较大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机专业选题推荐-基于python的协同过滤酒店推荐系统

精彩专栏推荐订阅:在下方主页👇🏻👇🏻👇🏻👇🏻 💖🔥作者主页:计算机毕设木哥🔥 💖 文章目录 一、协同过滤酒店…

【C++ 11多线程加速计算实操教程】

【C 11多线程加速计算实操教程】 1. 了解线程的基本概念2. 创建线程2.1 启动线程的基本示例:2.2 运行结果 3. 线程加速计算3.1 演示如何使用多个线程计算数组的和:3.2 运行结果3.3 结果分析3.4 拓展学习 4. 互斥量(Mutex)4.1 演示…

Qt中多语言的操作(以QtCreator为例)

1、首先,我们在代码中与文本相关的且需要支持多语言的地方,用tr来包含多语言key(多语言key是我们自己定义的),如下 //举例 QPushButton* btnnew QPushButton(this); btn->move(20,20); btn->resize(100,50); //…

vue.js 展示一个树形结构的数据视图,并禁用其中默认选中的节点

功能描述 展示树形结构&#xff1a; 使用 Element UI 的 <el-tree> 组件展示树形结构数据。数据由 content 数组提供&#xff0c;树形结构包含了嵌套的节点及其子节点。 默认选中节点&#xff1a; 使用 defaultCheckedKeys 属性指定默认选中的节点。这些节点在树形结构渲…

自动换行且带下划线的居中长标题的论文封面一种绘图实现

自动换行且带下划线的居中长标题的论文封面一种绘图实现 引言 在一些学位论文的封面上要求标题带有下划线&#xff0c;但长标题的情况下标题自动换行后下划线就会面临一些问题。 因此&#xff0c;往往需要一些特殊的处理。 在《如何制作自动换行且有定长下划线的论文封面模板…

决策树+随机森林模型实现足球大小球让球预测软件

文章目录 前言一、决策树是什么&#xff1f;二、数据收集与整理1.数据收集2.数据清洗3.特征选择 三、决策树构建3.1绘制训练数据图像3.2 训练决策树模型3.3 依据模型绘制决策树的决策边界3.4 树模型可视化 四、模型预测五、随机森林模型总结 前言 之前搞足球数据分析的时候&…

删除topic提示admin token

这个admin token不是admin的密码&#xff0c;而是如下配置文件中的值&#xff1a; 否则报错&#xff1a; 检查&#xff1a; [rootk1 conf]# pwd /opt/kafka-web/efak-web-3.0.1/conf [rootk1 conf]# grep token system-config.properties # delete kafka topic token efak.t…

教师管理系统小程序+ssm论文源码调试讲解

第二章 开发工具及关键技术介绍 2.1 JAVA技术 Java主要采用CORBA技术和安全模型&#xff0c;可以在互联网应用的数据保护。它还提供了对EJB&#xff08;Enterrise JavaBeans&#xff09;的全面支持&#xff0c;java servlet AI&#xff0c;JS&#xff08;java server ages&…

TCL25届校招测评笔试TAS人才测评题库:高分攻略真题分析

&#x1f31f; 职场新人必看&#xff1a;TCL校招测评全解析 &#x1f31f; 亲爱的小伙伴们&#xff0c;你是否正准备踏入职场&#xff0c;或是对即将到来的校招感到既兴奋又紧张&#xff1f;今天&#xff0c;我将带你深入了解TCL校招中的TAS人才测评&#xff0c;让你在面试前做…

Flutter鸿蒙化环境配置(windows)

Flutter鸿蒙化环境配置&#xff08;windows&#xff09; 参考资料Window配置Flutter的鸿蒙化环境下载配置环境变量HarmonyOS的环境变量配置配置Flutter的环境变量Flutter doctor -v 检测的问题flutter_flutter仓库地址的警告问题Fliutter doctor –v 报错[!] Android Studio (v…

构建数据分析模型,及时回传各系统监控监测数据进行分析反馈响应的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;从而大大减少企业级应用约95%的开发成本。增…

20 基于STM32的温度、电流、电压检测proteus仿真系统(OLED、DHT11、继电器、电机)

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于STM32F103C8T6 采用DHT11读取温度、滑动变阻器模拟读取电流、电压。 通过OLED屏幕显示&#xff0c;设置电流阈值为80&#xff0c;电流小阈值为50&#xff0c;电压阈值为60&#xff0c;温度阈值…

虚幻引擎的射线检测/射线追踪

射线检测在 FPS/TPS 游戏中被广泛应用 什么是射线检测? 两个点行成一条线 , 射线检测是从一个起始点发出一条到终点的射线 , 如果射线命中一个游戏对象&#xff0c;就可以获取到对象命中时的 位置、距离、角度、是否命中、骨骼 等非常多的信息 , 这些信息在射击游戏中至关重…

价格便宜又好用的云电脑挑选:ToDesk云电脑 vs 青椒云

云计算技术的成熟使得云电脑因其便捷、灵活和高效而成为日常工作、学习和娱乐的首选工具。而在众多云电脑品牌之中&#xff0c;ToDesk云电脑与青椒云电脑 较为热门 。在此&#xff0c;笔者将围绕价格、性能、用户体验等关键指标对 比 这两款云电脑&#xff0c; 帮助 你们 找到最…

信号分解降噪 | Matlab实现基于TVFEMD-IMF能量熵增量的数据降噪方法

信号分解降噪 | Matlab实现基于TVFEMD-IMF能量熵增量的数据降噪方法 目录 信号分解降噪 | Matlab实现基于TVFEMD-IMF能量熵增量的数据降噪方法效果一览基本介绍程序设计参考资料 效果一览 基本介绍 信号分解降噪 | Matlab实现基于TVFEMD-IMF能量熵增量的数据降噪方法。该方法引…

地平线静态目标检测 MapTR 参考算法-V1.0

简介 高清地图是自动驾驶系统的重要组件&#xff0c;提供精确的驾驶环境信息和道路语义信息。传统离线地图构建方法成本高&#xff0c;维护复杂&#xff0c;使得依赖车载传感器的实时感知建图成为新趋势。早期实时建图方法存在局限性&#xff0c;如处理复杂地图元素的能力不足…

【python】requests 库 源码解读、参数解读

文章目录 一、基础知识二、Requests库详解2.1 requests 库源码简要解读2.2 参数解读2.3 处理响应2.4 错误处理 一、基础知识 以前写过2篇文章&#xff1a; 计算机网络基础&#xff1a; 【socket】从计算机网络基础到socket编程——Windows && Linux C语言 Python实现…

OpenHarmony(鸿蒙南向开发)——小型系统内核(LiteOS-A)【LMS调测】

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 鸿蒙&#xff08;OpenHarmony&#xff09;南向开发保姆级知识点汇总~ 持续更新中…… 基本概念 LMS全称为Lite Memory Sanitizer&#xff0c;是一种实时…

新版本大疆上云API指令飞行(drc)模式通讯搭建思路

一、大疆上云API mqtt官方通讯指导 1.1drc链路 1.2mqtt交互时序图 二、自行搭建mqtt说明 2.1工具&#xff1a;用emqx搭建mqtt服务器&#xff0c;mqttx作为客户端测试工具 2.2端口说明&#xff1a;1883&#xff0c;普通mqtt消息端口&#xff0c;8083&#xff0c;ws通信协议端…

商业银行应用安全架构设计实践

传统的信息安全工作通常偏向于事中或事后检测漏洞,随着敏捷开发工作的逐步推进,商业银行认识到安全架构设计在实现IT降本增效方面的独特优势。近几年,商业银行逐步构建了安全架构设计工作体系,在组织人员、安全技术与管控流程方面,与企业IT架构密切协同,着力建设安全公共…