浅谈量化感知训练（QAT）

浅谈量化感知训练（QAT）

news2025/2/5 4:12:27

1. 为什么要量化？

假设你训练了一个神经网络模型（比如人脸识别），效果很好，但模型太大（比如500MB），手机根本跑不动。于是你想压缩模型，让它变小、变快。
最直接的压缩方法：把模型参数（权重）从32位浮点数（FP32，高精度）转成8位整数（INT8，低精度）。
👉 但问题来了：直接压缩（训练后量化，PTQ）会导致精度暴跌，就像把高清图片压缩成马赛克，关键细节全丢了！

2. QAT的核心思想——“考试前先做模拟题”

QAT的核心：在训练阶段，就提前让模型“体验”被压缩后的效果（模拟低精度计算），这样模型自己会调整参数，尽量适应压缩后的环境。
类比：考试前做模拟题，提前适应真实考试的环境，正式考试时就不慌了。

3. QAT具体怎么做？——三步走

第1步：正常训练模型（FP32）

就像学生先学基础知识，打好基础。

第2步：插入“模拟压缩”操作

在训练过程中，假装模型已经被压缩了。比如：
- 对权重：把FP32的数值“假装”转成INT8，再转回FP32（伪量化）。
- 对激活值（每层的输出）：同样模拟INT8计算。
关键细节：
- 伪量化会引入误差（比如四舍五入），但误差会被反向传播“感知”到，模型会自我调整。
- 反向传播时，用**直通估计器（STE）**绕过量化操作的梯度问题（简单理解：假装量化没误差，直接传梯度）。

第3步：导出真正的量化模型

训练完成后，模型已经学会了在低精度下工作，此时真正转成INT8，精度损失很小。

4. 卷积层的QAT

假设一个卷积层的权重是FP32，正常计算流程是：
输入 → 卷积计算（FP32） → 输出
QAT模式下：
输入 → 卷积计算（FP32） → 伪量化（模拟INT8） → 反量化（转回FP32） → 输出

前向传播：模型以为自己在用INT8计算（实际底层还是FP32）。
反向传播：梯度直接作用于原始的FP32权重，绕过量化误差（STE的作用）。

5. QAT vs PTQ

PTQ（训练后量化）：直接压缩模型，像强行把大人衣服改小，可能不合身。
QAT（量化感知训练）：边改衣服边让模型试穿，直到改好的衣服完全合身。
结果：QAT的模型压缩后精度更高，尤其对复杂任务（如目标检测）优势明显。

6. QAT的代价

计算成本：训练时间变长（因为要模拟量化误差）。
调参技巧：学习率、量化范围等参数需要仔细调整。
硬件适配：量化方案必须匹配部署硬件（比如手机芯片只支持特定格式）。

7.QAT的本质

QAT = 提前让模型“体验”被压缩的感觉 + 边体验边学习适应
就像运动员在高原训练（模拟缺氧环境），比赛时到高原就能发挥更好。
掌握QAT，你就能帮大公司把AI模型塞进手机、摄像头甚至手表里！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2292107.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

对象的实例化、内存布局与访问定位

对象的实例化、内存布局与访问定位

一、创建对象的方式二、创建对象的步骤: 一、判断对象对应的类是否加载、链接、初始化: 虚拟机遇到一条new指令，首先去检查这个指令的参数能否在Metaspace的常量池中定位到一个类的符号引用，并且检查这个符号引用代表的类是否已经被加载、解析和初始化…

阅读更多...

OpenAI推出Deep Research带给我们怎样的启示

OpenAI推出Deep Research带给我们怎样的启示

OpenAI 又发新产品了，这次是面向深度研究领域的智能体产品 ——「Deep Research」，貌似被逼无奈的节奏… 在技术方面，Deep Research搭载了优化后o3模型并通过端到端强化学习在多个领域的复杂浏览和推理任务上进行了训练。因没有更多的技术暴露…

阅读更多...

K8S学习笔记-------1.安装部署K8S集群环境

K8S学习笔记-------1.安装部署K8S集群环境

1.修改为root权限 #sudo su 2.修改主机名 #hostnamectl set-hostname k8s-master01 3.查看网络地址 sudo nano /etc/netplan/01-netcfg.yaml4.使网络配置修改生效 sudo netplan apply5.修改UUID（某些虚拟机系统，需要设置才能生成UUID）#…

阅读更多...

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之用户登录

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之用户登录

🧸安清h：个人主页 🎥个人专栏：【Spring篇】【计算机网络】【Mybatis篇】 🚦作者简介：一个有趣爱睡觉的intp，期待和更多人分享自己所学知识的真诚大学生。目录 🎯1.登录-持久层 &…

阅读更多...

【Deep Seek本地化部署】模型实测：规划求解python代码

【Deep Seek本地化部署】模型实测：规划求解python代码

目录前言一、实测 1、整数规划问题 2、非线性规划问题二、代码正确性验证 1、整数规划问题代码验证 2、非线性规划问题代码验证三、结果正确性验证 1、整数规划问题结果正确性验证 2、非线性规划问题正确性验证四、整数规划问题示例后记前言模型&#xff…

阅读更多...

【游戏设计原理】98 - 时间膨胀

【游戏设计原理】98 - 时间膨胀

从上文中，我们可以得到以下几个启示： 游戏设计的核心目标是让玩家感到“时间飞逝” 游戏的成功与否，往往取决于玩家的沉浸感。如果玩家能够完全投入游戏并感受到时间飞逝，说明游戏设计在玩法、挑战、叙事等方面达到了吸引人的平衡…

阅读更多...

C语言基础系列【1】第一个C程序：Hello, World!

C语言基础系列【1】第一个C程序：Hello, World!

C语言的历史与特点历史背景 C语言起源于20世纪70年代，最初是由美国贝尔实验室的Dennis Ritchie和Ken Thompson为了开发UNIX操作系统而设计的一种编程语言。在UNIX系统的开发过程中，他们发现原有的B语言（由Thompson设计）在功能和…

阅读更多...

【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui

【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui

note DeepSeek-R1-Distill-Qwen-7B 的测试效果很惊艳，CoT 过程可圈可点，25 年应该值得探索更多端侧的硬件机会。文章目录 note一、下载 Ollama二、下载 Docker三、下载模型四、部署 open webui 一、下载 Ollama 访问 Ollama 的官方网站 https://ollam…

阅读更多...

go-zero学习笔记（三）

go-zero学习笔记（三）

利用goctl生成rpc服务编写proto文件 // 声明 proto 使用的语法版本 syntax "proto3";// proto 包名 package demoRpc;// golang 包名(可选) option go_package "./demo";// 如需为 .proto 文件添加注释，请使用 C/C 样式的 // 和 /* ... */…

阅读更多...

C# 修改项目类型应用程序程序改类库

C# 修改项目类型应用程序程序改类库

初级代码游戏的专栏介绍与文章目录-CSDN博客我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。这些代码大部分以Linux为目标但部分代码是纯C的，可以在任何平台上使用。源码指引：github源…

阅读更多...

地址查询API接口：高效查询地址信息，提升数据处理效率

地址查询API接口：高效查询地址信息，提升数据处理效率

地址查询各省市区API接口地址查询是我们日常生活中经常遇到的一个需求，无论是在物流配送、地图导航还是社交网络等应用中，都需要通过地址来获取地理位置信息。为了满足这个需求，我们可以使用地址查询API接口来高效查询地址信息，提…

阅读更多...

图、图的存储

图、图的存储

图的基本概念： 图g由顶点集v和边集e组成，记为g（v，e） 用|v|表示图g中顶点的个数，也称图g的阶，用|e|表示图g中边的条数线性表可以是空表，树可以是空树，但图不可以是空&…

阅读更多...

【数据结构】(4) 线性表 List

【数据结构】(4) 线性表 List

一、什么是线性表线性表就是 n 个相同类型元素的有限序列，每一个元素只有一个前驱和后继（除了第一个和最后一个元素）。数据结构中，常见的线性表有：顺序表、链表、栈、队列。二、什么是 List List 是 Java 中的线性…

阅读更多...

YOLO11/ultralytics：环境搭建

YOLO11/ultralytics：环境搭建

前言人工智能物体识别行业应该已经饱和了吧？或许现在并不是一个好的入行时候。最近看到了各种各样相关的扩展应用，为了理解它，我不得不去尝试了解一下。我选择了git里非常受欢迎的yolo系列，并尝试了最新版本YOLO11或者叫它ultr…

阅读更多...

Spring Boot 2 快速教程：WebFlux优缺点及性能分析（四）

Spring Boot 2 快速教程：WebFlux优缺点及性能分析（四）

WebFlux优缺点【来源DeepSeek】 Spring WebFlux 是 Spring 框架提供的响应式编程模型，旨在支持非阻塞、异步和高并发的应用场景。其优缺点如下： 优点高并发与低资源消耗非阻塞 I/O：基于事件循环模型（如 Netty）&am…

阅读更多...

《OpenCV》——图像透视转换

《OpenCV》——图像透视转换

图像透视转换简介在 OpenCV 里，图像透视转换属于重要的几何变换，也被叫做投影变换。下面从原理、实现步骤、相关函数和应用场景几个方面为你详细介绍。原理实现步骤选取对应点：要在源图像和目标图像上分别找出至少四个对应的点。这些对…

阅读更多...

20250202在Ubuntu22.04下使用Guvcview录像的时候降噪

20250202在Ubuntu22.04下使用Guvcview录像的时候降噪

20250202在Ubuntu22.04下使用Guvcview录像的时候降噪 2025/2/2 21:25 声卡：笔记本电脑的摄像头自带的【USB接口的】麦克风。没有外接3.5mm接口的耳机。缘起：在安装Ubuntu18.04/20.04系统的笔记本电脑中直接使用Guvcview录像的时候底噪很大！ …

阅读更多...

$The Simulation技术浅析（四）：随机数生成$

The Simulation技术浅析（四）：随机数生成

随机数生成技术是 The Simulation 中的核心组成部分，广泛应用于蒙特卡洛模拟、密码学、统计建模等领域。随机数生成技术主要分为伪随机数生成器（PRNG，Pseudo-Random Number Generator）和真随机数生成器（TRNG，True Random Number Generator）。 1. 伪随机数生成器（PR…

阅读更多...

结构体DMA串口接收比特错位

结构体DMA串口接收比特错位

发送： 显示： uint16_t接收时候会比特错位。

阅读更多...

如何在Intellij IDEA中识别一个文件夹下的多个Maven module？

如何在Intellij IDEA中识别一个文件夹下的多个Maven module？

目录问题描述理想情况手动添加Module，配置Intellij IDEA的Project Structure 问题描述一个文件夹下有多个Maven项目，一个一个开窗口打开可行但是太麻烦。直接open整个文件夹会发现Intellij IDEA默认可能就识别一个或者几个Maven项目，如…

阅读更多...

推荐文章

最新文章