每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
LLMs可在2位精度下保持高准确率:北卡罗来纳大学教堂山分校研究团队提出TACQ,一种任务感知量化方法,可在不损失性能的情况下压缩关键权重回路
大型语言模型(LLMs)在多个应用领域展现出卓越能力,但其巨大的计算和内存需求依然是部署难题。特别是在需本地部署以保障隐私(如处理敏感医疗记录),或计算资源有限(如实时客服系统、边缘设备)等场景中,这一问题尤为突出。后训练量化(Post-Training Quantization, PTQ)被视为有效压缩预训练模型、降低内存使用的可行方案,可实现2至4倍的内存节省。然而,当前的PTQ技术在压缩至4位以下时面临显著性能下降的问题,尤其在2位和3位精度下表现尤为不佳。多数PTQ方法依赖通用预训练数据的小批量样本来模拟量化后激活的变化,这限制了其在更低精度下的表现。
现有LLM压缩方法主要分为三类:
- 均匀量化(Uniform Quantization):最基础的方法,将16位浮点权重按行独立压缩,通过通道内最大最小值进行映射。
- 基于GPTQ的量化方法:通过层级重构以最小化量化后的重构损失,提升性能。
- 混合精度量化(Mixed-Precision Quantization):对不同权重分配不同精度,保留“异常”高敏感权重的高精度,以在低位数下维持性能。
北卡罗来纳大学教堂山分校的研究人员提出了一种新的混合精度后训练量化方法——TaskCircuit Quantization(TACQ)。该方法受自动电路发现理念启发,在量化过程中直接依据下游任务表现所需的关键“权重回路”进行调整。TACQ通过比较未量化模型权重与均匀量化权重,评估量化对权重的预期影响,并结合梯度信息预测其对任务表现的影响,从而优先保留关键权重。即便在使用相同校准数据与更低权重预算的情况下,TACQ也表现优于多种基准方法,尤其在2位和3位精度下取得显著突破。
TACQ的核心在于其显著性指标(saliency metric),用于识别在量化过程中应被保留的关键权重。这一指标结合两大技术:
- 量化感知定位(Quantization-aware Localization, QAL):评估权重变化对模型性能的影响。
- 幅度加权梯度(Magnitude-sharpened Gradient, MSG):借鉴输入归因技术,衡量权重绝对重要性的广义指标,用于修正QAL的偏差并稳定评估过程。
QAL与MSG共同构建出一套统一的显著性评估机制,可在单次反向传播中对所有权重进行有效打分,并选出得分前p%的关键权重以16位精度保留。
在极具挑战性的2位精度设定中,TACQ在多个基准任务中表现出压倒性优势,具体如下:
- 在GSM8k上,准确率从20.1%提升至36.1%,提升16.0%;
- 在MMLU上,从34.8%提升至49.2%,提升14.1%;
- 在Spider上,从0%跃升至21.9%,实现21.9%的绝对提升。
相比之下,GPTQ、SqueezeLLM、SPQR等现有方法在2位精度下几乎退化至随机表现水平。
在3位精度下,TACQ保留了原始准确率的:
- 91%(GSM8k)、
- 96%(MMLU)、
- 89%(Spider),
并在多数数据集上以1-2%的优势超越最强对手SliM-LLM。尤其在Spider这类需要连续生成token的任务中,TACQ是唯一能在2位精度下保持可观表现的方案,展现了在文本生成与SQL生成等序列输出场景中的独特优势。
结语
TACQ的提出标志着任务感知型后训练量化技术的一大进展,成功解决了以往方法在2至3位精度下性能严重下降的问题。该方法与“自动电路发现”领域研究相呼应,通过在压缩过程中仅保留少量重要权重,揭示了任务表现与稀疏权重“回路”之间的紧密联系。Spider上的实验表明,TACQ在生成类任务中更能保留模型能力,适用于代码生成等高频可执行输出场景,同时也为追求效率的AI代理系统带来新的解决方案。