LLMs可在2位精度下保持高准确率

news2025/4/23 9:14:47

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

LLMs可在2位精度下保持高准确率:北卡罗来纳大学教堂山分校研究团队提出TACQ,一种任务感知量化方法,可在不损失性能的情况下压缩关键权重回路

大型语言模型(LLMs)在多个应用领域展现出卓越能力,但其巨大的计算和内存需求依然是部署难题。特别是在需本地部署以保障隐私(如处理敏感医疗记录),或计算资源有限(如实时客服系统、边缘设备)等场景中,这一问题尤为突出。后训练量化(Post-Training Quantization, PTQ)被视为有效压缩预训练模型、降低内存使用的可行方案,可实现2至4倍的内存节省。然而,当前的PTQ技术在压缩至4位以下时面临显著性能下降的问题,尤其在2位和3位精度下表现尤为不佳。多数PTQ方法依赖通用预训练数据的小批量样本来模拟量化后激活的变化,这限制了其在更低精度下的表现。

现有LLM压缩方法主要分为三类:

  1. 均匀量化(Uniform Quantization):最基础的方法,将16位浮点权重按行独立压缩,通过通道内最大最小值进行映射。
  2. 基于GPTQ的量化方法:通过层级重构以最小化量化后的重构损失,提升性能。
  3. 混合精度量化(Mixed-Precision Quantization):对不同权重分配不同精度,保留“异常”高敏感权重的高精度,以在低位数下维持性能。

北卡罗来纳大学教堂山分校的研究人员提出了一种新的混合精度后训练量化方法——TaskCircuit Quantization(TACQ)。该方法受自动电路发现理念启发,在量化过程中直接依据下游任务表现所需的关键“权重回路”进行调整。TACQ通过比较未量化模型权重与均匀量化权重,评估量化对权重的预期影响,并结合梯度信息预测其对任务表现的影响,从而优先保留关键权重。即便在使用相同校准数据与更低权重预算的情况下,TACQ也表现优于多种基准方法,尤其在2位和3位精度下取得显著突破。

TACQ的核心在于其显著性指标(saliency metric),用于识别在量化过程中应被保留的关键权重。这一指标结合两大技术:

  • 量化感知定位(Quantization-aware Localization, QAL):评估权重变化对模型性能的影响。
  • 幅度加权梯度(Magnitude-sharpened Gradient, MSG):借鉴输入归因技术,衡量权重绝对重要性的广义指标,用于修正QAL的偏差并稳定评估过程。

QAL与MSG共同构建出一套统一的显著性评估机制,可在单次反向传播中对所有权重进行有效打分,并选出得分前p%的关键权重以16位精度保留。

在极具挑战性的2位精度设定中,TACQ在多个基准任务中表现出压倒性优势,具体如下:

  • 在GSM8k上,准确率从20.1%提升至36.1%,提升16.0%;
  • 在MMLU上,从34.8%提升至49.2%,提升14.1%;
  • 在Spider上,从0%跃升至21.9%,实现21.9%的绝对提升。

相比之下,GPTQ、SqueezeLLM、SPQR等现有方法在2位精度下几乎退化至随机表现水平。
在3位精度下,TACQ保留了原始准确率的:

  • 91%(GSM8k)、
  • 96%(MMLU)、
  • 89%(Spider),

并在多数数据集上以1-2%的优势超越最强对手SliM-LLM。尤其在Spider这类需要连续生成token的任务中,TACQ是唯一能在2位精度下保持可观表现的方案,展现了在文本生成与SQL生成等序列输出场景中的独特优势。

结语
TACQ的提出标志着任务感知型后训练量化技术的一大进展,成功解决了以往方法在2至3位精度下性能严重下降的问题。该方法与“自动电路发现”领域研究相呼应,通过在压缩过程中仅保留少量重要权重,揭示了任务表现与稀疏权重“回路”之间的紧密联系。Spider上的实验表明,TACQ在生成类任务中更能保留模型能力,适用于代码生成等高频可执行输出场景,同时也为追求效率的AI代理系统带来新的解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2340661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爆改 toxml 组件 支持数据双向绑定 解决数据刷新问题

GGGGGGGGGGGGGGGGGithub地址自行研究 sbfkcel/towxml: 微信小程序HTML、Markdown渲染库https://github.com/sbfkcel/towxml原组件是以导入数据渲染信息为目的、本文以AI数据返回小程序为模拟效果演示 默认情况只在ready 环节进行渲染静态资源 1、对传入数据容器的位置做处理 …

Unreal如何使用后处理材质实现一个黑屏渐变效果

文章目录 前言相机后期处理材质创建材质相机设置动态修改FadeAlpha参数使用示例最后前言 UE5 开发VR ,如何通过PostProcess轻松实现黑屏渐变效果 最简单的办法,其实是使用一个半球形模型,遮挡住相机,然后控制这个半球形遮罩的颜色透明度,至少Unity中默认的Tunneling是这么…

DB-GPT支持mcp协议配置说明

简介 在 DB-GPT 中使用 MCP(Model Context Protocol)协议,主要通过配置 MCP 服务器和智能体协作实现外部工具集成与数据交互。 开启mcp服务,这里以网页抓取为例 npx -y supergateway --stdio "uvx mcp-server-fetch" …

CoT-Drive:利用 LLM 和思维链提示实现自动驾驶的高效运动预测

25年3月来自澳门大学和 MIT 的论文“CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting”。 准确的运动预测对于安全的自动驾驶 (AD) 至关重要。本研究提出 CoT-Drive,这是一种利用大语言模型 (LLM) 和思…

Flowable7.x学习笔记(十)分页查询已部署 BPMN XML 流程

前言 上一篇文章我们已经完成了流程的部署功能,那么下一步就是要激活流程了,但是我们要需要明确的指定具体要激活部署后的哪一条流程,所以我们先把已部署的基础信息以及具体定义信息分页查询出来,本文先把基础代码生成以及完成分页…

Office文档图片批量提取工具

Office.Files.Images 是一款专注于从 Word、Excel、PPT 等 Office 文档中批量提取图片的轻量级工具,支持 .docx、.xlsx、.pptx 格式文件。该软件体积仅 ‌343KB‌,无需安装即可运行,通过拖拽操作实现快速解析与导出,尤其适合需批量…

33-公交车司机管理系统

技术: 基于 B/S 架构 SpringBootMySQLvueelementui 环境: Idea mysql maven jdk1.8 node 用户端功能 1.首页:展示车辆信息及车辆位置和线路信息 2.模块:车辆信息及车辆位置和线路信息 3.公告、论坛 4.在线留言 5.个人中心:修改个人信息 司机端功能…

PyCharm 初级教程:从安装到第一个 Python 项目

作为 Python 程序员,无论是刚入门还是工作多年,PyCharm 都是一个绕不开的开发工具。它是 JetBrains 出品的一款强大的 Python IDE,有自动补全、调试、虚拟环境支持、代码检查等等功能,体验比命令行 记事本舒服一百倍。 今天这篇…

QML FontDialog:使用FontDialog实现字体选择功能

目录 引言相关阅读FontDialog基本介绍字体属性 实例演示项目结构代码实现Main.qmlmain.cpp 代码解析运行效果 总结 引言 在桌面应用程序开发中,字体选择是一个常见的需求。Qt Quick提供了FontDialog组件来实现这一功能。本文将介绍如何在Qt Quick应用程序中使用Fon…

力扣刷题Day 27:环形链表(141)

1.题目描述 2.思路 创建一个结点集合,遍历链表,如果遇到已经加进集合的结点就说明链表有环。 3.代码(Python3) class Solution:def hasCycle(self, head: Optional[ListNode]) -> bool:node headnode_set set()while node…

研发效率破局之道阅读总结(3)工程优化

研发效率破局之道阅读总结(3)工程优化 Author: Once Day Date: 2025年4月22日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 程序的艺术_Once-Day…

metasploit(2)生成dll木马

声明!本文章所有的工具分享仅仅只是供大家学习交流为主,切勿用于非法用途,如有任何触犯法律的行为,均与本人及团队无关!!! 一、dll文件基本概念 DLL 是一种包含可由多个程序同时使用的代码和数…

数据结构--并查集-高效处理连通性问题

目录 一、理论基础 (1)并查集的功能及实现原理 (2)代码模版 (3)模拟过程 (4)应用 二、基础题练习 (1)寻找存在的路径(模版题) …

WPS Office安卓版云文档同步速度与PDF转换体验测评

WPS Office安卓版是很多人常用的移动办公软件。它支持在线编辑、文档同步、格式转换等功能,适合手机和平板用户随时处理文档。我们用它配合谷歌浏览器打开网页文档时,也可以将内容快速保存到云端或转换成PDF格式使用。 先说云文档同步。在打开WPS Office…

Eureka、LoadBalance和Nacos

Eureka、LoadBalance和Nacos 一.Eureka引入1.注册中心2.CAP理论3.常见的注册中心 二.Eureka介绍1.搭建Eureka Server 注册中心2.搭建服务注册3.服务发现 三.负载均衡LoadBalance1.问题引入2.服务端负载均衡3.客户端负载均衡4.Spring Cloud LoadBalancer1).快速上手2)负载均衡策…

【Linux网络】构建基于UDP的简单聊天室系统

📢博客主页:https://blog.csdn.net/2301_779549673 📢博客仓库:https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! &…

【每天一个知识点】大模型的幻觉问题

“大模型的幻觉问题”是指大语言模型(如GPT系列、BERT衍生模型等)在生成内容时,产生不符合事实或逻辑的虚假信息,即所谓的“幻觉”(hallucination)。这在诸如问答、摘要、翻译、代码生成等任务中尤其常见。…

[大模型]什么是function calling?

什么是function calling? 大模型的 ​​Function Calling​​(函数调用)是一种让大语言模型(如 GPT、Claude 等)与外部工具、API 或自定义函数交互的机制。 它的核心目的是让模型能够根据用户的需求,​​…

Java高频面试之并发编程-05

hello啊,各位观众姥爷们!!!本baby今天来报道了!哈哈哈哈哈嗝🐶 面试官:线程有哪些调度方法? 在Java中,线程的调用方法主要包括以下几种方式,每种方式适用于…

野外价值观:在真实世界的语言模型互动中发现并分析价值观

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…