Sirius:一种高效的上下文稀疏性校正方法,恢复稀疏模型在推理任务上的性能...

news2024/9/20 18:48:21

cc507fee4510fbf34917fc7581eba43c.png

论文:Sirius: Contextual Sparsity with Correction for Efficient LLMs
地址:https://www.arxiv.org/abs/2409.03856

研究背景

研究问题:这篇文章要解决的问题是大型语言模型(LLMs)在推理效率上的挑战。随着LLMs的广泛应用,如何在保持模型性能的同时减少计算成本成为一个重要的研究方向。

研究难点:该问题的研究难点包括:如何在推理任务中保持稀疏模型的效率,以及如何纠正稀疏模型中的错误以提高其性能。

相关工作:该问题的研究相关工作包括上下文稀疏性(Contextual Sparsity, CS)方法,这种方法通过动态稀疏模式减少模型参数和计算成本,但在复杂推理任务中表现不佳。7fbeabc543d84ea49139a8f6abdcf818.png

研究方法

这篇论文提出了Sirius机制,用于解决上下文稀疏模型在推理任务中性能下降的问题。具体来说:

  • 上下文稀疏性方法:首先,文章回顾了上下文稀疏性方法的两种主要类型:粗粒度稀疏性(CSparse)和细粒度稀疏性(FSparse)。粗粒度稀疏性在同一输入提示下固定稀疏模式,而细粒度稀疏性则利用每令牌的稀疏性来节省资源。

  • 错误纠正机制:文章发现,尽管上下文稀疏模型在大多数任务中表现良好,但在需要高层次推理和理解的生成任务中表现较差。为了纠正这些错误,文章提出了一种高效的纠正机制,称为Sirius。63d906c70dce70d071c2dd5cbc8ed2bf.png

Sirius的设计

Sirius基于周期性的方法,通过设置一个超参数周期来控制全模型的正确次数。具体步骤如下:

  1. KV缓存重写:在全模型运行期间,共享KV缓存,全模型生成的新KV直接写入共享缓存。

  2. 最小回滚:当全模型认为某个令牌极不可能时,进行回滚。

  3. 硬件高效树构建:在稀疏生成过程中构建树结构,以增加有效周期并提高纠正效率。717a4b3929e2f8fa25e8f9949201d8f2.png公式解释:

  • 平均参数使用量(APU):

其中, 是稀疏模型的参数数量, 是稀疏模型的参数密度, 是全模型的参数数量, 是平均前进长度。

  • 有效密度:

其中, 是全局稀疏性。

实验设计

  • 数据集选择:实验使用了六个主流LLMs,包括Llama-2-7B、Llama-3-8B和Llama-2-13B及其指令微调版本。推理任务包括算术推理(GSM8K、AQuA-RAT)、常识推理(CSQA、StrategyQA、Date、Sports)和编码任务(HumanEval、MBPP+)。

  • 稀疏性设置:对于算术推理和编码任务,使用50%的神经元稀疏性;对于常识推理任务,使用40%的神经元稀疏性。

  • 系统实现:实验在主流GPU(如Nvidia A40、L40、A100)上进行,评估了Sirius在片上和卸载设置下的延迟。

结果与分析

  • 有效性:Sirius在各种任务和模型上均表现出显著的有效性,能够将细粒度和粗粒度稀疏模型的准确率从较低的稀疏性恢复到接近全模型的性能。09918b1c71c7eaa48852c96a4cf22764.png

  • 效率:Sirius在片上和卸载设置下均实现了显著的加速效果。例如,在A40 GPU上,Sirius将Llama-3-8B-Instruct模型的延迟减少了约20%。

  • 组件分析:通过对Sirius组件的消融实验,发现回滚机制最有效,而KV缓存重写和树构建也对性能提升有显著贡献。

总体结论

这篇论文提出的Sirius机制有效地解决了上下文稀疏模型在推理任务中性能下降的问题。通过少量的全模型纠正,Sirius能够在保持稀疏模型效率的同时显著提高其性能。未来的研究方向包括探索更高效率的错误定位方法和进一步优化模型性能。

本文由AI辅助人工完成。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

406f17a37575b2a0dbe31c7f5835520d.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2128241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能获客系统,是企业引爆营销潜力的新工具

企业为争取每一位潜在客户投入了大量资源和精力,然而即使拥有最先进的营销策略和庞大的营销预算,面对海量数据和复杂的用户行为模式,传统的获客方式依然效能有限。如果您的企业也有这方面的痛点,不让考虑使用智能获客系统&#xf…

影刀RPA实战:自动化同步商品库存至各大电商平台(二)

在当今的电商世界中,多平台运营已成为常态。商家需要在多个电商平台上维护商品库存的一致性,以确保顾客体验的流畅性和库存管理的高效性。运营人员每天面临的问题,就是把公司的商品库存数据,间断性的同步到电商平台上,…

Django+Vue基于OpenCV的人脸识别系统的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 需要的环境3.2 Django接口层3.3 实体类3.4 config.ini3.5 启动类3.5 Vue 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优质创作者&…

Apache OFBiz 远程代码执行漏洞复现(CVE-2024-45195)并拿到shell

FOFA&#xff1a;app"Apache_OFBiz" 复现&#xff1a; VPS上准备两个文件 rceschema.xml <data-files xsi:noNamespaceSchemaLocation"http://ofbiz.apache.org/dtds/datafiles.xsd" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"…

机器学习--K-Means

K均值聚类 算法过程 K − m e a n s K-means K−means 是 聚类 c l u s t e r i n g clustering clustering 算法的一种&#xff0c;就是给你一坨东西&#xff0c;让你给他们分类&#xff1a; 我们的 K − m e a n s K-means K−means 大概是这样一个流程&#xff1a; 第一…

大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍

大家好,我是微学AI,今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中,大语言模型(Large Language Models, LLMs)凭借其强大的语言理解和生成能力,成为了研究与应用的热点。而在这股浪潮中,一…

python小脚本,实时监测服务器是否宕机状态,并发送到指定群组

一&#xff0c;前言 众所周知&#xff0c;市面上监控软件很多&#xff0c;有Zabbix&#xff0c;Prometheus等&#xff0c;但对于相对简单的功能&#xff0c;需要第一时间发现问题&#xff0c;如服务器宕机&#xff0c;zabbix和Prometheus都需要等几分钟才会报警。 想到最原始…

链路层和交换网_计算机网络

文章目录 链路层和交换网链路层多路访问链路和协议 ARPWeb 页面请求的历程 链路层和交换网 target&#xff1a; 分组是如何通过构成端到端通信路径的各段链路的&#xff1f;网络层的数据报是怎样被封装进链路层帧的呢&#xff1f;不同的通信链路能够采用不同的链路层协议吗&a…

【Linux】常见指令(2)

1.cp指令 cp指令用于复制文件或目录。 使用&#xff1a;cp [选项] [源文件或目录] [目标文件或路径] 常使用的选项是-r&#xff0c;即递归式复制。 接下来给两个使用示例来看&#xff1a; 当前有这些文件&#xff1a; 复制后&#xff1a; 2.mv指令 mv指令具有两个作用&am…

通义千问× DataV:AIGC “大时代”与可视化“小进步”

云布道师 阿里云数据可视化产品 DataV 借助“通义千问”大模型能力&#xff0c;推出“智能助手 DataV Copilot ”&#xff1b;通过代码自动生成、智能样式设计、“对话式”业务模版创建等功能&#xff0c;全面提速数据可视化应用开发效率。 一、DataV AI 探索之路&#xff1a…

闪存产品概述 NAND NOR FLASH

随着国内对集成电路&#xff0c;特别是存储芯片的重视&#xff0c;前来咨询我们关于NOR Flash&#xff0c;NAND Flash&#xff0c;SD NAND, eMMC, Raw NAND的客户越来越多了。这里我们专门写了这篇文章&#xff1a;1&#xff0c;把常用的存储产品做了分类; 2把一些产品的特点做…

Leetcode 188. 买卖股票的最佳时机 Ⅳ 状态机dp C++实现

Leetcode 188.买卖股票的最佳时机 Ⅳ 问题&#xff1a;给你一个整数数组 prices 和一个整数 k &#xff0c;其中 prices[i] 是某支给定的股票在第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你最多可以完成 k 笔交易。也就是说&#xff0c;你最多可以买 k 次&…

Dubbo--高性能RPC框架

文章目录 Dubbo介绍Dubbo基本架构Dubbo是什么&#xff0c;它能做什么 Dubbo入门示例1.准备工作2.创建Maven项目3.添加依赖3.1提供者服务3.2消费者服务 4.创建服务接口5.实现服务接口6.配置服务提供者7.配置服务消费者8.启动 ZooKeeper9.运行服务提供者10.运行服务消费者 Dubbo介…

信号发生器在扫描模式下输出正弦波信号,示波器呈现的波形显示异常与不理想,这是为什么

如下图所示&#xff0c;在信号发生器扫描模式下输出正弦波信号&#xff0c;示波器呈现出的波形显示“异常”“不理想”情况&#xff0c;其原因可能与以下因素有关&#xff1a; 1、扫描速度与示波器刷新率不匹配 如果信号发生器的扫描速率&#xff08;频率变化速度&#xff09;…

Leetcode题解精讲之二叉树的基本理论(分类、四种遍历方式、存储方式)

目录 0 专栏介绍1 二叉树的基本概念2 二叉树的分类3 二叉树的遍历3.1 前序遍历3.1.1 递归实现3.1.2 迭代实现 3.2 中序遍历3.2.1 递归实现3.2.2 迭代实现 3.3 后序遍历3.3.1 递归实现3.3.2 迭代实现 3.4 层序遍历3.4.1 递归实现3.4.2 迭代实现 4 二叉树存储模式5 其他技巧 0 专…

直觉微调——简化语言模型对齐过程

人工智能咨询培训老师叶梓 转载标明出处 预训练语言模型在遵循指令和信任度方面仍有待提高。为了解决这一问题&#xff0c;研究者们提出了监督式微调&#xff08;Supervised Fine-Tuning, SFT&#xff09;和偏好优化&#xff08;Preference Optimization, PO&#xff09;两种方…

算法提高模板强连通分量tarjan算法

AC代码&#xff1a; #include<bits/stdc.h>using namespace std;typedef long long ll; const int MOD 998244353; const int N 2e5 10;//强联通分量模板 //tarjan算法 vector<int>e[N]; int n, m, cnt; int dfn[N], low[N], ins[N], idx; int bel[N];//记录每…

STL容器真的好用吗

大家都在用的c STL就一定是完美无缺的吗&#xff1f; 本文一针见血的指出常见STL顺序容器vector的致命bug。 在Scott Meyers的《Effective C》中&#xff0c;第一个条款明确指出&#xff0c;C是一个语言联邦。 这体现在&#xff1a; ● C&#xff1a;C继承了C语言的基础特性&a…

零基础学习Python(八)—— time模块、request模块、数据分析和自动化办公相关模块、jieba模块、文件操作和os相关模块的简单介绍

1. time模块 time()&#xff1a;获取当前时间戳&#xff0c;是一个数字 localtime()&#xff1a;返回一个time.struct_time对象&#xff0c;里面有年月日时分秒&#xff0c;还有星期几&#xff08;0表示星期一&#xff09;和今年的第几天 import timeprint(time.time()) pri…

我又被Spring的事务坑了,用户兑奖之后,什么东西都没收到!!

没错&#xff0c;我又被事务坑了&#xff01; 即上次的mq发送消息之后&#xff0c;业务代码回滚&#xff0c;导致发了一条中奖消息给用户&#xff01;&#xff01;&#xff0c;这次又被spring的事务坑了 这次是这样的&#xff0c;一个兑奖接口进来&#xff0c;我们先改变了这…