大模型蒸馏技术

news2025/4/3 8:35:44

一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文证明:通过重用注意力层的权重,大型 transformer 可以被蒸馏成大型混合线性 RNN,只需最少的额外计算,同时可保留其大部分生成质量。
在这里插入图片描述
先来说说大模型的缺点,要想实现轻量化的部署,必须对体量巨大的大模型进行压缩,大模型功能虽然强大,但是存在过多的数据冗余,实际上有一些模型副本的权重参数是可以省去的,同样可以实现相应的能力,因此便有了模型压缩的研究。

Transformer

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,因此大模型的体量也都非常大,难以实现轻量化的部署,模型压缩研究也显得尤为重要

模型压缩

大模型压缩技术是当前人工智能领域的一个热点研究方向,它旨在减少大型机器学习模型的存储和计算开销,以便这些模型能够更高效地部署在资源受限的环境中。以下是一些主要的大模型压缩技术:

  1. 模型量化(Quantization):这是一种通过减少模型参数的表示精度来降低模型大小和加速推理的技术。量化可以通过量化感知训练(QAT)、量化感知微调(QAF)或训练后量化(PTQ)来实现。量化技术可以将模型的权重从浮点数转换为整数或其他离散形式,从而减少模型的存储需求和计算复杂性。例如,K-Quants是一种基于KMeans聚类的量化方法,imatrix增强的K-Quants通过学习量化前后模型输出的差异来建立校正矩阵,而i-quants则在量化过程中联合优化量化中心点和矩阵校正参数。

  2. 参数剪枝(Pruning):剪枝技术通过删除模型中的不重要连接或参数来减少模型的大小和计算量。剪枝可以分为结构化剪枝和非结构化剪枝,结构化剪枝通常删除整个神经元或过滤器,而非结构化剪枝则在更细的粒度上工作,删除单个权重或神经元连接。

  3. 知识蒸馏(Knowledge Distillation):知识蒸馏是一种压缩技术,它通过训练一个小型的“学生”模型来模仿一个大型的“教师”模型的行为。这种方法允许学生模型学习并复制教师模型的决策过程,从而在较小的模型中实现类似的性能。

  4. 低秩分解(Low-Rank Factorization):低秩分解通过将大型矩阵分解为低秩的子矩阵来减少模型参数的数量。这种方法可以在保持模型性能的同时减少模型的复杂性。

  5. 架构搜索(Architecture Search):神经网络搜索是一种自动化算法,用于设计高效的模型架构。这种方法可以优化模型的性能和复杂度,以适应特定的任务和资源限制。

  6. 参数共享(Weight Sharing):参数共享通过让模型的不同部分共享相同的权重来减少模型的参数数量,从而减小模型规模。

  7. 混合精度训练(Mixed Precision Training):这种方法结合了不同精度的数值表示,以减少模型的存储和计算需求,同时保持模型的性能。

这些技术可以单独使用,也可以组合使用,以达到最佳的压缩效果。例如,可以将量化和剪枝结合使用,以进一步减少模型的大小和加速推理过程。随着研究的进展,这些技术不断发展和改进,以支持更高效的大模型部署和应用。

知识蒸馏

《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》这篇论文探讨了如何将大型的Transformer模型通过知识蒸馏技术转化为线性RNN模型,特别是Mamba模型,并加速其推理过程。研究者们展示了通过重用Transformer注意力层的线性投影权重,可以在保持原始模型大部分性能的同时,减少计算资源的需求。这种方法使得混合模型在聊天基准测试中与原始Transformer模型相比具有可比的性能,并且在某些情况下超过了从头开始训练的开源混合Mamba模型。

论文中提到的混合模型包含了一部分注意力层,并且通过硬件感知的推测解码算法提高了推理速度。研究者们还提出了一种多阶段的蒸馏方法,包括渐进式蒸馏、监督微调和定向偏好优化,以提高模型的性能。实验结果表明,从Llama3-8B-Instruct模型中蒸馏出的最佳性能模型在AlpacaEval 2上相对于GPT-4实现了29.61的长度控制胜率,在MT-Bench上实现了7.35的胜率,超过了最佳的指令调整线性RNN模型。

这项研究的相关工作包括了对Transformer模型和线性RNN模型的研究,以及对知识蒸馏和推测解码算法的研究。论文的关键词包括Mamba、Distillation(蒸馏)、Speculative Decoding(推测解码)。

论文的摘要指出,最近的研究表明,像Mamba这样的状态空间模型(SSMs)在语言建模方面可以与Transformer模型竞争,并且具有更有利的部署特性。研究者们考虑了将这些预训练的Transformer模型转换为SSMs以用于部署的挑战,并展示了通过学术GPU资源重用注意力层的线性投影权重来实现这一目标的可行性。由此产生的混合模型包含了四分之一的注意力层,并在性能上与原始Transformer相当。此外,研究者们还引入了一种硬件感知的推测解码算法,以加速状态空间模型的推理速度。总的来说,研究者们展示了如何在有限的计算资源下,将大型Transformer模型蒸馏成混合SSM,并有效地进行解码。
GitHub地址

https://github.com/jxiw/MambaInLlama
论文地址
https://openreview.net/forum?id=UBSOUBC8Fd

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2147231.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python学习——【2.1】if语句相关语法

文章目录 【2.1】if语句相关一、布尔类型和比较运算符(一)布尔类型(二)比较运算符 二、if语句的基本格式※、练习 三、if-else组合判断语句※、练习 四、if-elif-else多条件判断语句※、练习 五、判断语句的嵌套※、实战案例 【2.…

AlexNet项目图片分类通用模型代码

目录 一:建立AlexNet模型(在model文件中写) 1.构造5层卷积层 2.构造3层神经网络层 3.forward函数 4.模型最终代码 二:训练数据(在train中写) 1.读出数据 2.训练 3. 测试模型更新参数 4.完整的训练…

Datawhile 组队学习Tiny-universe Task01

Task01:LLama3模型讲解 仓库链接:GitHub - datawhalechina/tiny-universe: 《大模型白盒子构建指南》:一个全手搓的Tiny-Universe 参考博客:LLaMA的解读与其微调(含LLaMA 2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子…

新的突破,如何让AI与人类对话变得“顺滑”:Moshi背后的黑科技

你有没有想过,当我们跟智能音箱、客服机器人或者语音助手对话时,它们是怎么“听懂”我们说的话,又是怎么迅速给出回应的?就好像你对着Siri、Alexa说一句:“给我订个披萨”,它立刻明白你想要干嘛,然后帮你下单。背后的技术其实比我们想象的要复杂得多,但现在,有了Moshi…

Qt_布局管理器

目录 1、QVBoxLayout垂直布局 1.1 QVBoxLayout的使用 1.2 多个布局管理器 2、QHBoxLayout水平布局 2.1 QHBoxLayout的使用 2.2 嵌套的Layout 3、QGridLayout网格布局 3.1 QGridLayout的使用 3.2 设置控件大小比例 4、QFormLayout 4.1 QFormLayout的使用 5、…

【2024】前端学习笔记8-内外边距-边框-背景

学习笔记 外边距:Margin内边距:Padding边框:Border背景:Background 外边距:Margin 用于控制元素周围的空间,它在元素边框之外创建空白区域,可用于调整元素与相邻元素(包括父元素和兄…

AI预测福彩3D采取888=3策略+和值012路或胆码测试9月19日新模型预测第92弹

经过90多期的测试,当然有很多彩友也一直在观察我每天发的预测结果,得到了一个非常有价值的信息,那就是9码定位的命中率非常高,90多期一共只错了10次,这给喜欢打私房菜的朋友提供了极高价值的预测结果~当然了&#xff0…

教育政策与智能技术:构建新时代教师队伍

据最新统计,我国目前拥有各级各类教师共计1891.8万人,这一庞大的教师群体不仅支撑起了全球规模最大的教育体系,更成为了推动教育创新与变革的主力军。面对教育数字化的不断发展,育人内容、目标要求、方式方法的全面升级&#xff0…

【测向定位】差频MUSIC算法DOA估计【附MATLAB代码】

​微信公众号:EW Frontier QQ交流群:554073254 摘要 利用多频处理方法,在不产生空间混叠的情况下,估计出高频区域平面波的波达方向。该方法利用了差频(DF),即两个高频之间的差。这使得能够在可…

鹏鼎控股社招校招入职SHL综合能力测评:高分攻略及真题题库解析答疑

鹏鼎控股(深圳)股份有限公司,成立于1999年4月29日,是一家专注于印制电路板(PCB)的设计、研发、制造与销售的高新技术企业。公司总部位于中国广东省深圳市,并在全球多个地区设有生产基地和服务中…

【软考】数据字典(DD)

目录 1. 说明2. 数据字典的内容2.1 说明2.2 数据流条目2.3 数据存储条目2.4 数据项条目2.5 基本加工条目 3. 数据词典管理4. 加工逻辑的描述4.1 说明4.2 结构化语言4.3 判定表4.3 判定树 5. 例题5.1 例题1 1. 说明 1.数据流图描述了系统的分解,但没有对图中各成分进…

软件自动定时启动器-添加可执行文件软件,设置启动的时间,也可以设置关闭的时间-供大家学习研究参考

点击添加软件,可以添加可执行文件软件,设置启动的时间,也可以设置关闭的时间 注意,时间为00:00:00 等于没设置,这个时间不在设置范围,其他任何时间都可以。 下载地址: h…

【C++ Primer Plus习题】16.9

大家好,这里是国中之林! ❥前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。有兴趣的可以点点进去看看← 问题: 解答: #include <iostream> #include <ctime> #include <v…

驱动---动态模块编译

动态模块编译 ctags 用法 创建文件 ------- ctags -R 一定要在顶层目录下 1&#xff0e; ctags –R * 2. vi –t tag (请把tag替换为您欲查找的变量或函数名) 3&#xff0e; Ctrl ] (跳转到要找的目标) 4&#xff0e; Ctrl T (回跳) 5&#xff0e; set tag/p…

解决使用nvm管理node版本时提示npm下载失败的问题

目录 一、引言 二、解决步骤 1. 访问该网站下载对应版本的npm Release v6.14.18 npm/cli GitHubthe package manager for JavaScript. Contribute to npm/cli development by creating an account on GitHub.https://github.com/npm/cli/releases/tag/v6.14.18 2. 解压到n…

mac使用技巧

mac使用技巧 快捷键 Command-X&#xff1a;剪切所选项并拷贝到剪贴板。Command-C&#xff1a;将所选项拷贝到剪贴板。这同样适用于“访达”中的文件。Command-V&#xff1a;将剪贴板的内容粘贴到当前文稿或应用中。这同样适用于“访达”中的文件。Command-Z&#xff1a;撤销上…

高级算法设计与分析 学习笔记6 B树

B树定义 一个块里面存了1000个数和1001个指针&#xff0c;指针指向的那个块里面的数据大小介于指针旁边的两个数之间 标准定义&#xff1a; B树上的操作 查找B树 创建B树 分割节点 都是选择正中间的那个&#xff0c;以免一直分裂。 插入数字 在插入的路上就会检查节点需不需要…

Ansible——Playbook基本功能???

文章目录 一、Ansible Playbook介绍1、Playbook的简单组成1&#xff09;“play”2&#xff09;“task”3&#xff09;“playbook” 2、Playbook与ad-hoc简单对比区别联系 3、YAML文件语法&#xff1a;---以及多个---&#xff1f;&#xff1f;使用 include 指令 1. 基本结构2. 数…

搜维尔科技:Haption力反馈遥操作解决方案

硬件设备 多种力反馈设备型号&#xff1a; 1.Haption Virtuose 6D&#xff1a;能在 6 个自由度&#xff08;x、y、z 轴 3 个平移和 3 个旋转&#xff09;上提供精确的力反馈&#xff0c;工作空间相当于一条人体手臂的活动范围&#xff0c;最大力度和旋转扭矩分别高达 35N 和 …

干货:分享6款ai论文写作助手,一键生成原创论文(步骤+工具)

写一篇论文是一个复杂的过程&#xff0c;涉及多个步骤&#xff0c;包括选题、研究、撰写、编辑和校对。AI可以在其中的一些步骤中提供帮助&#xff0c;但最终的论文还是需要人类作者的深入思考和创造性输入。以下是六款值得推荐的AI论文写作助手&#xff0c;其中特别推荐千笔-A…