LLM 模型压缩之三: FoldGPT

news2024/11/16 0:18:27

0. 资源链接

  • 论文: FoldGPT: Simple and Effective Large Language Model Compression Scheme

  • 项目: to be released.

1. 背景动机

现有的大语言模型推理存在以下问题:

  • LLM 模型因为有大量的参数,以及 next token 的预测方式,导致 LLM 模型推理慢,计算消耗大。

  • 模型压缩,量化和蒸馏等技术用来加速 LLM 模型推理;以及目前有许多端侧 LLM 推理的需求对大模型推理时延很高,需要尽可能降低 LLM 的推理时延,目前的加速技术仍然存在挑战。

  • 目前压缩模型技术主要分析,剪枝模型宽度存在的冗余性,但是模型的finetune 仍然需要消耗较多算力。

  • 目前有一些工作如 ShortGPT 等工作发现 LLM 在深度存在冗余计算,在深度剪枝取得不错的效果。

2. 内容提要

  • 本文分析了LLM blocks 输出的值的相似度,发现在深度维度上存在大量冗余。

  • 本文提出一个叫做 FoldGPT 方法,主要由模块去除和模块共享技术。

  • 本文设计一种可学习的重要度度量来对 LLM block 重要性排序,用于去除不重要模块。

  • 本文通过大量实验验证了 FoldGPT 的有效性,在不少模型上取得 SOTA 压缩效果。

3. 技术细节

FoldGPT 包含4个主要部分:Redundancy analysis,Gated block removal,Grouped parameter sharing 和 Distillation fine-tuning。

3.1 Redundancy analysis

通过分析 block 输入输出的相似度,可以发现不同 model 都存在深度的冗余性。

3.2 Gated block removal

  • 由于之前 ShortGPT BI score 方法忽略模块之间的影响,所以不能找到全局最优的模块去除策略。

  • 本文通过引入学习的门控系数来学习模块之间去除影响重要性。

  • 通过实验对比发现 FoldGPT 效果要远好于 ShortGPT BI score。

3.3 Grouped parameter sharing

  • 通过 group方式,让group 内的block share weights,为了保持精度,增加少量可学习参数来微调模型。

3.4 Distillation fine-tuning

  • 通过 Lora 微调提高精度。

4. 实验结果

  • FoldGPT 效果要好于 ShortGPT,同时通过 finetune 压缩效果会更好。

5. 一些思考

  • FoldGPT 针对 ShortGPT BI score 存在的问题,提出可学习的 Gated block score 来找出 less import blocks。

  • 通过参数共享和微调的技术进一步提高模型推理速度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2110490.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于vue项目启动报错Error: error:0308010C:digital envelope routines::unsupported

周五啦,总结一下这周遇到的个别问题吧,就是关于启动项目的时候其他的东西都准备好了,执行命令后报错Error: error:0308010C:digital envelope routines::unsupported 这里看一下我标注的地方,然后总结一下就不难发现问题所在 查看…

OBS怎么设置录制配置?3个电脑录屏小技巧妥妥教会你

OBS Studio是一款广受好评的开源录屏和直播软件,它以其强大的功能和用户友好的操作界面而闻名。对于初次接触OBS的用户来说,可能会对软件的众多按钮感到困惑。本文将为你提供一份简洁明了的OBS录屏指南,帮助你快速上手。 演示机型&#xff1a…

下载量10w+!LLM经典《大型语言模型:语言理解和生成》pdf分享

介绍 近年来,人工智能在新语言能力方面取得了显著进展,深度学习技术的快速发展推动了语言AI系统在文本编写和理解方面的表现。这一趋势催生了许多新功能、产品和整个行业的兴起。 本书旨在为Python开发者提供实用工具和概念,帮助他们利用预…

IP地址与MAC地址的区别:‌理解网络层与数据链路层的基石

在网络通信的广阔天地中,‌IP地址与MAC地址如同两座灯塔,‌各自照亮着不同的海域。‌它们虽然都扮演着标识网络设备的重要角色,‌但却在网络的不同层次上发挥着作用。‌本文将带您走进IP地址与MAC地址的世界,‌简述MAC与IP地址的区…

在SOLIDWORKS中高效转换:从实体模型到钣金件的设计优化

在设计生产中,当我们收到中间格式的模型文件时,并希望将其转换为钣金件以进一步加工生产,该怎么做呢? 利用SOLIDWORKS软件,可以直接将实体模型转换为钣金件,来完成后续的设计。 中性文件 钣金件 一、设置…

万象奥科参展“2024 STM32全国巡回研讨会”—深圳站、广州站

9月3日-9月5日,万象奥科参展“2024 STM32全国巡回研讨会”— 深圳站、广州站。此次STM32研讨会将会走进全国11个城市,展示STM32在智能工业、无线连接、边缘人工智能、安全、图形用户界面等领域的产品解决方案及多样化应用实例,深入解读最新的…

谷歌seo文章如何优化效果更好?

优化文章效果其实就是让它更吸引人,让读者有兴趣读下去,同时也要让搜索引擎喜欢,写作风格要亲切自然,用聊天的方式跟读者沟通,别让他们觉得在读一篇枯燥的报告,原创内容是关键,我们需要提供独特…

自称超越Transformer的新一代大模型RWKV是什么

论文地址:arxiv.org/pdf/2305.13048v2 项目地址:github 论文题目为:《RWKV: Reinventing RNNs for the Transformer Era》 自 Vaswani 等人于 2017 年首次提出 Attention Is All You Need 之后,基于 transformer 的强大的模型一…

jmeter同步定时器、固定定时器、统一随机定时器、常数吞吐量定时器详解

一、同步定时器 可以让多个线程同时向服务器发送请求,实现瞬间并发(相当于现实中同步秒杀商品)类似于集合点 例如:10个人约定去旅游,出发前提前会在某一个地方等到10个人同时都到了约定地点之后再一同排队上车 在任意接口下添加同步定时器模…

C#基础(6)值类型和引用类型

前言 我们先前已经完成了数组相关的学习,今天我们就要来详细介绍一下数据类型了。 引用类型是指变量存储的是对象的引用或地址,而不是实际的数据。在引用类型中,变量存储的是指向对象的指针,通过这个指针可以访问对象的实际数据…

电阻负载柜的故障排除方法有哪些?如何解决常见问题?

电阻负载柜是电力系统中的重要设备,主要用于模拟实际负载,对电力设备进行测试和调试。然而,在使用过程中,可能会出现各种故障。以下是一些常见的电阻负载柜故障及其排除方法: 1. 电源无法启动:首先检查电源…

[数据集][目标检测]西红柿成熟度检测数据集VOC+YOLO格式3241张5类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3241 标注数量(xml文件个数):3241 标注数量(txt文件个数):3241 标注…

Day 8 ~ 9: 队列

队列的原理 定义 定义:限制在两端进行插入操作和删除操作的线性表。 队尾:允许进行存入操作的一端。 对头:允许进行删除操作的一端。 特点 先进先出。 比如:食堂点餐,先进先出,银行叫号,先进先出…

ConfigBus

Config&Bus 构建server端 构建client端 config执行流程 配置git本地库 Server安全连接 Config集成eureka提升可用性 Config client快速检测 动态刷新配置 Bus 配置配置刷新的两种方式 消息通知解析 XXApplicationEvent类型共有属性 AckRemoteApplicationEvent 事件驱动模型…

浅谈SOC片上系统LoRa-STM32WLE5数据安全防御机制

随着物联网设备的普及,数以亿计的设备正在通过无线网络进行通信,传输大量的敏感数据。这种大规模的设备联网带来了便捷性,但也伴随着巨大的安全风险。SoC片上系统通过将无线通信、处理器、存储和安全机制集成在同一个芯片中,为物联…

启动spring boot项目时,第三方jar包扫描不到的问题

讲述一下遇到的问题: 在启动类Application上使用ComponentScan 这个注解来扫描第三方的包,然后就会出现报错。异常就是无法加载本地的bean,但是可以加载到第三方的bean; 了解过spring boot启动流程的都知道,Springboo…

kuka6轴机器人配置外部启动信号(学习记录,可能不对)

文档认为最重要的信号配置 我自己的信号配置(只配红框,输出部分有需要再添加) 外部启动的时序 有个点注意:外部启动后,为了“骗”BCO,需要在main程序的开头写上一段运动指令(走当前位置即可&…

python中的分支语句

注意: 在python中,每一个对象都有一个布尔值, >>>>>> True 或者 False >>>>>> 且只能判断 0 或者 1 举个例子: n % 2 :就是如果结果等于1 才会执行下一句, 所以要判断是偶数…

Kafka【十四】生产者发送消息时的消息分区策略

【1】分区策略 Kafka中Topic是对数据逻辑上的分类,而Partition才是数据真正存储的物理位置。所以在生产数据时,如果只是指定Topic的名称,其实Kafka是不知道将数据发送到哪一个Broker节点的。我们可以在构建数据传递Topic参数的同时&#xff…

GS-SLAM论文阅读笔记--LoopSplat

介绍 这篇文章看标题是解决GS-SLAM回环检测的,GS-SLAM回环检测之前文章很少,但他对于SLAM又很重要,确实值得阅读一番。而且这些作者的学校又是很厉害的。 文章目录 介绍1.背景介绍2.关键内容2.1 Gaussian Splatting SLAM2.2 Gaussian Splat…