神经网络模型剪枝快速指南

news2025/1/15 21:49:42

模型剪枝(Model Pruning)是指从深度学习神经网络模型中删除不重要的参数,以减小模型大小并实现更高效的模型推理。通常,只剪枝参数的权重,而不影响偏差。偏差的剪枝往往有更明显的缺点。

非结构化剪枝期间权重如何归零的可视化

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

由于这些参数被删除,可能会导致模型推理性能下降,因此应谨慎执行。在后续章节中,我们将探讨剪枝的类型以及剪枝策略,然后再讨论适合你特定用例的最佳剪枝策略。

1、为什么模型剪枝很重要?

有充分的证据表明,神经网络具有过多的参数,需要很好地概括并做出准确的预测。 “彩票假说:寻找稀疏、可训练的神经网络”(Frankle 和 Carbin,2019 年)表明,神经网络往往具有一组对预测至关重要的特定参数子集。模型剪枝是一种非常直观的模型压缩方法,其假设是有效的模型压缩应该删除未使用的权重,类似于大脑减少神经元之间连接的使用以强调重要通路的方式。

考虑到这一点,剪枝在压缩和简化模型方面通常比量化等其他方法更具针对性,量化只是直接去除模型权重的精度。因此,模型剪枝非常适合那些优先考虑在保持或提高模型准确性与减少整体模型大小之间找到平衡的从业者。

2、如何实现模型剪枝?

有两种主要方法可以修剪神经网络,即训练时剪枝和训练后剪枝,具体取决于剪枝过程相对于模型训练的发生时间。训练时修剪和训练后修剪都旨在减少神经网络的大小和计算复杂性,但它们在相对于训练过程做出修剪决策的时间上有所不同。

不同修剪方法的比较

  • 训练时修剪

训练时修剪(Train-Time Pruning)涉及将修剪过程直接集成到神经网络的训练阶段。在训练期间,模型的训练方式鼓励稀疏性或删除不太重要的连接或神经元作为优化过程的一部分。这意味着修剪决策是在训练迭代期间与权重更新同时做出的。

训练时修剪可以使用诸如 L1 或 L2 正则化等正则化方法(其中惩罚项鼓励稀疏性)或通过将修剪掩码纳入优化过程来实现。

  • 训练后修剪

顾名思义,训练后修剪(Post-Training Pruning)涉及在训练模型完全训练后对其进行修剪,而不考虑在训练过程中进行修剪。一旦模型经过训练达到收敛,就会应用修剪技术来识别和删除训练模型中不太重要的连接、神经元或整个结构。这通常在训练完成后作为单独的步骤应用。

训练时修剪和训练后修剪都为模型压缩和优化提供了显着的好处。但是,每种方法都有自己的缺点,如下图所示:

不同修剪方法的权衡表

一个好的起点通常是实施训练后修剪,因为你可以立即修剪任何现有模型,而无需增加训练流程的复杂性并从头开始重新训练模型。如果即使在微调模型后,修剪过程导致的任何准确度下降仍然不理想,你可以考虑训练时修剪。

3、训练后修剪的类型

修剪主要有两种类型:结构化和非结构化修剪。非结构化修剪通常侧重于删除单个模型权重参数,而结构化修剪则涉及切除整个权重结构。

3.1 非结构化修剪

非结构化修剪是一种更简单、更幼稚的修剪方法,但它是一种入门门槛低的可访问方法。

非结构化修剪的一般方法使用取决于原始权重本身或其激活的最小阈值来确定是否应修剪单个参数。如果参数未达到阈值,则将其归零。

由于非结构化修剪涉及将权重矩阵中的单个权重归零,这意味着将执行模型修剪之前的所有计算,因此延迟改进最小。另一方面,它可以帮助对模型权重进行去噪以实现更一致的推理,并有助于减小模型大小无损模型压缩。

与结构化剪枝不同,结构化剪枝在没有上下文信息和适应性的情况下肯定无法使用,非结构化剪枝通常可以开箱即用,不会有太大风险。“通过逐层校准进行训练后深度神经网络剪枝”(Lazarevich 等人,2021 年)证明了这种简单、无数据范式的有效性,可将模型权重减少 50% 以上,而准确率下降不到 1%。

3.2 结构化剪枝

结构化剪枝是一种更具野心、更具架构思维的剪枝方法。通过删除整个结构化权重组,该方法减少了在前向传递模型权重图时必须进行的计算规模。这对模型推理速度和模型大小有真正的改进。

“DepGraph:面向任何结构化剪枝”(Fang 等人,2023 年)展示了在各种架构中保持准确性的强大功能,同时将推理速度减半。鉴于更宏伟的目标,结构化修剪方法必须更加精确和有意识地修剪整个权重组,因为影响会扩展到该节点与图中其他节点之间的关系。这需要更多底层自适应过程,如果任意使用,肯定会对性能造成灾难性后果。

结构化修剪中如何移除层的可视化

4、训练后修剪范围

对于每种主要修剪类型,也有不同的修剪范围:局部修剪和全局修剪。本节将深入探讨这些范围所包含的内容以及它们之间的主要区别。

基于非结构化修剪中的最小幅度阈值选择要归零的权重的可视化

4.1 局部修剪

局部修剪涉及在神经网络层内的单个神经元、连接或权重级别进行修剪。它通常侧重于根据某些标准(例如权重幅度低、在特定层上下文中重要性低或对模型性能的贡献最小)移除不太重要的连接或神经元。局部修剪通常涉及迭代技术,其中权重或连接根据某些标准一次修剪一个或分成小组。

局部修剪方法的示例包括权重幅度修剪、基于单位幅度的修剪或基于连接敏感度的修剪。

4.2 全局修剪

另一方面,全局修剪涉及同时修剪整个神经元、层甚至模型的大部分。它考虑整个网络中神经元或层的整体重要性,而不是关注单个层内的特定部分。全局修剪通常涉及更复杂的技术,这些技术考虑到网络不同部分之间的相互作用和依赖关系。

全局修剪方法的示例包括迭代幅度修剪(其中对整个网络的权重同时进行排序和修剪)、最佳脑损伤或最佳脑外科手术算法。

主要区别如下:

局部和全局修剪范围之间的权衡表

局部和全局修剪都有其优点,但一般来说,全局修剪具有更多背景信息,可以做出更有影响力的修剪决策,但可能会导致特定层整体受损。局部修剪的背景信息较少,因此可能不会产生有效的结果,但是一种更有分寸的方法。

5、修剪的效果

修剪的效果因深度学习模型而异。我们通过以不同的百分比修剪我们在 Nexus 上提供的一系列模型中的几种模型进行了比较研究。这些模型包括 DeepLabV3 MobileNetV3、UNet ResNet50、YOLOX Large 以及 YOLOv8 系列模型中的几种变体,均以 ONNX 导出。我们利用非结构化全局修剪来展示一种更简单的修剪方法将如何影响这些模型。

5.1 模型压缩

模型修剪可显著减少模型文件大小。压缩后的模型文件大小随着修剪量的增加而线性减小。这是意料之中的,因为当模型文件被压缩时,归零的权重应该只占用微不足道的空间。

需要注意的一点是,修剪是以尽力而为的方式进行的。例如,90% 的修剪百分比意味着 90% 的符合修剪条件的权重将被归零。由于并非所有权重都被选中进行修剪,并且激活和偏差等其他节点被排除在此过程之外,因此模型压缩的百分比可能与原始模型大小的 90% 没有直接关系,如下图所示的 UNet ResNet50 和 YOLOX Large 模型所示。

图表显示了不同模型架构中各种修剪率对压缩模型大小的影响

修剪带来的存储节省对于存储容量有限的边缘设备(例如无人机和片上系统摄像头)至关重要。通常与 GPU 部署相关的较大模型架构可以集成到这些边缘设备上,以实现更高的可访问性和本地推理能力。这对于可能需要在同一硬件上加载多个模型的其他部署环境也大有裨益。

5.2 推理速度

模型修剪还可以减少推理时间,因为归零权重是一个简单的传递过程,不会增加模型的计算复杂性。在下图中,模型对每幅图像进行推理所需的时间通常会随着修剪率的增加而减少。虽然并非所有模型都是如此,但大多数模型似乎都遵循这一趋势。

图表显示了不同剪枝率对不同模型架构中模型推理时间的影响

加速推理速度对于具有动态运动的实时应用至关重要,例如用于产品检查的传送带上的快速移动物体,或繁忙地区的人群和交通管理。经过剪枝的较大模型架构可以取代具有相似推理速度但可能具有更高准确度的较小现有模型。

5.3 推理性能

虽然剪枝通常有利于模型压缩和更快的推理速度,但过多的剪枝可能会对模型造成不利影响。虽然剪枝旨在将不重要的权重归零,但这些权重可能仍会对模型的决策过程产生轻微影响。较高的剪枝率也可能无意中剪枝重要的权重。这可能会导致模型的准确性下降。

根据下图,尽管大多数权重被清零,但一些模型仍能保持高性能(例如 DeepLabV3 MobileNetV3 和 UNet ResNet50 等语义分割模型)。然而,仍有一些模型会受到大量剪枝的严重影响(例如 YOLOv8x、YOLOv8s-seg)。

图表展示了各种剪枝率对不同模型架构中的模型推理性能的影响

使用 mAP@0.5IOU 来衡量模型推理性能,用于对象检测、关键点检测和实例分割模型,而准确度用于语义分割和分类模型。两个值的范围都是从 0 到 1,值越高通常表示模型性能越好。

总体而言,模型修剪量越大,内存和推理时间节省越多。尽管推理性能下降是一个潜在的考虑因素,但选择正确的修剪率可以帮助缓解这种情况。

6、何时应该修剪模型?

在计算资源受限或效率至关重要的部署场景中,修剪模型尤其有益。

  • 边缘设备:由于计算资源、内存和功率限制有限,在智能手机、物联网设备或嵌入式系统等边缘设备上部署模型通常需要轻量级模型。修剪可以显著减少模型大小和计算复杂度,从而可以在不牺牲性能的情况下在这些设备上部署。
  • 实时应用:在低延迟至关重要的应用中,例如实时视频分析、自动驾驶汽车或语音识别,修剪可以帮助减少模型的推理时间。通过删除冗余参数或连接,修剪后的模型需要更少的计算,从而实现更快的推理,而不会影响准确性。
  • 云服务:即使在基于云的部署场景中,计算资源可能更丰富,修剪仍然有利于节省成本和提高可扩展性。较小的模型需要更少的资源来部署和维护,从而降低基础设施成本并提高可扩展性,尤其是在高需求或弹性工作负载的场景中。
  • 移动应用:移动应用通常具有有限的存储空间和处理能力,这使得部署大型模型具有挑战性。修剪允许开发人员创建更轻量级的模型,这些模型可以集成到移动应用中,而不会显著影响性能或用户体验。
  • 嵌入式系统:在将模型部署在嵌入式系统上以执行工业自动化、机器人或传感器数据分析等任务的场景中,修剪可以帮助优化资源利用率并提高能源效率。这对于延长电池供电设备的电池寿命和减少资源受限环境中的能耗至关重要。
  • 带宽受限环境:在带宽有限的部署场景中,例如远程位置或具有间歇性连接的物联网部署,修剪产生的较小模型在部署和推理期间需要更少的数据传输,从而实现更快、更可靠的通信。

7、应该修剪到什么程度?

与模型训练类似,有一些普遍的良好原则,但找出答案的最佳方法是确定标准化基准或基线,然后尝试各种设置以确定最适合您的设置。

从上图中,我们可以观察到,在修剪的参数的 30% - 50% 的“安全区”之外,模型推理性能急剧下降。因此,建议的起点可以是 30% 的初始修剪率。

根据你的用例,可以随后执行以下操作:

  • 高性能批处理作业

对于需要更精确预测的批处理任务,你可以进一步降低修剪百分比,以提高性能的准确性。请注意,这会增加模型文件大小,并可能增加推理时间。因此,找到一个精确的水平非常重要,既要平衡验证指标的损失,又要尽可能多地修剪权重。

  • 高速推理

如果你的模型必须适合某个固定大小(例如 25 MB),以便它可以满足在边缘设备上部署的某些要求,或者如果你想潜在地减少单次推理所需的时间,可以选择一定的最低修剪级别来实现该大小。同样,随着模型大小和推理时间的减少,模型的准确性也可能会受到影响。

  • 在 Datature Nexus 上修剪模型

在 Nexus 上训练模型后,Datature 提供训练后模型修剪作为高级导出选项。我们专注于将训练后修剪作为初始选项,为在 Nexus 上训练的所有新模型和现有模型提供修剪兼容性。该模型使用基于幅度的非结构化修剪进行修剪,并且可以以模型兼容的任何导出格式导出(例如 PyTorch、TensorFlow、ONNX、TFLite、CoreML)。

要体验 Datature Nexus 上的模型修剪功能,你首先需要在 Nexus 上训练一个模型。要了解如何快速开始并训练你的第一个模型,请查看我们的五分钟教程,或探索我们如何使用 Nexus 训练和可视化人脸检测模型。

完成后,导航到 Artifacts 页面,您可以在其中查看已保存的模型检查点。选择要导出的模型检查点后,单击三个点 (...) -> 导出 Artifact。Artifacts 导出和转换卡将显示,并显示所有可用导出格式的列表。

使用 Nexus 上的 Artifacts 页面中的量化和修剪选项生成高级导出

要生成修剪后的模型,请单击你选择的导出格式下的查看高级导出。你可以根据模型压缩和推理准确性之间的权衡要求选择要修剪的权重百分比。修剪过程可能需要长达 5 分钟,具体取决于你的模型架构的大小和所选的修剪百分比。

下载修建后的模型

修剪完成后,单击下载高级导出按钮将你的模型保存到本地文件系统。或者,你可以使用我们的 Python SDK 来转换和下载你的模型。

8、验证修剪后的模型

我们可以在 Netron 上检查修剪率为 90% 的样本修剪 ONNX 模型的卷积层,以验证大多数权重是否已清零。此外,Datature 提供了评估脚本来验证修剪后的模型在特定硬件架构上的性能。

修剪后在 Netron 上可视化模型卷积层中的零权重

9、结束语

模型修剪为用户提供了一种简单方便的方式来压缩他们的模型并提高与边缘设备的兼容性,但这只是进入模型优化领域的一步。

模型修剪通常与模型量化齐头并进,因为众所周知,这两种方法都可以有效减少模型的内存占用并加速推理性能。模型修剪可以在量化权重之前执行,并且这两种内存减少技术的效果都会叠加。换句话说,修剪和量化模型的压缩文件大小将比简单地应用这两种技术中的一种还要小。

表格显示了应用修剪和量化后文件大小的减少


原文链接:神经网络剪枝快速指南 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2075222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

书生.浦江大模型实战训练营——(十)Lagent 自定义你的 Agent 智能体

最近在学习书生.浦江大模型实战训练营,所有课程都免费,以关卡的形式学习,也比较有意思,提供免费的算力实战,真的很不错(无广)!欢迎大家一起学习,打开LLM探索大门&#xf…

【9月持续更新】国内ChatGPT-4中文镜像网站整理~

以前我也是通过官网使用,但是经常被封号,就非常不方便,后来有朋友推荐国内工具,用了一阵之后,发现:稳定方便,用着也挺好的。 最新的 GPT-4o、4o mini,可搭配使用~ 1、 最新模型科普&…

遗传算法整合talib技术分析算子做因子挖掘,比如ADX, 阿隆指标等

“ 原创内容第631篇,专注量化投资、个人成长与财富自由” 七年实现财富自由 七年,经过十万小时刻意练习,足矣在任何领域成为专家。 七年,成为自己的财富管理专家。 七年,实现财富自由。 1512篇原创内容 公众号 星球…

怎样恢复微信聊天记录?4个巧妙方法,速来学习!

微信不仅是我们的通讯工具,更是情感的载体,每一句“早安”与“晚安”都藏着不为人知的温柔。但有时候这些珍贵的聊天记录却会离家出走。怎么恢复微信聊天记录?就成为我们需要解答的难题。 别担心,今天,小编我将化身为…

PostgresSQL--基于Kubernetes部署PostgresSQL

基于docker 拉取镜像,这个镜像是我自己的阿里云镜像,拉取的国外的镜像。 docker pull registry.cn-hangzhou.aliyuncs.com/qiluo-images/postgres:latest创建 dolphinscheduler 命名空间,本文命名空间是使用的dolphinscheduler 使用 kubectl…

基于元神操作系统编写(FPU)数学计算程序

1. 背景 数学计算已经成为计算机的主要工作之一,尤其是实数运算,在人工智能时代更是普遍存在,神经网络中的绝大部分参数都用的实数。 2. 方法 (1)FPU运算 计算机中的实数运算是通过数学协处理器FPU完成的&#xff…

黑神话悟空配置要求:CPU/内存/显卡/存储和系统最低限制

玩《黑神话:悟空》对电脑配置有什么要求?至少需要i5处理器、16G内存、GTX 1060显卡、130G空闲磁盘空间,没有高配电脑怎么办?码笔记整理详细配置如下: CPU处理器:64位处理器,CPU选择Intel Core …

数据防泄密知识集锦丨八个实用数据防泄露软件,你知道吗

数据已成为企业的核心资产。 然而,随着网络威胁的日益严峻,数据泄露事件频发,给企业带来了巨大的经济损失和声誉风险。 为了有效保护企业数据的安全性和保密性,各种数据防泄露软件应运而生。 本文将为您介绍八个实用的数据防泄露…

ROS机器人专用云台相机防抖摄像头

【告别模糊】机器人专用摄像头,为您的视觉算法保驾护航 产品概述 Autolabor C1专为机器人设计的高性能摄像头,即使在没有减震装置或不平坦的路面上,也能提供清晰稳定的图像。它拥有先进的主动式机械防抖和数字ISP防抖技术,图像效…

基于太阳能供电的水情监测站设计(论文+源码+图纸)

1.总体方案设计 根据水情监测站系统的实际应用需求,从硬件电路以及软件程序两个方面展开系统设计。按照系统设计功能以及功能选型的结果,制定了如图2.11所示的系统总体框图。系统采用STM32单片机作为控制器,在传感器检测模块中包括的DS18B20…

netty编程之使用ChannelOutboundHandler对write出去的消息做不同处理

写在前面 源码 。 在进行网络编程的时候,不可避免的需要对write出去的消息做一些处理,比如脱敏,增加统一数据等。而netty提供了ChannelOutboundHandler来允许我们拦截消息从而可以对消息进行处理。对应的接口是io.netty.channel.ChannelHand…

Python:win10下一种不用编译,直接下载二进制依赖的方法

python依赖的安装,在win环境下, 有些包还是比较麻烦, 经常编译失败, 我曾发帖讨论过多次,有帖为证!点此进入! https://blog.csdn.net/weixin_62598385/article/details/135945383 win下的Pyth…

基于vue.js和node.js的酒坊销售网站的设计与实现---附源码98047

目 录 摘要 1 绪论 1.1研究背景与意义 1.3研究内容 1.4论文结构与章节安排 2 酒坊销售网站分析 2.1 可行性分析 2.2系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例…

实战分享:利用两大在线平台实现自动化数据采集的技巧

本文将深入探讨如何运用两大主流在线平台,通过实战案例分享,揭示自动化数据采集的高效技巧。无需编程基础,也能快速掌握跨平台数据抓取秘籍,助力企业和个人提升市场竞争力与决策效率。 正文 在大数据时代背景下,信息…

ESP8266通过WiFiManager实现Web配网

背景 一个项目中使用到了一款压力传感器,需要通过单片机实现数据的采集并发送到远程的服务器上,单片机采用的时ESP8266,通过WiFiManager实现局域网配置,以及远端服务器IP地址和服务端口的配置。发布此文章记录一下使用WiFiManager实现配网的方法。 程序流程图 示例代码 …

如何下载GB2312字体,免费

因为写文章需要用到,然后wps里面这个是收费的,所以我就去找了免费的,现在分享给大家。 因为我看网上很多都是给一个网址,有些网址已经坏了,所以我这里给一下我的链接 链接:https://pan.baidu.com/s/1wiyF…

如何用Java SpringBoot+Vue构建高效的产品订单管理系统

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

python 爬虫,东方网 上海新闻, 简单数据分析

起因: 本来想去市区玩玩,结果搜到一些相关的新闻,所以就想爬取新闻网站… 1. 爬虫部分 import os import csv import time import requests""" # home: https://sh.eastday.com/ # 1. 标题, url, 来源,时间 &qu…

SQL进阶技巧:近距离有效的缺失值填充问题【last_value实现版】

目录 0 场景描述 1 数据准备 2 问题分析 3 小结 0 场景描述 场景:现在有一张商品入库表,包括商品id、商品成本和入库日期3个字段,由于某些原因,导致部分商品的成本缺失(为0或者没有值都是缺失),这样不利于我们计算成本。所以现在要把缺失的商品进价补充完整,补充的…

Redis远程字典服务器(12)—— 使用C++操作Redis

目录 一,环境配置 1.1 介绍 1.2 安装hiredis 1.3 安装redis-plus-plus 1.4 连接服务器 二,使用通用命令 2.0 StringView,和OptionalString类型 2.1 set,get, 2.2 exists,del 2.3 keys 2.4 expi…