两行代码自动压缩ViT模型!模型体积减小3.9倍,推理加速7.1倍

news2025/1/16 3:46:25

cbb3f142f4ff04ffebbf85112a1a2b21.gif

Transformer模型及其变体,因其更优的注意力机制能力和长时依赖等特性,已成为自然语言处理 (NLP)、语音识别 (ASR)、计算机视觉 (CV)等领域的主流序列建模结构。根据PaperWithCode网站ObjectDetectiononCOCOtest-dev专栏数据,检测任务中Transformer类模型精度早已超越卷积类模型。然而,Transformer模型的体积和速度相比卷积网络却存在很大的劣势,限制了其在产业上的应用。

本文以ViT这一典型的Transformer模型为例,为大家介绍使用低成本高收益的AI模型自动压缩工具(ACT, Auto Compression Toolkit)。ACT无需修改训练源代码,调用两行压缩API,通过几十分钟量化训练,保证模型精度的同时,极大的减小模型体积,降低显存占用,提升模型推理速度,助力AI模型的快速落地。使用ACT工具压缩ViT模型,通过几十分钟量化训练,模型体积即可减小3.93倍。在GPU上,INT8推理速度相比FP32推理速度提升7.1倍

e059b02aedf6cc0ec4add66c784e0671.png

注:ViT模型和分割任务模型测速batch_size=40,其他模型测速batch_size=1

本文将从以下五个方面进行讲解,全文大约3600字,预计阅读时长5分钟。

  • ViT模型分析

  • ViT压缩策略介绍

  • ViT自动化压缩

  • ViT推理优化

  • 未来工作展望

ViT模型分析

本节首先对ViT模型结构进行简单介绍,然后对各个模块的计算量进行分析,以确定压缩的重点。

ViT模型结构分析

ViT使用标准Transformer结构替代传统的卷积操作,将图像拆分为多patch后再输入Transformer中。对于一张3x224x224大小的输出图片,首先会被分成14x14个patch,每个patch的大小为3x16x16,每个patch都使用一个768x3x16x16的卷积核进行特征提取,生成1x1x768的特征图,整个图片经过卷积之后得到的特征大小为1x14x14x768,再对特征进行维度展开,得到1x196x768的特征。借鉴NLP场景,在每个图片的特征前引入一个CLS字段的特征,来帮助模型进行分类。最终得到完整的特征是1x197x768维度,197对应的是NLP场景中的每个句子的token数量,768对应的是NLP场景中每个token的维度。接下来这些特征就可以直接输入到后续堆叠的Transformer Encoder结构中。如下图所示:

02677811535b5181e447ed78581eb92e.png

注:图片来自ViT论文[5]

Transformer Encoder结构是由一个MultiHead Self-Attention(简称MSA)和一个MLP组成。MSA中包含六个矩阵乘计算,其中四个全连接层对MSA不同部分的特征进行特征映射或特征融合,两个Batch GEMM和一个softmax算子表示特征的自注意力机制。MLP是由一个GeLU非线性层和两个全连接线性层组成。整个Transformer Encoder结构如下图所示:

a55688aa58eb0ee1b7f2c8696aa55d9c.png

计算量分析

再来分析下Transformer Encoder每一个模块对应的计算量,方便后续对各个模块进行压缩。从上图可以看出在整个Transformer Encoder中,在整个模型中,大部分计算量在于矩阵乘计算,所以接下来着重分析每个模块的矩阵乘计算量。

  • MSA计算公式如下:

895fc0413143ef6b5fce4810264d90e0.png

42adab62732fdeacdf42092befec0156.png

其中,表示Uqkv三个矩阵乘的参数,D代表每个patch映射到的特征维度,qkT对应上图中Batch GEMM1,N表示图片有多少个patch,Av对应上图中的Batch Gemm2,MSA(z)计算公式对应的是上图中的Proj Gemm,k表示head数量。

  • MLP计算公式如下:

a6465fc3286382815c8afe9169b1dd31.png

MLP在计算过程中对特征维度进行了扩展,利用U1和U2两个参数特征扩展,所以MLP中每个矩阵乘的计算量是MSA中每个矩阵乘的计算量的4倍。

每个矩阵乘在整个Transformer Encoder矩阵乘计算量占比如下图所示:

bd1805fa5e7f7776afc6d2344a587aca.png

注:QKV GEMM、FC1 GEMM以及FC2 GEMM的矩阵乘计算量占比总和达到89%,所以后续重点介绍如何压缩这些矩阵乘。

ViT压缩策略解析

模型压缩中最常用的技术包括量化、剪枝、知识蒸馏和神经网络搜索。压缩ViT模型主要用到量化、剪枝和知识蒸馏,自动压缩技术主要使用这三种方法来对ViT模型进行整体压缩,在保证压缩模型精度的前提下,减小模型体积并带来实际的推理加速。

本章节简单的介绍这三个方法的原理,主要介绍如何把这些方法应用在ViT模型上,对技术原理感兴趣的同学可以查看之前的文章(见文末文章链接)。

量化

量化本质上就是用低比特数值存储计算代替高精度数值存储和计算,来达到节省显存和加速计算的目的。在本案例中,量化主要针对最开始的卷积、MSA中QKV三个矩阵乘、Proj矩阵乘和MLP中的两个矩阵乘。量化包括离线量化量化训练两种方式。

  • 方式一:离线量化

离线量化只需要一些校准数据,收集模型中间的激活值,用一些离线量化策略来处理收集到的激活值,得到量化映射参数。然而,对一些模型进行离线量化会造成一定的精度损失,因此,有一些研究专门针对ViT这种特殊结构的模型进行离线量化算法改进,例如利用attention map重要性机制来构造量化损失[1],或者利用log量化[2]等方式来对ViT模型进行量化,可以提升量化后模型的精度或者把模型量化到更低比特。

  • 方式二:量化训练

量化训练需要构建量化模型,使用训练数据微调模型,得到训练后的量化模型,这种方式相比离线量化通常会有更优的精度。有一些研究针对ViT结构来做量化训练,例如根据MSA的特性把量化参数和量化比特数都作为可学习的参数参与整体量化模型训练[6],把ViT模型量化到更合适的比特数。

剪枝

剪枝是指减掉模型的参数维度,直接减少了计算量,达到降低显存和加速的目的。剪枝包括非结构化剪枝、半结构化剪枝和结构化剪枝。其中,非结构化剪枝和半结构化剪枝需要推理库的特殊支持,例如针对1x1卷积的非结构化剪枝,PaddleSlim联合Paddle Lite对其进行了特殊优化,在精度无损的情况下带来实际的加速。英伟达针对安培架构ASP稀疏也实现了特殊的推理。因此,对于非结构化剪枝和半结构化剪枝如果没有推理优化,很难有实际的加速。

为了保证压缩后的模型在任一硬件和任一推理库上都有实际的推理加速,建议选择结构化剪枝,减掉的参数量就是实际减少的计算量,无需推理库特殊的支持。

和量化类似,我们选择对ViT中计算量大的矩阵乘进行剪枝,可选的剪枝策略也比较多,这里主要介绍结构化剪枝,例如对ViT模型构造剪枝空间[3],对剪枝空间中可调整的部分进行重要性排序,迭代式的进行结构化剪枝,得到最终的剪枝模型。

蒸馏

蒸馏主要是把精度较高、复杂度较高的模型的信息传递给精度较低、复杂度较低的模型,从而提升小模型的精度。相比大模型,蒸馏后的模型在保证模型精度的前提下降低了模型的复杂度。

最早针对ViT进行蒸馏的DeIT[4]在学生模型中,通过在刚开始引入一个可学习的蒸馏标识符来学习教师模型的输出,用蒸馏标识符和ViT模型本身引入的分类标识符同时来优化学生模型,达到蒸馏的目的。

ViT模型

自动压缩流程

上一章介绍了ViT模型进行压缩时主要用到的策略,本章节介绍如何使用ACT工具通过配置文件配置压缩策略,实现ViT模型的自动压缩。

准备待压缩模型

准备待压缩的部署模型。可以从PaddleClas套件模型库、自动压缩repo中获得待压缩的ViT模型,也可以自己训练好ViT模型。

准备数据读取模块

在对ViT模型进行自动化压缩的过程中,我们可以直接复用飞桨图像分类套件PaddleClas中相应的数据读取模块。

from ppcls.data import build_dataloader
data_config = config.get_config(global_config['reader_config'], show=False)
train_loader = build_dataloader(data_config["DataLoader"], "Train", device)

定义策略配置文件

策略自动组合

自动化压缩工具提供的压缩策略有很多,可以在配置文件中指定。自动压缩工具会对这些配置进行自动组合,得到最终的组合压缩策略。以下内容会介绍如何在配置文件中指定压缩策略。

  • 策略组合一:量化蒸馏训练配置

本节使用ACT中的量化训练和蒸馏训练对ViT进行量化,量化位置主要为卷积层、MSA中的全连接层和MLP中的全连接层,减少模型显存的同时加速矩阵乘的计算速度。

在进行量化训练或者剪枝训练的时候需要有损失优化信息来反向传播优化模型参数,而ACT主要压缩的推理模型是不包含原始的损失优化信息,所以ACT中选择使用蒸馏来监督压缩后模型进行优化训练,用压缩前模型的隐藏层特征来监督压缩后模型的隐藏层特征,从而实现模型的训练。

ACT量化配置如下:

1Distillation:                #蒸馏
2node: softmax_12.tmp_0
3
4QuantAware:                  #量化
5use_pact: true
6onnx_format: true
7quantize_op_types: [conv2d, matmul_v2]

*参数含义如下:

Distillation表示使用蒸馏;node参数表示使用的蒸馏结点,这里选择的ViT网络结构最后输出的softmax输出结点作为蒸馏节点;QuantAware表示使用量化训练的压缩策略,量化op选择conv2d和matmul_v2即可表示量化整个ViT模型中的卷积和全连接层;use_pact为是否使用PACT量化;onnx_format 量化后的模型如果想转为ONNX格式,需要设置onnx_format为true。

  • 策略组合二:策略剪枝蒸馏训练

ACT提供了Transformer通道数剪枝,主要是对MSA中的head数量、全连接层和MLP中的全连接层进行参数裁剪。剪枝逻辑为在剪枝前对模型进行head重要性排序和参数重要性排序,然后根据传入的剪枝比例对相应位置进行裁剪,得到剪枝后的模型。同样的,剪枝训练也需要结合蒸馏使用。ViT模型主体结构是Transformer,所以也可以使用ACT提供的Transformer通道数剪枝方案进行剪枝(目前还在适配中,可能您读到这篇推文或者看到直播的时候已经可以使用啦)。可以先看下应该如何设置对应的ACT剪枝配置:

1Distillation:
2node: softmax_12.tmp_0
3TransformerPrune:
4pruned_ratio: 0.25

*参数含义如下:

Distillation表示使用蒸馏;node参数表示使用的蒸馏结点;TransformerPrune表示使用Transformer剪枝策略进行剪枝;pruned_ratio为剪枝比例,本方案设为25%,您的可以根据需要自行设置;剪枝和量化压缩是两种交互使用的压缩策略,最优的方式是串行使用这两种压缩策略,当然也可以单独使用。

策略自动选择

针对ViT模型,如果没有指定具体的压缩策略(即配置文件中没有指定策略),在剪枝已经支持的情况下会先对模型进行结构化剪枝,再对剪枝后的模型进行量化,从而得到最终优化后的模型。在剪枝没有支持的情况下会自动选择量化的策略进行模型压缩。

  • 完整ViT自动压缩量化压缩配置文件链接:

https://github.com/PaddlePaddle/PaddleSlim/blob/develop/example/auto_compression/image_classification/configs/VIT/qat_dis.yaml

两行核心自动压缩代码

启动ACT时,需要传入模型文件的路径(model_dir)、模型文件名(model_filename)、参数文件名称(params_filename)、压缩后模型存储路径(save_dir)、压缩配置文件(config)、dataloader和评估精度的eval_callback参数。

1ac=AutoCompression(model_dir=global_config['model_dir'],
2                   model_filename=global_config['model_filename'],
3                   params_filename=global_config['params_filename'],
4                   save_dir=args.save_dir,
5                   config=all_config,
6                   train_dataloader=train_dataloader,
7                   eval_callback=eval_function if rank_id==0 else None,
8                   eval_dataloader=eval_dataloader)
9ac.compress()

ViT推理优化

服务器推理引擎Paddle Inference团队对ViT模型的推理进行了一些特殊优化,来进一步提升压缩后模型的推理速度。主要包括以下四种:

  • 算子融合

对于一些常用算子进行算子融合,减少整个模型算子的个数,加快模型的推理。算子融合规则如下图所示:

e9e4d093283892ca14ab8b5e737c3eea.png

  • 灵活使用TensorRT推理库

在输入图像较小的情况下,attention部分的计算可以利用TensorRT高性能推理库,采用预置策略,在保证性能的同时兼容易用性。

  • 基于硬件特性调优

在输入图像较大的情况下,attention部分的计算需要进行一些其他优化,由于大部分硬件是对8的倍数的矩阵乘有着更优的计算性能,所以在模型计算过程中会把attention部分的计算逻辑padding到8的倍数来进一步提升矩阵乘的性能,引入的padding算子也和transpose算子进行了算子融合,在保证性能的前提下增加attention部分的灵活性。

  • 实现高效计算算子

另外也根据显卡特性比如向量化,开发更加高效的计算kernel来加速整个ViT模型的推理。

为了更好地介绍飞桨自动化压缩技术在ViT模型的应用,解答近半年自动压缩社区开发者使用中遇到的高频问题,我们准备了本次直播课,快快扫码加群关注我们的直播间吧!

直播时间:2022.12.13(周二)20:30-21:30。

8c89ee583bb57ae8208a01a0d0ffa1cc.jpeg

⭐Star收藏

欢迎大家点star鼓励并前来体验

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

未来工作展望

  • 飞桨自动化压缩工具ACT将支持更多AI模型的压缩,扩展支持的模型数量和应用场景。

  • 将ACT的各种能力(包括模型剪枝、非结构化稀疏等压缩方法)在不同类型模型上进行验证。

  • 升级ACT能力,增加更多前沿的压缩算法。

  • 支持完善更多部署方法,包括ONNX Runtime、OpenVINO等,进一步助力AI模型工程落地。

往期自动压缩专题

  • 无需训练代码,推理性能提升1.4~7.1倍,业界首个自动模型压缩工具开源!

  • 模型自动压缩工具实战:YOLOv7模型缩小75%,部署加速163%!

  • YOLOv7部署加速比5.89,BERT部署加速比6.37,自动化压缩工具实战30+热门AI模型

项目地址

  • GitHub

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

  • Gitee

https://gitee.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

参考文献

[1] Post-Training Quantization for Vision Transformer

[2] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

[3] NViT: Vision Transformer Compression and Parameter Redistribution

[4] Training data-efficient image transformers & distillation through attention

[5] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

[6] Q-ViT: Fully Differentiable Quantization for Vision Transformer

35baae0dd03b6902765f9edc8eb8266e.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/74388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式:ARM处理器的工作状态

文章目录Thumb技术介绍Thumb的技术概述Thumb的技术实现Thumb技术的特点ARM处理器工作状态Thumb2技术介绍评价Thumb技术介绍 ARM的RISC体系结构的发展中已经提供了低功耗、小体积、高性能的方案。而为了解决代码长度的问题,ARM体系结构又增加了T变种&…

微信小程序实现圆形菜单弹出选中动画

vector-effect是SVG中十分冷门的属性,相信大多数小伙伴都没有了解过,说句实话,在这次重学SVG之前,这个属性我连听都没听说过。 不过,冷门不重要,重要的是管用,尤其是以后在面对相应场景下&…

RISC-V SIG 推出基于openEuler 的下游发行版 Eulaceura

近日,openEuler RISC-V SIG 推出了一款基于 openEuler 的发行版-Eulaceura。这是首个基于 openEuler 开发的 RISC-V 架构的发行版,给 RISC-V 的开发者开箱即用的 RISC-V 系统环境,方便开发者进行各种创新项目的开发与验证。Eulaceura 目前提供…

【数据结构】队列的实现

目录队列的概念队列的结构声明队列的初始化数据入队判断队列是否为空队列出数据获取队头获取队尾获取队列长度摧毁队列队列的概念 只允许从一端插入数据,另一端出数据。 队头:出数据的一端叫队头。 队尾:入数据的一端叫队尾。 通俗地说,就是把栈的数据结…

用技术记录世界杯2022

用技术记录世界杯【2022】 文章目录用技术记录世界杯【2022】前言1 项目介绍2 实验复现2.1 关于项目2.2 数据准备2.3 特征工程3 我的感受前言 Hi,我是Ding Jiaxiong,好久不见(bushi,早上才更新了博客), 今天是2022 年12月 8日 2…

未部署ssl证书,您的账号、密码或被窃取!

浏览网页查找信息时,您有没有注意到有些网站的网址是以https://开头的,有些网址是http://开头?有时还会显示一个突出的警告页面,表明网站是“不安全的”可能会窃取您的账号、密码,骗取财产等。 …

Mybatis-Plus的@Version注解:使用updateBatchById方法引发的问题

正常情况下,我们想要的是,当乐观锁不对的时候要一个反馈,例如:版本号不一致,请刷新页面重新获取数据。 在没有Version注解的时候,一般我们会进行显示校验。例如下图: updateById方法使用演示 …

数商云SRM供应商系统售后模块解析 | 助力汽修企业打造高效SRM服务管理体系

随着我国汽车保有量的持续增长,汽车维修行业不断地向社会化方向发展,汽修行业从产品型的行业转变为服务型行业,成为一个社会化的、人才专业型、技术密集型的和相对独立的行业,发展势头迅猛,据统计,我国的汽…

跨主机访问——docker

当你有若干个容器之后,你可能就希望实现容器的跨机部署访问了,比如aspnetcore在一台host上,mysql在另外一个host上,如果要实现这样的功能,需要你 借助docker自带的overlay网络模型了。 一: overlay网络模型 要想快速的搭建overlay网络,你可以通过docker默认的swarm集群…

代码随想录Day45|70.爬楼梯(进阶)、322.零钱兑换、279.完全平方数

文章目录70.爬楼梯(进阶)322.零钱兑换279.完全平方数70.爬楼梯(进阶) 文章讲解:代码随想录 (programmercarl.com) 题目链接:programmercarl 题目: 假设你正在爬楼梯。需要 n 阶你才能到达楼…

【C#基础学习】第十六章、枚举

目录 枚举 1.枚举的补充 1.1底层类型 1.2 设置显式值 1.3 枚举成员赋值顺序 2.位标志 2.1 Flags特性 枚举 枚举的定义: 枚举是由程序员自定义的值类型。它只有一种类型成员:命名的整数值常量。枚举成员都有一个底层类型的常量值。第一个枚举成员的…

【场景削减】拉丁超立方抽样方法场景削减(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Linux搭建RabbitMQ集群环境

文章目录环境说明Erlang安装下载安装包安装验证RabbitMQ安装下载安装包安装启动RabbitMQ设置开机自动启动安装管理界面创建用户登录管理界面集群配置前提条件构建erlang集群高可用镜像集群配置环境说明 操作系统:CentOS7Erlang版本:21.3RabbitMQ版本&am…

信而泰耦合测试-网络测试仪实操

一、耦合测试原理 1.产生背景​ 常用测试无线设备过程中,将无线设备置于屏蔽箱中,通过无线网卡连接并运行iperf等类似软件的方式检测所述无线设备的吞吐量。 相关技术中将所述无线设备置于所述屏蔽箱中的检测方法,由于所述屏蔽箱存在信号反…

【C语言】字符串函数(二)

目录 一、strncpy函数(字符串拷贝) 1、strncpy函数的用途 2、strncpy函数的使用 二、strncat函数(字符串追加) 1、strncat函数的用途 2、strncat函数的使用 三、strncmp函数(两个字符串比较) 1、strncmp函数的用途 2、strncmp函数的使用 四、strstr函数(查找字符串) 1、strstr函…

2022年底总结(被阿里捞的第1、2、3...次)

前言 自从去年因为个人原因没有去阿里淘系,后面有几次阿里同学问我有没有意向去阿里上班。其实我内心是很激动的,在人才库能被捞也是别人的认可,这个是值得骄傲的,然后需要继续保持自己专研技术的精神以及不断进步的意识。 当然博…

ChatGPT 大智近妖,从宇宙人生到手搓光刻机,从哄女友到写年终总结我们聊得非常开心,反而让人越来越忧心

文章目录宇宙人生问:你觉得人生的意义是什么?问:你觉得思维意识到底是什么问:我之前的两个问题大概有多少人问过你?问:宇宙的边界在哪里?手搓狠活怎么实现量子计算怎么制造一个光刻机怎么制作核…

多谐振荡器

三个非门首尾相接形成环,在理想情况下,无法形成振荡 门一定是存在传输延迟时间的,所以当高电平变成低电平的时候,必然会经过传输延迟时间 所以当反过来发生翻转的时候,经过了三倍的状态延迟时间 震荡的周期是六个传输…

基于SARIMA、XGBoost和CNN-LSTM的时间序列预测对比

利用统计测试和机器学习分析和预测太阳能发电的性能测试和对比 本文将讨论通过使用假设测试、特征工程、时间序列建模方法等从数据集中获得有形价值的技术。我还将解决不同时间序列模型的数据泄漏和数据准备等问题,并且对常见的三种时间序列预测进行对比测试。 介…

RNSScreenStackHeaderConfig“ was not found in the UIManager.解决办法!!亲测有效

Invariant Violation: requireNativeComponent: "RNSScreenStackHeaderConfig" was not found in the UIManager. 原因:RN项目中,开发服务器端已经使用npm i下载了某个模块,但是只有服务器端有,该模块并没有打包安装到手…