0. 资源链接
-
论文: APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference.
-
项目: https://github.com/ROIM1998/APT
1.背景动机
现有的大模型压缩加速存在以下问题:
-
PEFT: 可以低成本为下游任务微调,但是整个模型的推理效率无法提升。
-
Pruning:可以提升推理效率,但是训练成本较高。
-
Joint PEFT and Pruning:综合两者的优势,以较低成本训练和提高推理效率。
目前 Joint PEFT and Pruning 仍存在精度损失较大的问题,本文提出 APT 来改善这个问题。
2.内容提要
-
本文提出了一个高效的APT微调方法,能自适应地剪枝和微调。
-
APT 结合了 PEFT 和结构化剪枝的优势,能让训练和测试更加高效。
-
APT 在 RoBerTa 和 T5 能获得 2x 加速,精度能有 98% 的保持。
3. 技术细节
-
APT 方法基于 LoRA 模块设计 APT adapter, 旨在为后续的自适应剪枝和微调服务。
-
APT 在微调的早期,进行剪枝去掉和微调任务的影响较小的模块
3.1 架构
-
APT 方法基于 LoRA 模块设计 APT adapter, 旨在为后续的自适应剪枝和微调服务。
-
APT 在微调的早期,进行剪枝去掉和微调任务的影响较小的模块。
3.2 方法细节
-
定义优化问题:
-
APT adapter:
-
Low-cost Adaptive LM Pruning: Outlier-aware salience scoring of LM parameters 和 Efficient search of LM block parameters.
-
Adaptive and Efficient LM Tuning: Salience scoring of APT adapter 和 Dynamically adding APT adapter parameters to recover task performance.
-
Efficient Self-Knowledge Distillation
3.3 实验分析
-
APT 的剪枝效果要明显高于其他 LoRA + Prune 和 LoRA + Prune + Distill.
4.一些思考
-
APT结合 PEFT 和结构化剪枝的优势,取得 SOTA 的精度。
-
APT 结合很多高效的 trick,未来的优化工作,还可以优化结构化剪枝。