深度学习500问——Chapter17：模型压缩及移动端部署（3）

news2026/3/27 17:54:24

文章目录

17.7 压缩和加速方法如何选择

17.8 改变网络结构设计为什么会实现模型压缩、加速

17.8.1 Group convolution

17.8.2 Depthwise separable convolution

17.8.3 输入输出的channel相同时，MAC最小

17.8.4 减少组卷积的数量

17.8.5 减少网络碎片化程度（分支数量）

17.8.7 减少元素级操作

17.7 压缩和加速方法如何选择

（1）对于在线计算内存存储有限的应用场景或设备，可以选择参数共享和参数剪枝方法，特别是二值量化权值和激活、结构化剪枝。其他方法虽然能够有效的压缩模型中的权值参数，但无法减小计算中隐藏的内存大小（特征图）。

（2）如果在应用中用到的紧性模型需要利用预训练模型，那么参数剪枝、参数共享以及低秩分解将成为首要考虑的方法。相反地，若不需要借助预训练模型，则可以考虑紧性滤波设计及知识蒸馏方法。

（3）若需要一次性端对端训练得到压缩与加速后模型，可以利用基于紧性滤波设计的深度神经网络压缩与加速方法。

（4）一般情况下，参数剪枝，特别是非结构化剪枝，能大大压缩模型大小，且不容易丢失分类精度。对于需要稳定的模型分类的应用，非结构化剪枝成为首要选择。

（5）若采用的数据集较小时，可以考虑知识蒸馏方法。对于小样本的数据集，学生网络能够很好地迁移教师模型的知识，提高学生网络的判别性。

（6）主流的5个深度神经网络压缩与加速算法相互之间是正交的，可以结合不同技术进行进一步的压缩与加速。如：韩松等人[30]结合了参数剪枝和参数共享；温伟等人[64]以及AIvarez等人[85]结合了参数剪枝和低秩分解。此外对于特定的应用场景，如目标检测，可以对卷积层和全连接层使用不同的压缩与加速技术分别处理。

参考《深度神经网络压缩与加速综述》

17.8 改变网络结构设计为什么会实现模型压缩、加速

17.8.1 Group convolution

Group convolution最早出现在ALexNet中，是为了解决单卡显存不够，将网络部属到多卡上进行训练而提出。Group convolution可以减少单个卷积 1/g 的参数量。如何计算的呢？

假设：

输入特征的维度为 $HWC_1$ ；
卷积核的维度为 $H_1W_1C_1$ ，共 $C_2$ ；
输出特征的维度为 $H_1W_1C_2$ 。

传统卷积计算方式如下：

传统卷积运算量为：

$A = H*W * h1 * w1 * c1 * c2$

Group convolution是将输入特征对维度c1分为g份，每个group对应的channel数为 c1/g，特征维度 H*W*c1/g，每个group对应对卷积核对维度也相应发生改变为 h1*w1*c1/g，共 c2/g个；每个group相互独立运算，最后将结果叠加在一起。

Group convolution计算方式如下：

Group convolution运算量为：

$B = H * W * h1 * w1 * c1/g * c2/g * g$

Group卷积相对于传统卷积的运算量为：

$\dfrac{B}{A} = \dfrac{ H * W * h1 * w1 * c1/g * c2/g * g}{H * W * h1 * w1 * c1 * c2} = \dfrac{1}{g}$

由此可知：group卷积相对于传统卷积减少了 1/g 的参数量。

17.8.2 Depthwise separable convolution

Depthwise separable convolution 是由 depthwise conv 和 pointwise conv构成。

depthwise conv（DW）有效减少参数数量并提升运算速度。但是由于每个feature map 只被一个卷积核卷积，因此经过DW输出的feature map不能只包含输入特征图的全部信息，而且特征之间的信息不能进行交流，导致“信息流通不畅”。

pointwise conv（PW）实现通道特征信息交流，解决DW卷积导致“信息流通不畅”的问题。假设输入特征的维度为 H*W*c1；卷积核的维度为 h1*w1*c1，共c2个；输出特征的维度为 H1*W1*c2。

传统卷积计算方式如下：

传统卷积运算量为：

$A = H * W * h1 * w1 * c1 * c2$

DW卷积的计算方式如下：

DW卷积运算量为：

$B_{DW} = H * W * h1 * w1 * 1 * c1$

PW卷积的计算方式如下：

PW卷积运算量为：

$B_{PW} = H_m * W_m * 1 * 1 * c_1 * c_2$

Depthwise separable convolution运算量为：

$B = B_{DW} + B_{PW}$

Depthwise separable convolution相对于传统卷积的运算量为：

$\dfrac{B}{A} = \dfrac{ H * W * h_1 * w_1 * 1 * c_1 + H_m * W_m * 1 * 1 * c_1 * c_2}{H * W * h1 * w1 * c_1 * c_2}\\= \dfrac{1}{c_2} + \dfrac{1}{h_1 * w_1}$