模型优化之剪枝

news2025/7/14 12:02:35

文章目录

什么是神经网络剪枝
剪枝的好处
不同粒度的剪枝
剪枝的分类
- 非结构化剪枝
- 结构化剪枝
哪些层的参数更容易被剪掉
剪枝效果

什么是神经网络剪枝

神经网络剪枝

在训练期间删除连接
密集张量将变得稀疏（用零填充）
可以通过结构化块（ $nm$ ）或（ $11$ ）删除连接

在这里插入图片描述

剪枝的好处

减少过拟合
稀疏性优势
文件中有大量的0，如果有适当的稀疏张量表示方法，模型二进制文件尺寸减小。
模型更小，可以减少内存带宽消耗量。
对于特定模式的稀疏模型，可以开发优化算子，实现加速推理。

不同粒度的剪枝

在这里插入图片描述
什么时候做剪枝？

one-shot pruning : 一次性修剪，包括三个步骤训练模型、剪枝、再训练
剪枝：通常根据某种标准（如权重的大小、梯度的大小等）一次性去除大量权重。
再训练：剪枝后，模型通常需要进行一定数量的额外训练（称为fine-tuning或再训练）来恢复剪枝过程中可能损失的性能。

iterative pruning: 迭代式训练，特点如下：
初始训练：首先，对未剪枝的完整模型进行训练，直到达到满意的性能水平。
剪枝：然后，根据某种剪枝策略（例如基于权重的大小或敏感度）剪除模型的部分组件（如权重、神经元或通道）。
再训练：剪枝后，重新训练模型以恢复因剪枝而丢失的性能。
迭代：重复剪枝和再训练的过程，直到达到所需的剪枝率或性能标准。

automated gradual pruning: 自动化渐进剪枝，特点如下：
剪枝策略：采用一种预定义的剪枝策略，例如基于权重阈值、敏感度分析等，该策略在整个剪枝过程中保持一致。
渐进剪枝：在整个训练过程中逐渐增加剪枝率，通常从较低的剪枝率开始，逐步增加到目标剪枝率。
无需再训练：在整个剪枝过程中，模型持续被训练，而不是在剪枝后重新训练。
自动化：整个过程高度自动化，可以减少人为干预的需求

在这里插入图片描述

剪枝的分类

结构化剪枝（Structured Pruning）和非结构化剪枝（Unstructured Pruning）是两种常见的神经网络剪枝方法，它们的主要区别在于剪枝后网络结构的变化以及剪枝操作的粒度。

非结构化剪枝

不改变网络结构或者参数数量，把连接上的参数置0即为剪枝。
基于某种度量（如权重的绝对值大小）对所有权重进行排序，然后根据预先设定的剪枝比例（例如去除50%的最小权重）来决定哪些权重被设置为零。这种剪枝方法不会考虑权重在模型中的位置或结构，只关注权重本身的价值。示例代码：

# 导入剪枝函数
prune_low_magnitude = tfmot.sparsity.keras.prune_low_magnitude

# 计算两轮之后完成剪枝时对应的迭代次数end_step
batch_size = 128
epochs = 2
validation_split = 0.1  # 10% of training set will be used for validation set.

num_images = train_images.shape[0] * (1 - validation_split)
end_step = np.ceil(num_images / batch_size).astype(np.int32) * epochs

# 定义剪枝模型参数，开始模型从50%稀疏度（权重为0的参数数量百分比），到80%稀疏度
pruning_params = {
    'pruning_schedule': tfmot.sparsity.keras.PolynomialDecay(initial_sparsity=0.50,
                                                             final_sparsity=0.80,
                                                             begin_step=0,
                                                             end_step=end_step)
}

model_for_pruning = prune_low_magnitude(model, **pruning_params)

# 当使用函数`prune_low_magnitude`包装了一下模型后，需要重新编译一下
model_for_pruning.compile(optimizer='adam',
                          loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
                          metrics=['accuracy'])

model_for_pruning.summary()

logdir = "./logs/mnist_pruning"

callbacks = [
    tfmot.sparsity.keras.UpdatePruningStep(),
    tfmot.sparsity.keras.PruningSummaries(log_dir=logdir),
]

model_for_pruning.fit(train_images, train_labels,
                      batch_size=batch_size, epochs=epochs, validation_split=validation_split,
                      callbacks=callbacks)
# --------------------------------------------------
# 评估模型，对比剪枝前后模型的准确率变化
# 经过剪枝，这里有一个小的准确率下降，和没有进行剪枝相比的话
# --------------------------------------------------

_, model_for_pruning_accuracy = model_for_pruning.evaluate(
    test_images, test_labels, verbose=0)

print('Baseline test accuracy:', baseline_model_accuracy)
print('Pruned test accuracy:', model_for_pruning_accuracy)

结构化剪枝

结构化剪枝改变了网络结构，即网络层输出元素个数，比如卷积核的减少会影响特征图数量。
在下面的例子中是基于选择的模型层做剪枝，所以需要指出哪些层去做结构化剪枝。比如剪枝第二个卷积层和第一个全连接层，剪枝策略为pruning_params_2_by_4，表示该层剪枝比例为2 / 4，即该层保留一半（2/4）的权重，而将另一半设为零。
注意：第一个卷积层不能被结构化剪枝。要是结构化剪枝的话，应该至少大于一个input channels（本例所用图片为单通道灰度图），所以我们对第一个卷积层使用随机剪枝。

model = keras.Sequential([
    prune_low_magnitude(
        keras.layers.Conv2D(
            32, 5, padding='same', activation='relu',
            input_shape=(28, 28, 1),
            name="pruning_sparsity_0_5"),
        **pruning_params_sparsity_0_5),
    keras.layers.MaxPooling2D((2, 2), (2, 2), padding='same'),
    prune_low_magnitude(
        keras.layers.Conv2D(
            64, 5, padding='same',
            name="structural_pruning"),
        **pruning_params_2_by_4),
    keras.layers.BatchNormalization(),
    keras.layers.ReLU(),
    keras.layers.MaxPooling2D((2, 2), (2, 2), padding='same'),
    keras.layers.Flatten(),
    prune_low_magnitude(
        keras.layers.Dense(
            1024, activation='relu',
            name="structural_pruning_dense"),
        **pruning_params_2_by_4),
    keras.layers.Dropout(0.4),
    keras.layers.Dense(10)
])