RepVGG论文阅读笔记

news2025/1/16 1:34:48

目录

  • RepVGG: Making VGG-style ConvNets Great Again
    • 摘要
    • INTRODUCTION—简介
    • RepVGG Block
      • Model Re-parameterization -- 模型重参数化
      • 融合Conv2d和BN,将三个分支上的卷积算子和BN算子都转化为卷积算子(包括卷积核和偏置)
      • 多分支融合(将三个stride、padding都一致的3 × 3 卷积层融合成一个3 × 3 卷积层)
    • Architectural Specification -- 结构配置
    • 总结

RepVGG: Making VGG-style ConvNets Great Again

论文链接:RepVGG: Making VGG-style ConvNets Great Again(CVPR2021)

摘要

(1)提出了一种简单但功能强大的卷积神经网络架构,它具有类似 VGG 的推理时间主体,仅由 3x3 卷积和 ReLU 的堆栈组成,而训练时间模型具有多分支拓扑。

(2)这种训练时间和推理时间架构的解耦是通过结构重新参数化技术实现的,因此该模型被命名为 RepVGG。

INTRODUCTION—简介

image-20240623123417268

上图横坐标是推理速度,也可以简单地理解为FPS,越大越好。左侧是训练了120epochs的,右边是训练了200个epochs的。

下图中,图(B)是训练时的结构,采用的网络是多分支的,而在推理图©所示的单路的网络结构,而从图(B)转换到图©就是结构重参数化的过程。

结构重参数化:分支的参数进行重参数化,合为一个分支来进行的。

效果:推理的速度要比多分支网络快很多,并且精度也比单分支的网络更高。

image-20240623123719064

RepVGG Block

整个RepVGG网络结构很简单,就是不断地堆叠RepVGG Block。

下图中,左图为stride=2进行下采样时的RepVGG Block结构,右图为stride=1时的RepVGG Block结构(和上图(B)中结构一致)。

在不进行下采样时,RepVGG Block有三个分支,分别是卷积核为3 x 3的主分支、卷积核为1x1的shortcut分支和只含BN层的shortcut分支,然后将它们的输出进行Add操作。

image-20240623124316366

为什么训练时要设置多分支的网络结构?

像GoogleNet、ResNet、DenseNet都采用了多分支结构,并且对应的结果也表明采用多分支结构可以增强模型的表征能力。

下表的原作者做的一个消融实验表示出不管加入哪个分支都能提点,同时添加提点效果最好。

image-20240623124814108

为什么在推理时要把多分支模型转换成单路模型?且为什么单分支结构会比多分支结构速度快了将近一倍?

  • 更快:主要是考虑到模型在推理时硬件计算的并行程度以及MAC(memory access cost)。

    • 并行度(主要指的是计算设备的利用率):对于多分支模型,硬件需要分别计算每个分支的结果,有的分支计算的快,有的分支计算的慢,而计算快的分支计算完后只能干等着,等其他分支都计算完后才能做进一步融合,这样会导致硬件算力不能充分利用,或者说并行度不够高。
    • MAC:每个分支都需要去访问一次内存(获取特征图),计算完后还需要将计算结果存入内存(不断地访问和写入内存会在IO上浪费很多时间)。
    • 从算子的角度理解:在进行3 x 3卷积,1 x 1卷积、恒等映射和Add操作的时候都需要启动kernel,在GPU运算中每次启动kernel都需要时间,在模型中启动kernel的次数越多,消耗的时间也就越多。
  • 更省内存:在图3当中,作者举了个例子,如图(A)所示的Residual模块,假设卷积层不改变channel的数量,那么在主分支和shortcut分支上都要保存各自的特征图或者称Activation,那么在add操作前占用的内存大概是输入Activation的两倍,而图(B)的Plain结构占用内存始终不变。

  • 更灵活:对于多分支的模型,由于结构复杂,剪枝很麻烦,非常受限,而对于Plain结构的模型就相对灵活很多,剪枝也更加方便。

  • 除此之外,在多分支转化成单路模型后很多算子进行了融合(比如Conv2d和BN融合),使得计算量变小了,而且算子减少后启动kernel的次数也减少了(比如在GPU中,每次执行一个算子就要启动一次kernel,启动kernel也需要消耗时间)。而且现在的硬件一般对3x3的卷积操作做了大量的优化,转成单路模型后采用的都是3x3卷积,这样也能进一步加速推理。

image-20240623125813545

Model Re-parameterization – 模型重参数化

流程:

  1. 将三个分支中的卷积算子和BN算子都融合为卷积算子(一个卷积核加一个偏置的形式);
  2. 将三个分支上的卷积算子都化为3 x 3卷积核和偏置的形式,相加得到最终的主分支上的结果。

image-20240623131127049

image-20240623131139587

融合Conv2d和BN,将三个分支上的卷积算子和BN算子都转化为卷积算子(包括卷积核和偏置)

image-20240623134041657

首先是BN层的计算公式:主要包含4个参数:μ(均值)、σ2(方差)、γ和β,其中μ和σ2是训练过程中统计得到的,γ和β是训练学习得到的,ϵ是一个非常小的常量,防止分母为零。

image-20240623131932181

下面这条是BN的等价转换公式,左项表示通过BN层之后,第i个通道的数据;**右项括号内的被减数M表示输入到BN层的特征图中,对应第i个通道的值。**这里忽略了ϵ。

image-20240623132003555

而输入BN层的特征图是由卷积层得到的,卷积层本质上其实就是一个加权求和的过程,所以把BN层中的权重与卷积层的权重相乘(两个层的权重融合就相当于卷积层和BN层进行了融合),表示如下:(其中W′ 和b ′ 是新的权重和偏置,也就是卷积层和BN层融合后的新参数)

image-20240623132258161

当 1≤𝑖≤𝐶2 ,都满足下面公式,该公式同样适用于identity 分支,因为 identity 可以视作 1×1 卷积。

image-20240623133838461

了解了上述原理之后,针对三个分支的具体融合如下:

1.第一个分支直接按上述步骤融合即可;

2.第二个分支先对1 × 1 的卷积核padding一圈0变成3 × 3的卷积核,也能通过上述流程融合。(注意:由于输入输出通道不变,在卷积过程中还要在设置padding =1,也就是卷积过程中外面有两圈0)

image-20240623134245536

3.对于BN层来说本身是没有卷积核的,可以通过添加一个只进行恒等映射的3 x 3卷积核,使输入输出特征图不变。卷积核如下图虚线框内所示,框内左侧为第一个卷积核、右侧为第二个卷积核。第一个卷积核的结果和输入特征图的channel1一样,第二个卷积核的结果和输入特征图的channel2一样,然后通过concat就得到输出结果,输入输出就保持一致了。

image-20240623134819514

此时再会看原论文中这张参数图就很好理解了。

image-20240623135252699

多分支融合(将三个stride、padding都一致的3 × 3 卷积层融合成一个3 × 3 卷积层)

将这三个分支的 3×3 卷积核(参数和偏置)相加(elemen twise-add),得到融合后卷积层的 3×3 卷积核,结构重参数化就完成了。

如下图,I表示输入特征图,K和B分别代表各个卷积层的权重参数和偏置。

image-20240623135918151

此时的参数表示如下图。

image-20240623140141824

Architectural Specification – 结构配置

深度控制:从下表2可以看出-A版本的模型Stage重复次数较少,也就是-A版本的模型网络较浅,-B结构网络较深。

image-20240623140356359

宽度控制:下表3中表示相同Stage但是a和b不同对应的版本也不同,a和b具体控制了哪个stage的宽度可以从上表2中看出(b只控制stage5的宽度)。

image-20240623140542433

其中RepVGG-Bxgy配置是在RepVGG-B的基础上加入了组卷积(Group Convolution),其中gy表示组卷积采用的groups参数为y,注意并不是所有卷积层都采用组卷积,根据源码可以看到,是从Stage2开始(索引从1开始)的第2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26的卷积层采用组卷积。

image-20240623140947623

下表是一些其他的对比。

image-20240623141015727

总结

优点:

本文的核心技术其实就一个 – 结构重参数化,通过这项技术实现了更快、更省内存、更灵活的网络架构RepVGG,这是一个由3 × 3 conv 和 ReLU 简单堆叠的架构,特别适合适用于 GPU 和专用推理芯片。通过结构重新参数化方法,它达到了 80% 以上的 top-1ImageNet 上的准确率,并显示出良好的速度准确度与最先进的模型相比的权衡。

不足:

  1. 最后需要注明的是,RepVGG 是为 GPU 和专用硬件设计的高效模型,追求高速度、省内存,较少关注参数量和理论计算量。在低算力设备上,可能不如 MobileNet 和 ShuffleNet 系列适用。
  2. 并且RepVGG 的推理模型很难使用后量化方法 (Post-Training Quantization, PTQ),比如,使用简单的 INT8 PTQ,ImageNet 上的 RepVGG 模型的准确性会降低到 54.55%

原因:RepOpt 对重参数化结构量化困难的问题进行了研究,发现重参数结构的分支融合和吸 BN 操作,显著放大了权重参数分布的标准差。而异常的权重分布又会产生了过大的网络激活层数值分布,从而进一步导致该层量化损失过大,因此模型精度损失严重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1853757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python】已解决:pymssql引发的MSSQLDatabaseException错误

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:pymssql引发的MSSQLDatabaseException错误 一、分析问题背景 在Python中使用pymssql库与Microsoft SQL Server数据库交互时,有时会遇到pymssql._mss…

k8s 部署 ruoyi 前后端分离项目

本文视频版 https://www.bilibili.com/video/BV17ugkePEeN 参考 https://blog.csdn.net/qq_50247813/article/details/136934090 https://gitee.com/nasaa/RuoYi-Vue-cloud https://www.itsgeekhead.com/tuts/kubernetes-129-ubuntu-22-04-3/ https://kubernetes.io/docs/se…

安装react之nvm版本低引起的问题

1.背景 准备搭建一个react,然后看官网文档 创建项目,使用命令行 npx create-next-applatest 创建项目的流程都是正常的。当我准备运行项目的时候,报错了 原先的报错没有了,从网上找了一个类似的 重要的内容是:当前…

【Mac】植物大战僵尸杂交版 for Mac(经典策略塔防游戏)游戏介绍

游戏介绍 植物大战僵尸杂交版 for Mac是一款非常受欢迎的策略塔防游戏,植物大战僵尸游戏以其独特的主题、幽默的风格和富有挑战性的关卡设计而著称。玩家需要种植各种植物来防御入侵的僵尸,每种植物都有其特定的功能和攻击方式。植物大战僵尸杂交版&…

5.树莓派4b+ubuntu18.04(ros版本melodic)+arduino mega自制两轮差速小车,实现建图导航功能

这一节介绍雷达的使用,我们使用的雷达型号是ydlidar x3 1.进入工作空间 cd catkin_ws/src2.下载官方提供的SDK文件 git clone https://github.com/YDLIDAR/YDLidar-SDK.git3.安装cmake sudo apt install cmake pkg-config4.编译和安装 进入YDLidar-SDK文件夹后如…

巴鲁夫MacroBuilder2.0.0.0软件巴鲁夫和使用手侧

巴鲁夫MacroBuilder2.0.0.0软件巴鲁夫和使用手侧

BL104应用在智慧零售多协议采集监控远程实时查看

在智慧零售领域,如今的市场竞争日益激烈,传统的零售模式已经难以满足消费者对服务和体验的高需求。智能化技术的引入,尤其是基于物联网的解决方案,成为提升零售业务效率和服务质量的关键。钡铼BL104 Modbus转MQTT网关作为一种先进…

Vue65-组件之间的传值

1、收数据 2、传数据 3、批量的数据替换 若是info里面有四个数据,传过来的dataObj里面有三个数据,则info里面也只有三个数据了 解决方式: 该写法还有一个优势:传参的时候,顺序可以随意!

MySQL中的ibd2sdi—InnoDB表空间SDI提取实用程序

ibd2sdi 是一个用于从 InnoDB 表空间文件中提取序列化字典信息(Serialized Dictionary Information, SDI)的实用程序。这个实用程序可以用于提取存储在持久化 InnoDB 表空间文件中的 SDI 数据。 可以对以下类型的表空间文件使用 ibd2sdi: 每…

【Vision AI v2开箱之SenseCraft AI猫狗识别Arduino教程】

【Vision AI v2开箱之SenseCraft AI猫狗识别Arduino教程】 1. 前言2. 实验材料2.1 Grove Vision AI Module V22.1.1 特征2.1.2 硬件概述2.1.3 启动/重置/程序2.1.4 驱动 2.2 ESP32C32.2.1 引脚图2.2.2 组件概述2.2.3 电源引脚 2.3 SenseCraft AI Model Assistant2.3.1 部署的模…

百度网盘的文件该怎么整理?不如试试这个整理工具

科学的文件架构 一键生成文件夹层级工具 极具妥帖的秩序感受 又是一周,好久不见,正琢磨着这次给大家带来点什么好东西,突然百度网盘的整理让我头疼不已,从我记事以来,这网盘已经整理过N遍了,总是乱了整理…

嵌入式学习——数据结构(队列)——day50

1. 查找二叉树、搜索二叉树、平衡二叉树 2. 哈希表——人的身份证——哈希函数 3. 哈希冲突、哈希矛盾 4. 哈希代码 4.1 创建哈希表 4.2 5. 算法设计 5.1 正确性 5.2 可读性(高内聚、低耦合) 5.3 健壮性 5.4 高效率(时间复杂度&am…

nn.Embedding 根据索引生成的向量有权重吗

import torch import torch.nn as nn 假设有一个大小为 10x3 的 Embedding 层,其中有 10 个单词,每个单词用一个长度为 3 的向量表示 num_words 10 embedding_dim 3 创建 Embedding 层 embedding_layer nn.Embedding(num_words, embedding_dim) p…

朴素贝叶斯案例

一、朴素贝叶斯算法: 朴素贝叶斯算法,是一种基于贝叶斯定理与特征条件独立假设的分类方法,基于贝叶斯后验概率建立的模型,它用于解决分类问题。朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于…

使用Let‘s Encrypt 申请通配符证书

为什么不使用阿里云/腾讯云等公有云厂商提供的免费证书? 上篇介绍了从阿里云上面申请免费证书,有效期一年 为网站配置https证书 公有云提供的证书不支持通配符,只支持某个确定的解析。 不管是二级域名还是三级域名,只要是具体的确定的地址,都…

Go WebSocket入门+千万级别弹幕系统架构设计

Go实现WebSocket(千万级别弹幕系统架构设计) 1 websocket简介(基于HTTP协议的长连接) 使用WebSocket可以轻松的维持服务器端长连接,其次WebSocket是架构在HTTP协议之上的,并且也可以使用HTTPS方式,因此WebSocket是可靠…

图像反转入门

文章目录 1.实验目的2.需求3.代码4.运行结果图 1.实验目的 熟练掌握图像像素操作API 2.需求 自己构造一个纯黑图像,通过多种方法进行反转,最终生成一个纯白图像 3.代码 """ Time : 2024/6/23 下午3:46 Author : chensong File : 自己创建一个图像并…

287 寻找重复数-类似于环形链表II

题目 给定一个包含 n 1 个整数的数组 nums ,其数字都在 [1, n] 范围内(包括 1 和 n),可知至少存在一个重复的整数。 假设 nums 只有 一个重复的整数 ,返回 这个重复的数 。 你设计的解决方案必须 不修改 数组 nums…

【python】python学生成绩数据分析可视化(源码+数据+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

swift使用websocket通讯,依赖库Starscream集成,并验证apple watch实现websocket可行性

这里使用webscoket,主要是使用了Starscream这个库,看图片就知道很牛X,那么干就完了。官方开源仓库地址:https://github.com/daltoniam/Starscream?tabreadme-ov-file 安装依赖库 首先,使用 Swift Package Manager 安…