结构重参数化宇宙(Re-parameterization Universe)

news2025/1/16 21:17:40

文章目录

  • 0. 前言
  • 1. Re-parameterization Universe
    • 1.1 RepVGG
    • 1.2. RepOptimizer
  • 2. 应用
  • 参考资料

0. 前言

一方面,大量研究表明,多分支网络架构的性能普遍优于单分支架构;另一方面,相比多分支架构,单分支架构更有利于部署。那么有没有可能训练时采用多分支架构,而推理时使用单分支呢?我只想说,Re-parameterization is All You Need !!!

1. Re-parameterization Universe

1.1 RepVGG

为什么要使用VGG式单分支架构

  1. 快:并行度高,单分支架构中的运算是大而整的,而多分支是小而碎的,同样的计算量,“大而整”的运算效率远超“小而碎”

  2. 省内存:在add或concat之前,每个分支都占用一份内存来缓存运算结果,add或concat后才能释放
    在这里插入图片描述

  3. 硬件友好:VGG式网络架构只有3×3卷积这一种算子,无需额外设计

结构重参数化的核心思想:卷积运算是线性运算,具有可加性。
为了实现结构重参数化,需要特殊设计一种多分支模块,其内部只有线性运算,例如卷积和BN,激活函数需要放到多分支模块外面,如下图所示:
在这里插入图片描述
那么如何将多分支转换为单分支呢?下图解释的很清楚,如果能看懂就可以跳过后面的解释。
在这里插入图片描述
转换过程可以分为3个步骤:

  1. 将1×1卷积和identity转换为3×3卷积:
    1×1卷积通过pad可以直接转换为3×3卷积,这里着重解释一下identity如何转换为3×3卷积。identity的作用是保持输出与输入一致,当输入和输出的通道数均为2时,假设输入分别为 x 1 x_1 x1 x 2 x_2 x2,输出分别为 y 1 y_1 y1 y 2 y_2 y2,在不考虑bias的情况下,有:
    x 1 = y 1 = w 1 1 ∗ x 1 + w 1 2 ∗ x 2 x_1=y_1 = w_1^1*x_1+w_1^2*x_2 x1=y1=w11x1+w12x2 x 2 = y 2 = w 2 1 ∗ x 1 + w 2 2 ∗ x 2 x_2=y_2 = w_2^1*x_1+w_2^2*x_2 x2=y2=w21x1+w22x2显然,为了使上式成立, w 1 1 w_1^1 w11是一个权重为1的1×1卷积, w 1 2 w_1^2 w12是一个权重为0的1×1卷积; w 2 1 w_2^1 w21是一个权重为0的1×1卷积, w 2 2 w_2^2 w22是一个权重为1的1×1卷积。通过填充0就可以转换为3×3卷积,论文中也给出了对应的示意图:
    在这里插入图片描述
    依此类推,若输入和输出通道为 C C C,则identity可以表示为下图,其实就是单位矩阵中的每个元素扩展为3×3卷积,文中所提到的单位矩阵就是这个意思。
    在这里插入图片描述

  2. 对于每个分支,融合3×3卷积和BN:
    由于每个分支都有个BN层,所以需要将卷积和BN进行融合,也是算子折叠中的常规操作,原理如下:
    卷积可以表示为: C o n v ( x ) = W ( x ) + b Conv(x)=W(x)+b Conv(x)=W(x)+bBN可以表示为: B N ( x ) = γ ∗ x − μ σ 2 + ϵ + β BN(x)=\gamma*\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}+\beta BN(x)=γσ2+ϵ xμ+β将卷积代入BN中,则有: C o n v B N ( x ) = γ ∗ W ( x ) + b − μ σ 2 + ϵ + β = γ ∗ W ( x ) σ 2 + ϵ + γ ∗ ( b − μ ) σ 2 + ϵ + β ConvBN(x)=\gamma*\frac{W(x)+b-\mu}{\sqrt{\sigma^2+\epsilon}}+\beta=\frac{\gamma*W(x)}{\sqrt{\sigma^2+\epsilon}}+\frac{\gamma*(b-\mu)}{\sqrt{\sigma^2+\epsilon}}+\beta ConvBN(x)=γσ2+ϵ W(x)+bμ+β=σ2+ϵ γW(x)+σ2+ϵ γ(bμ)+β
    conv后接BN时,bias通常设置为False,因此,上式可简化为以下形式:
    C o n v B N ( x ) = γ ∗ W ( x ) σ 2 + ϵ + ( β − γ ∗ μ σ 2 + ϵ ) ConvBN(x)=\frac{\gamma*W(x)}{\sqrt{\sigma^2+\epsilon}}+(\beta-\frac{\gamma*\mu}{\sqrt{\sigma^2+\epsilon}}) ConvBN(x)=σ2+ϵ γW(x)+(βσ2+ϵ γμ)
    官方代码如下:

def _fuse_bn_tensor(self, branch):
        if branch is None:
            return 0, 0
        if isinstance(branch, nn.Sequential):
       		# 取出卷积层的权重
            kernel = branch.conv.weight  
            # 取出BN层的参数
            running_mean = branch.bn.running_mean
            running_var = branch.bn.running_var
            gamma = branch.bn.weight
            beta = branch.bn.bias
            eps = branch.bn.eps
        else:
            assert isinstance(branch, nn.BatchNorm2d)
            # 将Identity分支转换为3*3卷积
            if not hasattr(self, 'id_tensor'):
                input_dim = self.in_channels // self.groups
                kernel_value = np.zeros((self.in_channels, input_dim, 3, 3), dtype=np.float32)
                for i in range(self.in_channels):
                    kernel_value[i, i % input_dim, 1, 1] = 1
                self.id_tensor = torch.from_numpy(kernel_value).to(branch.weight.device)
            # 获取卷积权重
            kernel = self.id_tensor
            # 获取BN层的参数
            running_mean = branch.running_mean
            running_var = branch.running_var
            gamma = branch.weight
            beta = branch.bias
            eps = branch.eps
        std = (running_var + eps).sqrt()
        t = (gamma / std).reshape(-1, 1, 1, 1)
        # 计算融合卷积和BN后的weight和bias
        return kernel * t, beta - running_mean * gamma / std
  1. 融合多分支的weight和bias:

因为每个分支内执行的都是线性运算,因此融合时直接线性求和即可:
y = ( W 1 x + b 1 ) + ( W 2 x + b 2 ) + ( W 3 x + b 3 ) = ( W 1 + W 2 + W 3 ) x + ( b 1 + b 2 + b 3 ) y=(W_1x+b_1)+(W_2x+b_2)+(W_3x+b_3)=(W_1+W_2+W_3)x+(b_1+b_2+b_3) y=(W1x+b1)+(W2x+b2)+(W3x+b3)=(W1+W2+W3)x+(b1+b2+b3)官方代码如下:

def get_equivalent_kernel_bias(self):
        kernel3x3, bias3x3 = self._fuse_bn_tensor(self.rbr_dense)
        kernel1x1, bias1x1 = self._fuse_bn_tensor(self.rbr_1x1)
        kernelid, biasid = self._fuse_bn_tensor(self.rbr_identity)
        return kernel3x3 + self._pad_1x1_to_3x3_tensor(kernel1x1) + kernelid, bias3x3 + bias1x1 + biasid

1.2. RepOptimizer

2. 应用

参考资料

[1] RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大(CVPR-2021)
[2] 官方开源代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows系统管理_windows server 2016 用户管理

用户账户的概述 **计算机用户账户:**由将用户定义到某一系统的所有信息组成的记录,账户为用户或计算机提供安 全凭证,包括用户名和用户登陆所需要的密码,以及用户使用以便用户和计算机能够登录到网络并 访问域资源的权利和权限。不同的身份拥…

自动控制原理模拟卷2

自动控制原理模拟题二 Question1 电炉温度控制系统原理如下图所示,分析系统保持电炉温度恒定的工作过程,指出系统的被控对象、被控量及各部件的作用,并画出系统方块图。 解: 电炉使用电阻丝加热,并要求保持炉温恒定,图中采用热电偶来测量电炉温并将其转换为电压信号,将…

Android 新版 Logcat 操作小技巧

新版的Android Studio中启用了新的 Logcat,有些小技巧这里介绍一下: 文章目录1. Logcat启动2. Logcat 搜索1. 搜索当前包名下的日志:2. 添加日志级别3. 添加标签4. 标签字段5. 排除字段6. 使用正则表达式7. 使用正则表达式排除8. 使用age截取…

初识C语言 ——“C Primer Plus”

各位CSDN的uu们你们好呀,今天,小雅兰的内容是读一本好书,这一本书的名字就叫做《C Primer Plus》,那么,又回到了我们的初识C语言阶段啦,保证零基础都能看懂噢,下面,让我们进入C语言的…

app抓包实战

文章目录一、抓包原理二、常用应用场景三、过滤四、重发五、修改请求六、断点(BreakPoint)一、抓包原理 二、常用应用场景 解决移动端接口测试 解决接口测试过程中检查传参错误问题 mock测试(虚拟的对象代替正常的数据、后端接口没有开发完成…

XXL-JOB分布式任务调度平台搭建以及和SpringBoot整合应用

1 前言 XXL-JOB 是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。 可以前往 Gitee 地址进行下载使用: https://gitee.com/xuxueli0323/xxl-job.g…

计算机网络考试复习——第三章 3.1 3.2

本章考试范围为3.1 3.2 3.3 3.4 首先明确数据链路层在网络中是在物理层的上面从下网上看是在第二层,在数据链路层传输的单位是帧。 网络中的主机、路由器等都必须实现数据链路层,局域网中的主机、交换机等都必须实现数据链路层。 数据链路层的地位&am…

Win10 下编译 OpenCV 4.7.0详细全过程,包含xfeatures2d

在Win10下编译 OpenCV 4.7.0过程中,踩了几个坑,这里记录下来,供大家参考。 1. 下载源文件 GitHub上下载OpenCV 4.7.0源文件,及opencv_contrib-4.7.0,如果不方便下载,以下是百度网盘链接,有需要…

maven将jar包添加到本地仓库

第一步:下载需要添加的jar包 可以在maven库中查找下载,也可以在对应官网下载 maven库网址:https://mvnrepository.com/ 找到对应版本的jar包下载 第二步:将下载的jar包放到指定位置(位置自己指定)&#xf…

Spring的核心与设计思想

目录 IoC 传统程序开发思想 传统程序开发的缺陷 控制反转式程序开发 对比总结 理解Spring IoC DI 总结 我们通常所说的Spring指的是Spring Framework(Spring 框架),它是一个开源的框架,有着活跃而庞大的社区,Spring支持广泛的应用场景,可以让Java企业级的应用程序开发…

改进蚁狮优化算法

目录 ​1 主要内容 2 部分程序 3 程序结果 4 程序链接 ​1 主要内容 该程序方法复现《改进蚁狮算法的无线传感器网络覆盖优化》两种改进算法模型,即原始ALO算法的基础上添加了两种改进策略: - 改进1:将原先的间断性边界收缩因子变为连…

SpringAop 源码解析 (二) - 代理对象的创建以及执行过程

一、SpringAop 代理创建 以及 执行过程 在上篇文章中分析得出在使用 Aop 时,实际向 Spring 容器中注入了一个 AnnotationAwareAspectJAutoProxyCreator 动态代理 bean 生成处理器,该类有实现 BeanPostProcessor 扩展方法,并且在 postProcess…

文心一言 VS chatgpt (7)-- 算法导论2.3 3~4题

三、使用数学归纳法证明:当n刚好是2的幂时,以下递归式的解是 T(n)nlgn。若n2,T(n)2;若n2^k,k>1,T(n)2T(n/2)n。 文心一言: chatgpt: 首先,当 n2 时,T(n)2log₂n2,显…

结构体全解,适合初学者的一条龙深度讲解(附手绘图详解)

我们知道,C语言是允许我们自己来创造类型的,这些类型就叫做——自定义类型。 自定义类型又包括结构体类型,联合体类型还有枚举类型。 今天的文章,我们就着重讲解这其中的结构体类型。 目录 结构体的声明 1.1结构的基础知识 …

托福高频真词List01//附阅读真题

once in a whileoccasionally adv 偶尔 🍮segregateseparateV.隔离🍮leftover remainingadj.剩余的 rivalcompetitor rivalcompete n.对手 v.对抗 apparentlyseeminglyadv.显然 🍮unrivaledunequaledadj.无与伦比的 🍮&#x…

TCPIP vs OSI模型:网络通信的两种参考模型有哪些不同?

前言 欢迎来到今天的每日一题,每日一提。昨天聊的是面试中经常会问到tcp协议 。在面试中一旦问到TCP/IP,那么OSI模型肯定是躲不过的。如果直接回答OSI模型有7层,和TCP/IP的区别就是层数不一样。那么恭喜你可以提前回去等通知了。所以今天就聊…

23考研重大软院数一英一391分经验帖

今年这情况之后,所有前人的经验帖作废。 前言: 本校本专业生一战上岸,属于考研界难度最低的一档。 今年有个初试439的怪物,属于是蚌了,第二名也有419,第三名就断档了,我初试第五。 政治78&#…

基于html+css的盒子展示1

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

学习MongoDB这一篇就足够了

这篇博客详细的介绍了MongoDB的安装过程,并配置成了自启动服务,非常方便,亲测有效。 MongoDB的安装配置教程(很详细,你想要的都在这里)http://t.csdn.cn/XWV0B IDEA中 JAVA操作MongoDB: 1. 这篇博客主要介…

计算机操作系统第四版第五章虚拟存储器—课后题答案

1.常规存储器管理方式具有哪两大特征?它对系统性能有何影响? 一次性和驻留性。 一次性及驻留性特征使得许多在程序中不用或暂时不用的程序(数据)占据了大量的内存空间,而一些需要运行的作业又无法装入运行,…