优化改进YOLOv5算法之添加Res2Net模块(超详细)

news2024/11/16 14:51:49

目录

1 Res2Net

2 YOLOv5中添加Res2Net block

2.1 common.py配置

2.2 yolo.py配置

2.3.3 创建添加Res2Net block模块的YOLOv5的yaml配置文件 


1 Res2Net

关于代表性计算机视觉任务的进一步消融研究和实验结果,即目标检测,类激活 mapping和显著目标检测,进一步验证了Res2Net相对于现有技术的基线方法的优越性。

面向视觉任务的多尺度表示对于目标检测、语义分割和显著目标检测任务具有重大意义。通过CNN新模块Res2Net,能够实现与比以往优秀的基于CNN backbone 的模型(如ResNet,ResNeXt和DLA)更好的性能表现。

Res2Net:计算负载不增加,特征提取能力更强大

在多个尺度上表示特征对于许多视觉任务非常重要。卷积神经网络(CNN) backbone 的最新进展不断展示出更强的多尺度表示能力,从而在广泛的应用中实现一致的性能提升。然而,大多数现有方法以分层方式(layer-wise)表示多尺度特征。

在本文中,研究人员在一个单个残差块内构造分层的残差类连接,为CNN提出了一种新的构建模块,即Res2Net——以更细粒度(granular level)表示多尺度特征,并增加每个网络层的感受野(receptive fields)范围。

上图中,左侧为CNN网络架构的基本构成,右侧为本文新提出的Res2Net模块。新模块具备更强的多规模特征提取能力,但计算负载量与左侧架构类似。具体而言,新模块用一个较小的3×3过滤器取代了过滤器组,同时可以将不同的过滤器组以层级残差式风格连接。模块内部的连接形式与残差网络(ResNet)类似,故命名为Res2Net。

本文所提出的Res2Net模块可以融合到最先进的backbone CNN模型中,例如ResNet,ResNeXt和DLA。研究人员在所有这些模型上评估 Res2Net 模块,并在广泛使用的数据集(例如CIFAR-100和ImageNet)上展示相对于基线模型的一致性能提升。


由于单独的Res2Net模块对于整体网络结构没有特定的要求,Res2Net模块的多尺度表示能力也和CNN的分层特征聚合模型彼此独立,所以可以很容易地将Res2Net模块集成到现有的其他优秀CNN模型中。比如ResNet,ResNeXt 和DLA 等。Res2Net结构简单,性能优秀,可以进一步探索CNN在更细粒度级别的多尺度表示能力。 Res2Net揭示了一个新的维度,即“尺度”(Scale),除了深度,宽度和基数的现有维度之外,“规模”是一个必不可少的更有效的因素。

Res2Net模块可以很容易地与现有的最新模块整合。对CIFAR100和ImageNet基准测试的图像分类结果表明,使用Res2Net模块的网络始终在与对手的竞争中表现出更优秀的性能,这些对手包括ResNet,ResNeXt,DLA等。Res2Net性能上的优越性已经在几个具有代表性的计算机视觉任务体现出来,包括类激活映射,对象检测和显着对象检测等。多尺度表示对于未来开拓更广泛的应用领域至关重要。

2 YOLOv5中添加Res2Net block

2.1 common.py配置

在yolov5-6.1/models/common.py文件中增加以下模块,直接复制即可。

class Bottle2neck(nn.Module):
    expansion = 1

    def __init__(self, inplanes, planes, shortcut, baseWidth=26, scale = 4):
        """ Constructor
        Args:
            inplanes: input channel dimensionality
            planes: output channel dimensionality
            baseWidth: basic width of conv3x3
            scale: number of scale.
        """
        super(Bottle2neck, self).__init__()

        width = int(math.floor(planes * (baseWidth/64.0)))
        self.conv1 = Conv(inplanes, width*scale, k=1)
        
        if scale == 1:
          self.nums = 1
        else:
          self.nums = scale -1
        convs = []
        for i in range(self.nums):
          convs.append(Conv(width, width, k=3))
        self.convs = nn.ModuleList(convs)

        self.conv3 = Conv(width*scale, planes * self.expansion, k=1, act=False)

        self.silu = nn.SiLU(inplace=True)
        self.scale = scale
        self.width  = width
        self.shortcut = shortcut

    def forward(self, x):
        print(1)
        if self.shortcut:
            residual = x
        out = self.conv1(x)
        spx = torch.split(out, self.width, 1)
        for i in range(self.nums):
          if i==0:
            sp = spx[i]
          else:
            sp = sp + spx[i]
          sp = self.convs[i](sp)
          if i==0:
            out = sp
          else:
            out = torch.cat((out, sp), 1)
        if self.scale != 1:
          out = torch.cat((out, spx[self.nums]),1)

        out = self.conv3(out)
        if self.shortcut:
            out += residual
        out = self.silu(out)
        return out

class C3_Res2Block(C3):
    # CSP Bottleneck with 3 convolutions
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansion
        super().__init__(c1, c2, n, shortcut, g, e)
        c_ = int(c2 * e)  # hidden channels
        self.m = nn.Sequential(*(Bottle2neck(c_, c_, shortcut) for _ in range(n)))

2.2 yolo.py配置

然后找到yolov5-6.1/models//yolo.py文件下里的parse_model函数,将类名加入进去,如下所示。

2.3.3 创建添加Res2Net block模块的YOLOv5的yaml配置文件 

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3_Res2Block, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3_Res2Block, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3_Res2Block, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3_Res2Block, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3_Res2Block, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3_Res2Block, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3_Res2Block, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3_Res2Block, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/445676.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式:行为型模式 - 观察者模式

文章目录 1.概述2.结构3.案例实现4.优缺点5.使用场景6.JDK中提供的实现 1.概述 定义: 又被称为发布-订阅(Publish/Subscribe)模式,它定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。这个主题对…

GEE:图像表达式计算——ee.Image.expression()详解

作者: _养乐多_ 在遥感图像处理和分析中,图像的表达式计算是一种常见的操作。利用 Google Earth Engine(GEE)平台的强大功能,可以方便地进行基于图像的表达式计算,从而实现对图像进行灵活、高效的处理和分析。 本文将介绍 GEE 平台中的 ee.Image.expression() 函数及其参…

Linux的虚拟地址空间与文件描述符

虚拟地址空间与文件描述符 虚拟地址空间文件描述符 虚拟地址空间 文件描述符

SAS学习第9章:卡方检验之适和性检验与独立性检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时&#xf…

在Windows10中安装WSL2(Ubuntu 22.04.2 LTS)

WSL1 和 WSL2 WSL 1 于 2016 首次发布,在 windows 系统中可以使用linux系统。 但是WSL1的缺点有: 文件 I/O 慢,尤其是在大量IO操作时,例如使用 git 克隆仓库;不支持内核程序; WSL 2 针对以上两个缺点进…

C. Nauuo and Cards(思维)

Problem - C - Codeforces Nauuo是一个喜欢玩纸牌的女孩。 —天,她在玩纸牌时发现牌被混入了一些空牌。 这里有n张编号为1到n的牌,并且它们被混入另外n张空牌中。她把这2n张牌堆起来并且从中取出n张。给定N& uuo手中的n张牌和余下的n张牌(按照从上到…

3天学会Pytest自动化测试框架,哭着都要给我看完

目录 【前言】 【什么是pytest】 【pytest的特点】 【pytest的使用方法】 【附加内容】 【总结】 【前言】 在软件开发过程中,自动化测试是提高软件质量和效率的重要手段之一。pytest作为Python编写的自动化测试框架,具有简单易用、灵活性强等优点…

<Linux>POSIX信号量

目录 什么是信号量 如何理解信号量的使用 基于环形队列的生产消费者模型 如上问题我们如何用编码保证 ?(信号量) 编码: POSIX信号量和SystemV信号量作用相同,都是用于同步操作。POSIX可以用于线程同步。 信号量本质上就是一个计数器。 什…

TS数据类型

基本数据类型 null undefined number string boolean 对于基本数据类型,可以不写类型注解,ts能通过值来判断变量的类型 let nu null let un undefined let num 23 let str "sdfk" let isShow true引用数据类型 数组 写法1 let arr:…

iconik--AI智能媒体管理解决方案

ftrack于去年加入Backlight,旗下有Celtx, Iconik, Wildmoka, 和Zype。这些公司都为媒体、娱乐和视频领域的客户提供基于云的解决方案。 今天,我们就来隆重地介绍其中一款软件–iconik!谷歌、VICE媒体、亚马逊旗下米高梅、Complex Networks和S…

【C++初阶】C++入门

⭐博客主页:️CS semi主页 ⭐欢迎关注:点赞收藏留言 ⭐系列专栏:C初阶 ⭐代码仓库:C初阶 家人们更新不易,你们的点赞和关注对我而言十分重要,友友们麻烦多多点赞+关注,你们的支持是我…

GMW协议

概述 回顾混淆电路的流程,一方生成加密真值表,另一方执行计算,门电路的输入通过主动发送和不经意传输索取实现,用这样的方式来达到多方计算中一些公平性。 那么是否可以让双方拥有更加对等的地位,让每个参与方都持有一…

华为OD机试真题(Java),数组合并(100%通过+复盘思路)

一、题目描述 现在有多组整数数组,需要将他们合并成一个新的数组。 合并规则从每个数组里按顺序取出固定长度的内容,合并到新的数组,取完的内容会删除掉。 如果改行不足固定长度,或者已经为空,则直接取出剩余部分的内…

Numpy从入门到精通——Numpy运算符|批处理

这个专栏名为《Numpy从入门到精通》,顾名思义,是记录自己学习numpy的学习过程,也方便自己之后复盘!为深度学习的进一步学习奠定基础!希望能给大家带来帮助,爱睡觉的咋祝您生活愉快! 这一篇介绍《…

Android 项目编译 Gradle 配置说明

前言 Android 的Gradle版本更新换代还是很快的,更新换代除了功能上变得强大之外,还会出现很多意料之外的Bug,而很多开发者会被折磨的死去活来,下面我们来看有哪些编译配置。 正文 首先要知道什么时候会进行编译,有以下…

Efficient Attention: Attention with Linear Complexities

paper: https://arxiv.org/pdf/1812.01243.pdf 这里写目录标题 一、引言二、方法实现高效注意力的解释效率优势 三、实验消融插入层键的维度骨干架构 一、引言 注意机制在计算机视觉和自然语言处理中有着广泛的应用。最近的工作开发了点积注意力机制,并将其应用于…

MobileBERT模型简单介绍

目录 一、概要 二、深入扩展 2.1 知识蒸馏方法 2.2 渐进式知识迁移 一、概要 MobileBERT 可以看作一个“瘦身”后的BERT-large模型,其使用了瓶颈结构(Bottleneck Structure),并且在自注意力和前馈神经网络的设计上也有一定的改…

图形化之家谱遗传系统

1:废话不多说先看成果。 QQ录屏20230418163603 QQ录屏20230418163732 2:解析: 1:不知道会有多少个孩子,所以我们用二叉树的孩子兄弟结构 typedef struct treeNode {char name[100];//名字int generation;//辈分char g…

Pytorch深度学习笔记(五)反向传播算法

推荐课程:04.反向传播_哔哩哔哩_bilibili 1.为什么要使用反向传播算法 简单模型可以使用解析式更新w 复杂模型,如图,输入矩阵为5*1矩阵,等一层权重矩阵H1为6*5矩阵,则需要30个解析式,第二层权重矩阵H2为6…

1685_Excel的几种脚本处理方式

全部学习汇总: GreyZhang/python_basic: My learning notes about python. (github.com) 做个小结,实际上是写的我自己学习的过程。 关于Excel的处理方式很多,我也不会那么多,在这里我只想写一下我自己接触过的。大致是三种方式&a…