YOLOv10改进 | Neck | 添加双向特征金字塔BiFPN【含二次独家创新】

news2024/11/27 14:27:42

💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡


专栏目录:《YOLOv8改进有效涨点》专栏介绍 & 专栏目录 | 目前已有40+篇内容,内含各种Head检测头、损失函数Loss、Backbone、Neck、NMS等创新点改进


针对在特征提取过程中,特征信息丢失,特征提取能力不足等问题,研究人员提出了一种加权双向特征金字塔网络(BiFPN),它允许简单快速的多尺度特征融合;可以同时统一缩放所有主干网络、特征网络以及边界框/类别预测网络的分辨率、深度和宽度。文章在介绍主要的原理后,将手把手教学如何进行模块的代码添加和修改并将修改后的完整代码放在文章的最后,方便大家一键运行,小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。

 专栏地址YOLOv10入门 + 涨点——持续更新各种涨点方法

目录

1. 原理

2.BiFPN代码实现

2.1 将BiFPN代码添加到YOLOv10种

2.2 更改init.py文件

2.3 添加yaml文件

2.4 在task.py中进行注册

2.5 执行程序

 3. 完整代码分享

4. GFLOPs

5. 进阶

6. 总结


1. 原理

论文地址:EfficientDet: Scalable and Efficient Object Detection——点击即可跳转

官方代码:BiFPN官方代码仓库——点击即可跳转

BIFPN,全称为双向特征金字塔网络(Bidirectional Feature Pyramid Network),是一种用于目标检测和图像分割的神经网络架构。它在EfficientDet和其他一些计算机视觉任务中被广泛使用。BIFPN的设计目标是提高特征融合的效率和效果,使得模型在计算资源有限的情况下仍能保持高性能。以下是对BIFPN的详细讲解:

背景

在计算机视觉任务中,特征金字塔网络(FPN)是一种常用的方法,它通过构建不同尺度的特征图来捕获不同尺度的目标。然而,传统的FPN存在一些缺点,如特征融合效率低、信息流通不充分等。BIFPN则通过引入双向的特征融合机制和加权的特征融合方法来克服这些问题。

核心思想

  1. 双向特征融合: 传统的FPN是单向的,即从高层特征图向低层特征图传递信息。而BIFPN在此基础上增加了反向的信息传递,即从低层特征图向高层特征图传递信息。这种双向的信息流动使得特征图之间的信息融合更加充分。

  2. 加权特征融合: 在BIFPN中,不同尺度的特征图在融合时会分配不同的权重。这些权重是可学习的参数,模型在训练过程中会自动调整它们,以最优地融合不同尺度的特征。这样一来,模型能够更好地利用每个特征图的信息,提高整体的特征表示能力。

结构细节

BIFPN的结构设计非常灵活,可以适应不同的网络架构和任务需求。以下是BIFPN的几个关键组件:

  • 上下文融合层:在上下文融合层中,BIFPN将来自不同尺度的特征图进行融合,采用加权求和的方式。这种加权求和通过学习到的权重来平衡不同特征图的贡献。

  • 重复融合模块:BIFPN中通常会堆叠多个融合模块,这些模块会反复进行特征融合,从而进一步增强特征的表达能力。

  • 尺度变化处理:BIFPN能够处理不同尺度的特征图,并在融合过程中考虑到这些尺度变化。通过上下采样等操作,BIFPN可以有效地处理不同分辨率的特征图。

优势

  1. 高效性:通过加权特征融合和重复融合模块,BIFPN能够在保持高效计算的同时,提升特征表示能力。

  2. 鲁棒性:双向特征融合使得BIFPN对不同尺度目标的检测更加鲁棒,能够更好地应对多尺度问题。

  3. 灵活性:BIFPN可以方便地集成到不同的神经网络架构中,适应不同的任务需求。

应用

BIFPN被广泛应用于各种计算机视觉任务中,尤其是在目标检测和图像分割方面表现出色。比如,在EfficientDet中,BIFPN作为核心组件之一,通过高效的特征融合机制显著提升了模型的检测性能。

总结

BIFPN通过引入双向特征融合和加权特征融合,克服了传统FPN的局限性,提高了特征融合的效率和效果。其灵活高效的设计使其在计算机视觉任务中得到广泛应用,为提升模型性能提供了有力支持。

2.BiFPN代码实现

2.1 将BiFPN代码添加到YOLOv10种

关键步骤一: 将下面代码粘贴到在/ultralytics/ultralytics/nn/modules/block.py中,并在该文件的__all__中添加“Concat_BiFPN” 

class Concat_BiFPN(nn.Module):
    def __init__(self, dimension=1):
        super(Concat_BiFPN, self).__init__()
        self.d = dimension
        self.w = nn.Parameter(torch.ones(3, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001
 
    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1]]
        return torch.cat(x, self.d)

BiFPN的主要流程可以分为以下几个步骤:

  1. 特征提取:首先,输入图像经过卷积神经网络(如EfficientNet等)进行特征提取,得到一系列特征图,这些特征图包含了不同层级的语义信息。

  2. 自下而上特征传递:BiFPN从底层开始,利用双线性池化将低分辨率特征图上采样到高分辨率,然后使用双向连接,将上一层的特征图与下一层的上采样特征图进行融合。这种自下而上的特征传递可以帮助从更低层级获取更丰富的信息。

  3. 自上而下特征传递:接着,BiFPN沿着特征金字塔网络的自上而下路径进行特征传递。在这个过程中,BiFPN利用双向连接,将上一层的特征图与下一层的上采样特征图进行融合,以获得更加丰富和准确的特征表征。

  4. 多尺度特征融合:BiFPN在每个层级上都进行多尺度特征融合,将不同分辨率的特征图通过双线性池化进行融合,从而提高特征的表征能力和鲁棒性。

  5. 最终特征输出:最后,BiFPN输出的特征图经过一系列后续处理,如分类器和回归器等,用于目标检测任务中的目标分类和边界框回归等。

通过这样的流程,BiFPN能够充分利用不同层级的特征信息,并通过双向连接和双线性池化等技巧,提高了特征的表征能力和目标检测的性能。

2.2 更改init.py文件

关键步骤二:修改modules文件夹下的__init__.py文件,先导入函数

然后在下面的__all__中声明函数

2.3 添加yaml文件

关键步骤三:在/ultralytics/ultralytics/cfg/models/v10下面新建文件yolov10_BiFPN.yaml文件,粘贴下面的内容

# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, 
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024] 

# YOLOv10n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]] # 9
  - [-1, 1, PSA, [1024]] # 10

# YOLOv10 head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 3, C2f, [512]] # 13

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, Concat_BiFPN, [1]] # cat backbone P3
  - [-1, 3, C2f, [256]] # 16 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 13], 1, Concat_BiFPN, [1]] # cat head P4
  - [-1, 3, C2f, [512]] # 19 (P4/16-medium)

  - [-1, 1, SCDown, [512, 3, 2]]
  - [[-1, 10], 1, Concat_BiFPN, [1]] # cat head P5
  - [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)

  - [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)

温馨提示:本文只是对yolov10n基础上添加模块,如果要对yolov10n/l/m/x进行添加则只需要指定对应的depth_multiple 和 width_multiple。 


# YOLOv10n
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
 
# YOLOv10s
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
 
# YOLOv10l 
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
 
# YOLOv10m
depth_multiple: 0.67  # model depth multiple
width_multiple: 0.75  # layer channel multiple
 
# YOLOv10x
depth_multiple: 1.33  # model depth multiple
width_multiple: 1.25  # layer channel multiple

2.4 在task.py中进行注册

关键步骤四:在parse_model函数中进行注册

elif m is Concat_BiFPN:
            c2 = sum(ch[x] for x in f)

2.5 执行程序

关键步骤五:在ultralytics文件中新建train.py,将model的参数路径设置为yolov10_BiFPN.yaml的路径即可

from ultralytics import YOLOv10
 
# Load a model
# model = YOLO('yolov8n.yaml')  # build a new model from YAML
# model = YOLO('yolov8n.pt')  # load a pretrained model (recommended for training)
 
model = YOLOv10(r'/projects/yolo/yolov10/ultralytics/cfg/models/v10/yolov10_BiFPN.yaml')  # build from YAML and transfer weights
 
# Train the model
model.train(batch=16)

建议大家写绝对路径,确保一定能找到

  🚀运行程序,如果出现下面的内容则说明添加成功🚀

3. 完整代码分享

https://pan.baidu.com/s/1ZDM2aQ55nXx_aFxqPm9Jgg?pwd=z95u

 提取码: z95u 

4. GFLOPs

关于GFLOPs的计算方式可以查看:百面算法工程师 | 卷积基础知识——Convolution

未改进的YOLOv10nGFLOPs

改进后的GFLOPs 

5. 进阶

只需要更换code和ymal文件,其他的步骤相同 

# 结合BiFPN 设置可学习参数 学习不同分支的权重
# 两个分支concat操作
class BiFPN_Concat2(nn.Module):
    def __init__(self, dimension=1):
        super(BiFPN_Concat2, self).__init__()
        self.d = dimension
        self.w = nn.Parameter(torch.ones(2, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001
 
    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1]]
        return torch.cat(x, self.d)
 
 
# 三个分支concat操作
class BiFPN_Concat3(nn.Module):
    def __init__(self, dimension=1):
        super(BiFPN_Concat3, self).__init__()
        self.d = dimension
        # 设置可学习参数 nn.Parameter的作用是:将一个不可训练的类型Tensor转换成可以训练的类型parameter
        # 并且会向宿主模型注册该参数 成为其一部分 即model.parameters()会包含这个parameter
        # 从而在参数优化的时候可以自动一起优化
        self.w = nn.Parameter(torch.ones(3, dtype=torch.float32), requires_grad=True)
        self.epsilon = 0.0001
 
    def forward(self, x):
        w = self.w
        weight = w / (torch.sum(w, dim=0) + self.epsilon)  # 将权重进行归一化
        # Fast normalized fusion
        x = [weight[0] * x[0], weight[1] * x[1], weight[2] * x[2]]
        return torch.cat(x, self.d)
# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, 
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024] 

# YOLOv10n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]] # 9
  - [-1, 1, PSA, [1024]] # 10

# YOLOv10 head
head:
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 6], 1, Concat, [1]] # cat backbone P4
  - [-1, 3, C2f, [512]] # 13

  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
  - [[-1, 4], 1, BiFPN_Concat2, [1]] # cat backbone P3
  - [-1, 3, C2f, [256]] # 16 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 13], 1, BiFPN_Concat3, [1]] # cat head P4
  - [-1, 3, C2f, [512]] # 19 (P4/16-medium)

  - [-1, 1, SCDown, [512, 3, 2]]
  - [[-1, 10], 1, BiFPN_Concat2, [1]] # cat head P5
  - [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)

  - [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)

6. 总结

BIFPN(双向特征金字塔网络)通过双向特征融合和加权特征融合的创新设计,显著提升了特征金字塔网络(FPN)的性能。其核心思想是将信息在特征金字塔中双向传递,即从高层特征图向低层特征图传递,同时也从低层特征图向高层特征图传递,确保特征信息的充分融合。同时,BIFPN引入了可学习的加权机制,通过在训练过程中自动调整权重,优化不同尺度特征图的融合效果。这种设计不仅提高了特征表示的能力,还保持了计算的高效性,使其在目标检测和图像分割等计算机视觉任务中表现出色,能够更好地应对多尺度问题和不同任务需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1845169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

教你使用Python玩转MySQL数据库,大数据导入不再是难题!

数据分析离不开数据库,如何使用python连接MySQL数据库,并进行增删改查操作呢? 我们还会遇到需要将大批量数据导入数据库的情况,又该如何使用Python进行大数据的高效导入呢? 本文会一一讲解,并配合代码和实…

疯狂刷题python版 | 使用PySide6自制刷题软件【源码+解析】

疯狂刷题python版 | 使用PySide6自制刷题软件【源码解析】 一、前言二、思考三、软件设计四、软件实现(一)使用QWebEngineView控件通过JavaScript代码和chrome内核进行数据交互和逻辑控制(二)用户分别通过浏览器 GUI和PySide6 GUI…

秋招突击——6/19——复习{(单调队列优化)——最大子序列和,背包问题——宠物小精灵收服问题}——新作{两两交换链表中的节点}

文章目录 引言复习单调队列优化——最大子序列和思路分析实现代码参考实现 背包问题——宠物小精灵的收服问题个人实现参考实现 新作两两交换链表中的节点个人实现参考实现 删除有序数组中的重复项个人实现知识补全迭代器的访问和控制vector删除特定的元素erasevector底层删除元…

15-JS封装:入口函数

目录 1 模块化的基本结构 2 编写封装里的jQuery函数 2.1 对象本身上添加css方法 2.2 对象原型上添加css方法 2.3 自定义构造函数 2.4 优化1-伪数组 2.5 优化2-原型链 2.6 简化代码 需求:给页面中所有的div设置字体颜色为红色 jQuery封装:$("…

1964springboot VUE 智慧社区可视化平台系统开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot VUE社区可视化平台系统是一套完善的完整信息管理类型系统,结合springboot框架和VUE完成本系统,对理解JSP java编程开发语言有帮助系统采用springboot框架(MVC模式开发),系统具有完整的源代码…

INFINI Labs 助力开源与教育:免费许可证计划全面升级

在数字化浪潮席卷全球的今天,INFINI Labs 深刻认识到开源项目和教育机构在技术创新与人才培养中的核心作用。因此,我们郑重推出全新升级的免费许可证计划,旨在全球范围内为开源社区和教育界提供有力支持,共同推动软件生态的繁荣与…

策略模式编程

接口定义&#xff1a; public interface ProcessParserStrategy { List<ProcessInfo> parser(String osType, String processInfo); String getApp(); } public interface ConfigParserStrategy { List<ConfigInfo> parser(String configInfo); String getConfigT…

DC/AC电源模块:为通信设备提供稳定的电力供应

BOSHIDA DC/AC电源模块&#xff1a;为通信设备提供稳定的电力供应 在现代通信系统中&#xff0c;稳定可靠的电力供应是确保信息传输连续性和服务质量的关键因素之一。DC/AC电源模块作为通信设备能源管理的核心组件&#xff0c;扮演着至关重要的角色。它不仅负责将输入的直流电…

Spring自定义标签体系和应用

我们知道&#xff0c;在使用Dubbo框架时&#xff0c;需要指定配置文件中的application、protocol、registry、provider、service等服务器端和客户端的配置项&#xff0c;典型的配置方法如下所示。通过这些配置项&#xff0c;我们可以基于Spring容器来启动Dubbo服务。 <!-- …

pytorch lighting: Trying to resize storage that is not resizable

问题 在用pytorch lighting进行训练时碰到如下错误 即 Trying to resize storage that is not resizable 。 解决方案 在dataloader采样图片以及label时&#xff0c;保证每次采样的图片的分辨率不变。

抖去推,筷子剪辑,超级编导短视频矩阵系统,应该怎么选择?

选择一个适合您需求的软件平台&#xff0c;然后按照以下步骤进行选择&#xff1a; 研究和比较不同平台&#xff1a;比较不同的短视频编辑软件&#xff0c;例如抖音、快手等&#xff0c;看看它们提供了哪些功能和特点。 确定需求&#xff1a;确定您希望在短视频中实现的功能和效…

每天写java到期末考试(6.21)--集合4--练习--6.20

练习1&#xff1a; 正常写集合 bool类 代码&#xff1a; import QM_Fx.Student;import java.util.ArrayList;public class test {public static void main(String[] args) {ArrayList<Student> listnew ArrayList<>();//2.创建学生对象Student s1new Student(&quo…

C语言 | Leetcode C语言题解之第169题多数元素

题目&#xff1a; 题解&#xff1a; int majorityElement(int* nums, int numsSize) {int ans 0;for (int i 0, cnts 0; i < numsSize; i) {if (nums[i] ans) {cnts;} else if (cnts 0) {ans nums[i];} else {cnts--;}}return ans; }

python逆序输出IP地址 青少年编程电子学会python编程等级考试三级真题解析2021年12月

python逆序输出IP地址 2021年12月 python编程等级考试级编程题 一、题目要求 1、编程实现 请读取文件IP.txt的数据&#xff0c;数据内容如下图显示&#xff0c;文件中每一行存储一个P地址&#xff0c;下列代码实现了读取数据&#xff0c;每次读取一行数据&#xff0c;都删除…

HTTP详细总结

概念 HyperText Transfer Protocol&#xff0c;超文本传输协议&#xff0c;规定了浏览器和服务器之间数据传输的规则。 特点 基于TCP协议: 面向连接&#xff0c;安全 TCP是一种面向连接的(建立连接之前是需要经过三次握手)、可靠的、基于字节流的传输层通信协议&#xff0c;在…

驾校OBD接入CAN总线数据大众朗逸仪表网关位置

在汽车的复杂电路网络中&#xff0c;仪表网关扮演着信息枢纽的角色。对于驾校使用大众朗逸车主而言&#xff0c;了解仪表网关的位置不仅有助于日常维护&#xff0c;更是故障诊断和车辆升级的关键所在。 大众朗逸作为一款深受消费者喜爱的车型&#xff0c;凭借其稳定的性能和经…

基于SSM+Jsp的水果销售管理网站

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

BirdTalk IM集群中消息流转策略讨论

BirdTalk IM集群中消息流转策略讨论 目前群聊的存储策略是1写多读方案&#xff1b;每个群组一个队列&#xff0c;按时间顺序排列&#xff0c;不区分用户&#xff1b; 私聊的存储是写扩散的&#xff0c;每个人都有自己的消息队列&#xff0c;按时间顺序 保存所有的消息&#x…

详细分析Matplotlib 绘制三维曲线图的细节(附Demo)

目录 前言1. 基本知识2. Demo 前言 对于Matplotlib的基本知识推荐阅读&#xff1a;python之Matplotlib详细分析&#xff08;附代码&#xff09; 1. 基本知识 Matplotlib 是 Python 中常用的绘图库&#xff0c;可以用于生成各种类型的图表&#xff0c;包括三维曲线图 在三维…

Protobuf安装配置--附带每一步截图

Protobuf Protobuf&#xff08;Protocol Buffers&#xff09;协议是一种由 Google 开发的二进制序列化格式和相关的技术&#xff0c;它用于高效地序列化和反序列化结构化数据&#xff0c;通常用于网络通信、数据存储等场景。 为什么要使用Protobuf Protobuf 在许多领域都得到…