目标检测-One Stage-YOLOx

news2025/1/17 6:03:38

文章目录

  • 前言
  • 一、YOLOx的网络结构和流程
    • 1.YOLOx的不同版本
    • 2.Yolox-Darknet53
      • YOLOv3 baseline
      • Yolox-Darknet53
    • 3.Yolox-s/Yolox-m/Yolox-l/Yolox-x
    • 4.Yolox-Nano/Yolox-Tiny
  • 二、YOLOx的创新点
  • 总结


前言

根据前文CenterNet、YOLOv4等可以看出学界和工业界都在积极探索使用各种tricks(anchor-free、各种组件、数据增强技术等等)来改进One Stage网络的表现,2021年旷视科技结合先进的改进技巧,产出了多种改进模型,在多种情况下达到速度和精度的SOTA。

值得一提的是,YOLOx使得YOLO系列回归到了anchor-free(YOLOv1是anchor-free的),后续YOLOv6、YOLOv7、YOLOv8均为anchor-free算法


提示:以下是本篇文章正文内容,下面内容可供参考

一、YOLOx的网络结构和流程

1.YOLOx的不同版本

YOLOx给出了以下版本:
(1)标准网络结构:Yolox-Darknet53Yolox-sYolox-mYolox-lYolox-x
(2)轻量级网络结构:Yolox-NanoYolox-Tiny

ps:

  1. 选择Yolov3_spp的改进版作为Yolov3 baseline,在此基础上添加各种trick,比如Decoupled Head、SimOTA等,得到了Yolox-Darknet53版本
  2. 以Yolov5的四个版本作为baseline,采用有效的trick,逐一进行改进,得到Yolox-s、Yolox-m、Yolox-l、Yolox-x四个版本
  3. 设计了Yolox-Nano、Yolox-Tiny轻量级网络,并测试了一些trick的适用性

2.Yolox-Darknet53

YOLOv3 baseline

  • 采用了YOLOv3-SPP网络(在YOLOv3 backbone后面加入了SPP层)。
  • 采用了新的训练策略:EMA权值更新、cosine学习率机制、IoU损失、IoU感知分支
  • 数据增强:仅使用RandomHorizontalFlip(翻转)、ColorJitter(对比度、亮度等)、多尺度数据增强,移除了RandomResizedCrop(随机裁剪),因为发现其和planned mosaic augmentation功能上有重叠。

基于上述训练技巧,基线模型在COCO val上取得了38.5%AP指标

ps:和CenterNet不同的是,Yolox分为cls、reg以及obj分支,其中

  • cls代表分类任务,主要负责预测图像中物体的类别,使用BCE损失
  • reg代表回归任务,主要负责预测物体的位置和尺寸信息,使用IoU损失
  • obj代表目标存在性任务(IoU感知分支),即模型需要判断边框中是否存在目标物体(置信度),使用BCE损失
    在这里插入图片描述

Yolox-Darknet53

Yolox-Darknet53在YOLOv3 baseline基础上再次采用了以下五种tricks:

  • Decoupled head:检测头由Head修改为Decoupled Head,提升了收敛速度和精度,但同时会增加复杂度
    在这里插入图片描述
  • Strong data augmentation:使用了Mosaic和MixUp,同时在使用强大的数据增强后,发现ImageNet预训练不再有益,因此从头开始训练所有模型
  • Anchor-free:类似CenterNet的思想
  • Multi positives:类似CenterNet的anchor-free仅为每个对象选择一个正样本(中心位置),同时忽略其他高质量预测,然而,优化这些高质量的预测也可以带来有益的梯度,缓解训练期间正/负采样的极端不平衡,因此YOLOx将中心3×3区域都分配为正样本
  • SimOTA:一种标签匹配方法,标签分配是近年来目标检测领域的另一个重要进展。所谓标签匹配实质上就是将预测框和真实(gt)框进行匹配,简单做法是基于阈值,如IoU,但这种做法比较粗糙。

将精度推至47.3 AP
在这里插入图片描述

ps:YOLOv3-ultralytics是YOLOv3的最佳实践,采用了数据增强等tricks,具体改进看源码

SimOTA详解

ps:OTA来源于旷世科技另一篇文章《Ota: Optimal transport assignment for object detection》,SimOTA是OTA的简化,求近似解

SimOTA将标签匹配转换为运输问题,自动的去匹配输出和标记之间的关联,流程如下:

  1. 网络的输出为85*8400,也就是有8400个预选框,根据初步筛选规则得到1000个正样本预选框
    • 规则1:寻找预选框中心点落在ground truth框范围的所有预选框
    • 规则2:以ground truth框中心点为基准,设置边长为5的正方形,挑选在正方形内的预选框
  2. 假定有3个目标框,针对筛选出的1000个候选检测框,和3个ground truth框计算Loss函数
    • 类别损失:pair_wise_cls_loss,维度:[3,1000]
    • 位置损失:pair_wise_iou_loss,维度:[3,1000]
  3. 两个损失函数加权相加,得到总代价cost矩阵,维度:[3,1000]
  4. 设置候选框数量,假定设置为10,则会给每个目标框挑选10个iou最大的候选框,记录为topk_ious矩阵,则topk_ious的维度为[3,10]
  5. 将topk_ious按第2维求和取整,可以得到每个目标框应该分配的预选框数量

在这里插入图片描述
得到每个目标框应该分配的预选框数量后,具体的选择规则是根据cost矩阵,选择cost值最低的一些候选框
在这里插入图片描述

  1. 过滤共用的候选框:当同一个候选框对应多个目标框时,选择cost更小的候选框,即得到最终的匹配结果

在这里插入图片描述

以下是Yolox-Darknet53的网络结构,可以看出:

  • BackBone和Neck和Yolov3 baseline一致
  • Head变为了3个Decoupled head,每个Decoupled head都是Anchor-free的多分支形式(cls、obj、reg)
    在这里插入图片描述

3.Yolox-s/Yolox-m/Yolox-l/Yolox-x

在对Yolov3 baseline进行不断优化,获得不错效果的基础上。作者又对Yolov5系列的Yolov5s、Yolov5m、Yolov5l、Yolov5x四个网络结构,也使用上述5个trick进行改进。

(1)输入端:在Mosa数据增强的基础上,增加了Mixup数据增强效果;
(2)Backbone:激活函数采用SiLU函数;
(3)Neck:激活函数采用SiLU函数;
(4)输出端:检测头改为Decoupled Head、采用anchor free、multi positives、SimOTA的方式。

以下是Yolox-s的网络结构图
在这里插入图片描述

4.Yolox-Nano/Yolox-Tiny

针对边缘设备部署需求,构建了两个轻量级网络:

  • 针对Yolov4-Tiny,构建了Yolox-Tiny网络结构。
  • 针对FCOS 风格的NanoDet,构建了Yolox-Nano网络结构。

二、YOLOx的创新点

  • 结合最新最先进的一些tricks改进了YOLO系列网络,达到了速度和精度上新的SOTA
  • 将YOLO系列网络重新引入anchor-free方向,使得模型更加简单易训

总结

YOLOx是继YOLOv4之后新的tricks集大成者,在工业上具有重大意义

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1370713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决在eclipse2021中,用mysql-connector-java-8.0.18.jar不兼容,导致无法访问数据库问题

1.环境场景 组件版本mysql5.7.44mysql-connector-java80.18 2. 问题描述 报mysql-connector-java 驱动连不上mysql数据库。 3. 可能的原因分析 查看数据库连接句柄是否对 如果数据库连接句柄中没有 useSSLfalse 的话可能会导致这样的问题。 就像下面这样: jdb…

认识Linux指令之 “more less” 命令

01.more命令 语法:more [选项][文件] 功能:more命令,功能类似 cat 常用选项: -n 对输出的所有行编号 q 退出more cat适合打开查看一些小文件 当遇到大文本文件的时候,使用more命令,more可以打满一屏…

GPT大模型在生物、地球、农业、气象、生态、环境科学可以应用?

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…

银河麒麟服务器系统安装KVM和创建KVM虚拟机

银河麒麟服务器系统安装KVM和创建KVM虚拟机 一 KVM概念二 安装KVM组件2.1 安装KVM前提2.2 KVM管理工具2.3 KVM安装2.3.1 安装kvm组件2.3.2 启动服务并设置开机自启 三 创建&管理虚拟机3.1 创建虚拟机3.2 安装过程3.2.1 选择安装方式3.2.2 选择安装ISO文件3.2.3选择内存和CP…

微信扫码进入小程序特定页面

小程序配置 开发 - 开发管理 - 开发设置-普通链接二维码打开小程序 配置好的截图 如下:二维码规则建议是自己的域名 /mini/ 功能页面 pages/index/index 是为了方便跳转其他页面 记得把校验文件发给后端 web 端处理 二维码格式为:二维码规则/功能页…

单调栈练习(二)— 柱状图中最大的矩形

题目: 这是一道LeetCode上的原题:链接地址 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 思路 因为是力扣原题,所…

怎样在Anaconda下安装pytorch(conda安装和pip安装)

前言 文字说明 本文中标红的,代表的是我认为比较重要的。 版本说明 python环境配置:jupyter的base环境下的python是3.10版本。CUDA配置是:CUDA11.6。目前pytorch官网提示支持的版本是3.7-3.9 本文主要用来记录自己在安装pytorch中出现的问…

@DependsOn:解析 Spring 中的依赖关系之艺术

欢迎来到我的博客,代码的世界里,每一行都是一个故事 DependsOn:解析 Spring 中的依赖关系之艺术 前言简介基础用法高级用法在 XML 配置中使用 DependsOn通过 Java Config 配置实现依赖管理 生命周期与初始化顺序Bean 生命周期的关键阶段&…

FPGA 高端项目:基于 SGMII 接口的 UDP 协议栈,提供2套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐我这里已有的以太网方案本协议栈的 1G-UDP版本本协议栈的 10G-UDP版本本协议栈的 25G-UDP版本1G 千兆网 TCP-->服务器 方案1G 千兆网 TCP-->客户端 方案10G 万兆网 TCP-->服务器客户端 方案 3、该UDP协议栈性能4、详细设计方案设…

HTML5 article标签,<time>...</time>标签和pubdate属性的运用

1、<article>...</article>标签的运用 article标签代表文档、页面或应用程序中独立的、完整的、可以独自被外部引用的内容。它可以是一篇博客或报竟杂志中的文章、一篇论坛帖子、一段用户评论或一个独立的插件&#xff0c;或者其他任何独立的内容。把文章正文放在h…

奇偶大冒险(判断奇偶,逆序输出)

题目&#xff1a; 代码&#xff1a; #include <bits/stdc.h> using namespace std; int main(){int n;cin>>n;int i0;int c[100]{0}; //数组初始化 while(n!1) {if(n%21){ //判断奇数 c[i]n;n3*n1;i;}else if(n%20){ //判断偶数 c[i]n;nn…

flutter 打包安卓apk 常用配置

打包之前需要先不配置不然会报错 Execution failed for task ‘:app:mergeReleaseResources’. APP目录下的build.gradleaaptOptions.cruncherEnabled falseaaptOptions.useNewCruncher false如图 配置targetSdkVersion 、minSdkVersion 在android/app/src目录下的build.…

PINN物理信息网络 | 泊松方程的物理信息神经网络PINN解法

基本介绍 泊松方程是一种常见的偏微分方程&#xff0c;它在物理学和工程学中具有广泛的应用。它描述了在某个区域内的标量场的分布与该场在该区域边界上的值之间的关系。 物理信息神经网络&#xff08;PINN&#xff09;是一种结合了物理定律和神经网络的方法&#xff0c;用于…

6 - 数据备份与恢复|innobackupex

数据备份与恢复&#xff5c;innobackupex 数据备份与恢复数据备份相关概念物理备份与恢复逻辑备份&#xff08;推荐&#xff09;使用binlog日志文件实现对数据的时时备份‘使用日志 恢复数据 innobackupex 对数据做备份和恢复增量备份与恢复 数据备份与恢复 数据备份相关概念 …

[uniapp] uni-ui+vue3.2小程序评论列表组件 回复评论 点赞和删除

先看效果 下载地址 uni-app官方插件市场: cc-comment组件 环境 基于vue3.2和uni-ui开发; 依赖版本参考如下: "dependencies": {"dcloudio/uni-mp-weixin": "3.0.0-3090820231124001","dcloudio/uni-ui": "^1.4.28","…

提升测试多样性,揭秘Pytest插件pytest-randomly

大家可能知道在Pytest测试生态中&#xff0c;插件扮演着不可或缺的角色&#xff0c;为开发者提供了丰富的功能和工具。其中&#xff0c;pytest-randomly 插件以其能够引入随机性的特性而备受欢迎。本文将深入探讨 pytest-randomly 插件的应用&#xff0c;以及如何通过引入随机性…

Ubuntu设置国内镜像源

文章目录 环境背景方法1&#xff1a;使用清华大学镜像源使用HTTP方式使用HTTPS方式 方法2&#xff1a;使用阿里云镜像源总结参考 环境 RHEL 9.3Docker Community 24.0.7ubuntu:latest Docker image (jammy 22.04) 背景 启动Ubuntu容器&#xff1a; docker run -it ubuntu在…

2024,给管理者的三点建议

2024年&#xff0c;随着市场变化日新月异&#xff0c;各行各业竞争愈演愈烈&#xff0c;很多企业越发注重内部管理工作&#xff0c;管理者面临压力是必然的。在这样的情境下&#xff0c;作为管理者&#xff0c;应该怎么办呢&#xff1f;华恒智信根据多年的管理咨询服务经验&…

【2024系统架构设计】 系统架构设计师第二版-通信系统架构设计理论与实践

目录 一 通信系统网络架构 二 网络构建的关键技术 三 网络构建和设计方法 四 案例分析 注:本节内容可作为知识储备,做一个基本的了解即可。