YOLO X 改进详解

news2025/1/21 9:28:47

YOLO X

主要改进:

  1. Anchor-Free: FCOS
  2. Decoupled detection head
  3. Advanced label assigning strategy

Network structure improvement

Decoupled detection head

对比于YOLO V5, YOLO X 在detection head上有了改进。YOLO V5中,检测头是通过卷积同时预测分类以及定位任务,即通过同一个卷积来处理。
在这里插入图片描述

YOLO X 则使用了解耦的检测头,即,分类,定位,置信度预测由不同的卷积层来处理。同时,YOLO X 是anchor free的检测器,因此对于定位的输出仅仅只有4个参数,这个区别于YOLO V5 anchor-based 检测,每个cell 是基于3个anchor进行定位预测。YOLO X的三个检测头的权重不共享。文中实验表明,采用解耦的检测头,网络更容易收敛且准确率有了一定的提高。
在这里插入图片描述

Anchor-free

对于定位模型预测4个数 ( t x , t y , t w , t h ) (t_x, t_y, t_w, t_h) (tx,ty,tw,th). 因为是anchor-free,所以对于预测框的高度和宽度区别于YOLO V5基于anchor的缩放,在YOLO X中则是直接输出预测框的高和宽。
在这里插入图片描述

Loss Function

Loss function 包括三个部分,Class loss function, Region loss function, IoU loss function (置信度). 其中 class loss function 和 region class function 只计算正样本的损失。

L O S S = L c l s + λ L r e g + L o b j N p o s LOSS = \frac{L_{cls} + \lambda L_{reg} + L_{obj}}{N_{pos}} LOSS=NposLcls+λLreg+Lobj
其中 N p o s N_{pos} Npos表示这个feature map中被分为正样本的个数。 λ \lambda λ 是平衡系数,代码中给出的是5.0.

正负样本匹配 (SimOTA)

SimOTA 将匹配正负样本的过程看作最优传输的过程。通过cost function来筛选正样本。预测样本和GT之间的cost计算如下:
C i j = L i j c l s + λ L i j r e g C_{ij} = L^{cls}_{ij} + \lambda L^{reg}_{ij} Cij=Lijcls+λLijreg

  1. 初筛
    在计算cost之前,会对样本进行一次初步的筛选,得到正样本的候选区域。正样本的候选区域是以GT中心点围成的 5×5 的区域。

在这里插入图片描述

对于这个条件,在代码中也体现在cost function中,因此代码实现中的cost function如下,
C i j = L i j c l s + λ L i j r e g + γ ( n o t _ i n _ G T b o x _ a n d _ c e n t e r _ a r e a ) C_{ij} = L^{cls}_{ij} + \lambda L^{reg}_{ij} + \gamma (not\_in\_GTbox\_and\_center\_area) Cij=Lijcls+λLijreg+γ(not_in_GTbox_and_center_area)
代码中的, λ , γ \lambda, \gamma λ,γ 分别为3,100000。对于不在GT box以及候选框内的预测点给予一个很大的cost.

  1. 获取n_candidate_k,这个值是在10和预选框候选数中取最小
    n _ c a n d i a t e _ k = m i n ( 10 , i n _ B o x _ n u m ) n\_candiate\_k=min(10, in\_Box\_num) n_candiate_k=min(10,in_Box_num)
  2. 计算预选的正样本与当前gtbox的IoU. 按从大到小的顺序排列选择前 n _ c a n d i a t e _ k n\_candiate\_k n_candiate_k 个预选框的IoU值作为 t o p k _ i o u s topk\_ious topk_ious
  3. 通过IoU值计算dynamic_ks,这是一个动态的预选框选择,不同的GT这个值是不一样的。
    d y n a m i c _ k s = t o r c h . c l a m p ( t o p k _ i o u s . s u m ( 1 ) . i n t ( ) , m i n = 1 ) dynamic\_ks = torch.clamp(topk\_ious.sum(1).int(), min=1) dynamic_ks=torch.clamp(topk_ious.sum(1).int(),min=1)
  4. 计算预选正样本的cost,并从小到大进行排序,选择 t o p   d y n a m i c _ k s top \ dynamic\_ks top dynamic_ks 个样本作为正样本。
  5. 如果同一个预选正样本分配给了不同的GT,则选择最小cost的那一个,其他的忽略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/47531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS2--概述

ROS2概述1 ROS2对比ROS12 ROS2 通信3 核心概念4 ros2 安装5 话题、服务、动作6 参数参考1 ROS2对比ROS1 多机器人系统:未来机器人一定不会是独立的个体,机器人和机器人之间也需要通信和协作,ROS2为多机器人系统的应用提供了标准方法和通信机…

时间序列:时间序列模型---自回归过程(AutoRegressive Process)

本文是Quantitative Methods and Analysis: Pairs Trading此书的读书笔记。 这次我们构造一个由无限的白噪声实现(white noise realization) 组成的时间序列,即。这个由无限数目的项组成的值却是一个有限的值,比如时刻的值为, 而…

基于PHP+MySQL校园餐饮配送系统的设计与实现

随着我国国民经济的稳步发展,我国的大学生也越来越多,但是大部分学生都是没有时间和环境去自己做饭的,有很多也不会做,而很多食堂的菜品有难以下咽,所以很多人就采取了订餐的方式来进行购买美食,但是现在很多网站都是只能进行点餐,而没有智能推荐功能,本系统在原来的外卖基础上…

【Linux】文件系统

目录🌈前言🌷1、磁盘的组成🍡1.1、磁盘的物理结构🍢1.2、磁盘的存储结构🍣1.3、磁盘的逻辑结构🌸2、文件系统🍤2.1、文件系统的结构🍥2.2、inode如何与数据块建立联系🍦2…

2021年全国研究生数学建模竞赛华为杯C题帕金森病的脑深部电刺激治疗建模研究求解全过程文档及程序

2021年全国研究生数学建模竞赛华为杯 C题 帕金森病的脑深部电刺激治疗建模研究 原题再现: 一、背景介绍   帕金森病是一种常见的神经退行性疾病,临床表现的特征是静止性震颤,肌强直,运动迟缓,姿势步态障碍等运动症…

R语言生存分析可视化分析

生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。 生存分析被用于各种领域,例如: 癌症研究为患者生存时间分析, “事件历史分析”的社会学 在工程的“故障时间分析”。 在癌症研究中,典型的研究问题如下…

Java中如何处理时间--Date类

文章目录0 写在前面1 介绍Date类2 构造方法举例2.1 Date()2.2 Date(long date)3 Date类中常用方法4 写在最后0 写在前面 在实际业务中,总会碰到关于时间的问题,例如收集当年的第一季度的数据。第一季度也就是当年的一月一日到三月三十一日。如何处理时间…

使用markdown画流程图、时序图等

概述 能表示的图类型还有很多,比如: sequenceDiagram时序图 classDiagram类图 stateDiagram:状态图 erDiagram:ER图 gantt: 甘特图 pie:饼图 requirementDiagram: 需求图 流程图 流程图代码以「graph 《布局…

【毕业设计】12-基于单片机的电子体温计(原理图工程+源码工程+仿真工程+答辩论文)

【毕业设计】12-基于单片机的电子体温计(原理图工程源码工程仿真工程答辩论文) 文章目录【毕业设计】12-基于单片机的电子体温计(原理图工程源码工程仿真工程答辩论文)任务书设计说明书摘要设计框架架构设计说明书及设计文件源码展…

Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM

Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM 1 INTRODUCTION 在这篇文章中展示了 如何将 tensor ,pipeline, data 并行组合,扩展到数千个GPU上。 提出了一个新的交错流水线调度,可以提升1…

卷积神经网络的工程技巧总结

参考 卷积神经网络的工程技巧(tricks) - 云社区 - 腾讯云 要成功地使用深度学习算法,仅仅知道存在哪些算法和解释它们为何有效的原理是不够的。一个优秀的机器学习实践者还需知道如何针对具体应用挑选一个合适的算法以及如何监控,并根据实验反馈改进机器…

基于 Hive 的 Flutter 文档类型存储

基于 Hive 的 Flutter 文档类型存储 原文 https://medium.com/gytworkz/document-type-storage-in-flutter-using-hive-a18ea9659d84 前言 长久以来,我们一直使用共享首选项以键对格式在本地存储中存储数据,或者使用 SQLite 在 SQL 数据库中存储数据。 存…

JSP | JSP原理深度剖析、基础语法

目录 一:分析使用纯粹Servlet开发web应用的缺陷 二:JSP原理深度剖析 三:JSP的基础语法 一:分析使用纯粹Servlet开发web应用的缺陷 (1)在Servlet当中编写HTML/CSS/JavaScript等前端代码存在什么问题&…

基于ATX自动化测试解决方案

在整车开发中,诊断功能实现后需要进行测试验证。测试验证主要分为两个方面:诊断协议层测试和诊断功能测试。诊断协议层测试:需要对服务层服务定义、传输层相关时间参数进行测试验证;诊断功能测试:需要对各诊断功能项&a…

国产操作系统之银河麒麟服务器版V10安装

一、银河麒麟操作系统简介 银河麒麟是目前国内国产化操作系统主流产品之一。银河麒麟高级服务器操作系统V10是针对企业级关键业务,适应虚拟化、云计算、大数据、工业互联网时代对主机系统可靠性、安全性、性能、扩展性和实时性等需求,依据CMMI5级标准研制…

Java中的引用

Java中的引用强引用软引用弱引用虚引用终结器引用(FinalReference)JDK 1.2版本之后,Java对引用的概念进行了扩充,将引用分为强引用(Strongly Reference)、软引用(Soft Reference)、弱引用&#…

时间序列:时间序列模型---移动平均过程(Moving Average Process)

本文是Quantitative Methods and Analysis: Pairs Trading此书的读书笔记。 我们从白噪声生成另一种时间序列。如下式: 这种时间序列的值由此刻的白噪声实现(white noise realization)加上beta倍的前一刻的白噪声实现。注意这个beta跟CAPM模型的beta没有…

Linux redict 输入输出重定向 详细使用方法 文件描述符

Linux redict 重定向 Linux 重定向 在 Linux 系统中,我们需要输入和输出让系统与外部进行交互,比如在我们使用鼠标、键盘等输入设备时其实就是通过输入的方式让数据进行系统中。而系统输出一般就会打印在显示器上、刻录光盘等等。而我们要讲的重定向也…