深度学习(24)——YOLO系列(3)

news2024/12/31 5:13:41

深度学习(24)——YOLO系列(3)

文章目录

  • 深度学习(24)——YOLO系列(3)
    • 1. BOF(bag of freebies)
    • 2. Mosaic data augmentation
    • 3. 数据增强
    • 4. self-adversarial-training(SAT)
    • 5. dropblock
    • 6. label smoothing
    • 7. 损失函数
      • a. IOU损失
      • b.GIOU
      • c. DIOU
      • d.CIOU
    • 8. SPPNet(spatial pyramid pooling)
    • 9. CSPNet(cross stage partial network)【更快】
    • 10.CBAM & SAM
    • 11.YOLO中的attention链接机制
    • 12. PAN
    • 13. PAN的连接方式
    • 14. 激活函数
    • 15. 网络结构
    • 16.优点

今天YOLOv4理论版

1. BOF(bag of freebies)

  • 只增强训练成本,但是能显著提高精度,但是不影响推理速度
  • 数据增强:调整亮度,对比度,色调,随机缩放…
  • 网络正则化的方法:dropout,dropblock
  • 类别不平衡——>损失函数设计

2. Mosaic data augmentation

  • 参考cutmix,以前就存在,将增强的四张图像拼接在一张进行训练(相当于间接增加batch)
    在这里插入图片描述

3. 数据增强

  • random erase:随机遮挡或擦除
  • hide and seek:根据概率随机隐藏补丁

4. self-adversarial-training(SAT)

  • 在原始图像中增加噪音点干扰
    在这里插入图片描述

5. dropblock

dropout是随机选择一些点遮住(游戏难度增加不大),dropblock现在遮住一个区域(游戏难度增大)
在这里插入图片描述

6. label smoothing

  • 神经网络最大的缺点,标签绝对,容易过拟合
  • 使用之后,簇内更紧密,簇间更分离

7. 损失函数

a. IOU损失

  • 相同的IOU却反映不出实际情况到底是怎么样的
  • 当交集为0时,没有梯度无法计算(梯度消失)

b.GIOU

在这里插入图片描述

  • 引入最小封闭框C(C可以把A,B包含在内)
  • 在不重叠的情况下可以使预测框尽可能靠近真实框
  • 解决了梯度下降的问题,但是重叠的时候失灵

c. DIOU

在这里插入图片描述

  • 附加项的分子项:预测框与真实框中心点的欧氏距离
  • 附加项的分母项:最小封闭框的对角线长度C
  • 直接优化距离,速度更快,并解决GIOU

d.CIOU

在这里插入图片描述

  • 考虑三个几何因素:

    • 重叠面积
    • 中心点距离
    • 长宽比(v)

8. SPPNet(spatial pyramid pooling)

  • 为了更好满足不同输入大小,训练的时候要改变输入数据的大小
  • SPP其实就是用最大池化来满足最终输入特征一致即可

9. CSPNet(cross stage partial network)【更快】

在这里插入图片描述

  • 每个block 按照特征图的channel维度拆分成两部分
  • 一份正常走网络,另一份直接concat到这个block的输出

10.CBAM & SAM

在这里插入图片描述
在这里插入图片描述

  • 计算量太大!所以在V4中,引入SAM ,没有channel之间的attention,只有spatial空间attention(attention可以让模型更好学习特征)

11.YOLO中的attention链接机制

在这里插入图片描述

12. PAN

  • FPN是自顶向下的模式,将高层特征传下来,高层逐层向下兼容下层(单向)
  • 缺少底层到高层,PAN登场
  • 引入自底向上的路径,使得底层信息更容易传到顶部
  • 还是一个捷径,红色的可能要走100+层,绿色只需要几层就OK
    在这里插入图片描述

13. PAN的连接方式

在这里插入图片描述

14. 激活函数

在这里插入图片描述

15. 网络结构

在这里插入图片描述

16.优点

  • 使用单个GPU就可以训练很好
  • 量大核心方法:数据层面+网络层面
  • 消融实验
  • 速度快,性能高!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/672811.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出MySQL索引

索引 索引在MySQL中是举足轻重的。在添加索引后,我们在MySQL的查询上会极大的提高我们的查询效率,这也是慢查询解决办法之一。 数据结构 最初的时候MySQL中是采用二叉树进行插入数据的,这样的缺点很明显,就是树太高了&#xff…

C++QT入门

CQT 文章目录 CQT1. QT概述1.1 什么是QT1.2 QT的发展史1.3 支持的平台1.4 QT版本1.5 Qt 的下载与安装1.6 QT的优点1.7 成功案例 2. 创建QT项目2.1 使用向导创建2.2 手动创建2.3 .pro 文件2.4 设置父对象2.5 按钮设置属性2.5.1 按钮设置文本2.5.2 设置移动2.5.3 设置固定大小 2.…

[进阶]网络通信:UDP通信,一发一收、多发多收

UDP通信 特点:无连接、不可靠通信。不事先建立连接;发送端每次把要发送的数据(限制在64KB内)、接收端1P、等信息封装成一个数据包,发出去就不管了。Java提供了一个java.net.Datagramsocket类来实现UDP通信。 Datagram…

Qt/C++使用QUiLoader动态加载ui资源文件

目录 动态对话框使用场景注意事项动态对话框加载获取动态对话框的控件对象与动态对话框建立关联动态修改ui资源文件效果测试 动态对话框 动态对话框(dynamic dialog)就是在程序运行时使用的从Qt设计师的.ui文件创建而来的那些对话框。动态对话框不需要通过uic把 .ui文件转换成…

【ARM裸机编程 | 海思SS528】- 操作 GPIO 寄存器输出低电平点亮 LED 灯

目录 一、概述二、看原理图,找LED灯的GPIO管脚三、使能 GPIO 管脚功能四、配置 GPIO 管脚为输出五、设置 GPIO 管脚输出高、低电平 一、概述 这篇文章主要介绍在 海思SS528 开发板,去操作某个 GPIO 寄存器输出高、低电平,来熄灭或点亮 LED 灯…

Spring框架中,什么是控制反转?什么是依赖注入?使用控制反转与依赖注入有什么优点

目录 一、Spring 二、控制反转 三、依赖注入 四、控制反转与依赖注入有什么优点 一、Spring Spring框架是一款开源的Java应用程序框架,它为企业级Java应用提供了全面的基础设施支持和编程模型。通过Spring框架,开发人员可以快速地搭建出高效、可维护…

C++【红黑树】

✨个人主页: 北 海 🎉所属专栏: C修行之路 🎃操作环境: Visual Studio 2019 版本 16.11.17 文章目录 🌇前言🏙️正文1、认识红黑树1.1、红黑树的定义1.2、红黑树的性质1.3、红黑树的特点 2、红黑…

chatgpt赋能python:Python中是否有局部变量?-完全解析

Python 中是否有局部变量?- 完全解析 Python 是一种高级编程语言,它因其易学、可读性强、开发速度快、功能丰富、能够快速交互、具有跨平台特性等方面而备受欢迎。其中一块关键功能是变量,变量可以存储值,以供稍后使用&#xff0…

[保姆级啰嗦教程] Tesseract OCR 5在Windows 10下编译安装及测试 (亲测成功)

作为一个优秀的文字识别(OCR)库,Tesseract最早并非开源软件,它是HP实验室在1985-1994年开发的专属软件,直到2005年,HP及内华达大学拉斯维加斯分校以开源的形式发布,然后由Google从2006年开始赞助…

[SpringBoot 分布式调度elasticjob 整合 ]

目录 🥫前言: 🥫配置作业 🥫实现任务处理类 🥫启动SpringBoot应用程序 🥬下面是代码是我另一个文章看见 记录的笔记, 我前面也使用了elastic-job做重试机制,有兴趣可以看一下 🥬依赖: 🥬…

基于MATLAB的CFAR检测仿真程序分享

基于MATLAB的CFAR检测仿真,得到平均CFAR检测。 完整程序: clc; clear; close all; warning off; addpath(genpath(pwd)); cfar phased.CFARDetector(NumTrainingCells,200,NumGuardCells,50,Method,CA); % Expected probability of False Alarm (no u…

【瑞萨RA_FSP】CTSU——电容按键检测

文章目录 一、1. 电容按键介绍二、电容按键原理三、瑞萨QE在电容按键上面的运用四、电容按键实验1. 硬件设计2. FSP配置3.复制文件4.主函数 一、1. 电容按键介绍 电容式感应触摸按键可以穿透绝缘材料外壳 8mm (玻璃、塑料等等)以上,准确无误…

OpenStack(2)--项目(租户)、用户、角色

一、项目(租户)、用户、角色的关系 重点理解项目(project/租户)、用户(user)、角色(role)三者之间的关系,首先这三者都可以单独新建,但是绑定关系是通过open…

10 分钟玩转Elastcisearch——数据可视化分析

在当今这个快速发展的科技时代,Elasticsearch 已经成为企业和开发者的重要技术工具。随着数据的爆发式增长,Elasticsearch 可以帮助个人和企业更好的理解数据、发现数据中的规律趋势和模式、并从海量数据中洞察业务价值。 为了帮助开发者能够快速上手&am…

基于SpringBoot的电子文档管理系统(源码、文档、数据库)

网上文件管理系统所用的资料库是由 SpringBoot架构所建立的 Mysql资料库。在进行设计的时候,要充分地保证了系统代码拥有良好的可读性、实用性、易扩展性、通用性、便于后期维护、操作容易、页面简洁等优势。 一、开发工具及技术介绍 (1).J…

JavaScript Day03 对象详解

文章目录 1. 什么是对象?2.对象的创建2.1 字面量模式2.2 构造函数模式 3 对象的访问4.新增删除对象中的属性5.Object显示类型转换(强制类型转换)5.1-ECMAScript中可用的3种强制类型转换如下:-Boolean(value)-String(value)-Number(value) 5.2-Object类型到Boolean类…

chatgpt赋能python:Python中的模块查找位置详解

Python中的模块查找位置详解 作为一门广受欢迎的高级编程语言,Python 拥有丰富的库和模块,这些工具让开发者能够更加高效地编写代码。但是,有时候当你在使用 Python 模块时,你可能会遇到找不到模块或者无法导入模块的错误。这时候…

【从零开始学习JAVA | 第四篇】标准的JavaBean类的构建

目录 前言: 构造方法: 构造标准JavaBean类: 对象内存图: 前言: 本片会详细的介绍JAVA中JavaBean类的手动构建,IDEA为我们提供的快捷键生成JAVA bean的方式,以及介绍一个可以快速生成…

OTT 的快速频道切换(FCC)

FCC(Fast Channel Change)快速频道切换是一种由FCC服务器下发特制的以I帧为起始的单播节目流来提升频道切换时间的方法, 通过在网络中部署FCC服务,可以回避等待I帧时间与IGMP交互时间,提升I帧传输时间,从而提高频道切换…

chatgpt赋能python:Python构造和析构:介绍和实例

Python 构造和析构:介绍和实例 当你编写 Python 程序时,你可能会注意到一个名为构造函数和析构函数的概念。这些函数可以在创建和删除一个对象时自动执行一些操作。本文将深入介绍 Python 中的构造和析构概念。 构造函数 Python 使用一种名为 __init_…