深度学习(22)——YOLO系列(3)

news2024/11/16 3:38:15

深度学习(22)——YOLO系列(3)

文章目录

  • 深度学习(22)——YOLO系列(3)
    • 1. BOF(bag of freebies)
    • 2. Mosaic data augmentation
    • 3. 数据增强
    • 4. self-adversarial-training(SAT)
    • 5. dropblock
    • 6. label smoothing
    • 7. 损失函数
      • a. IOU损失
      • b.GIOU
      • c. DIOU
      • d.CIOU
    • 8. SPPNet(spatial pyramid pooling)
    • 9. CSPNet(cross stage partial network)【更快】
    • 10.CBAM & SAM
    • 11.YOLO中的attention链接机制
    • 12. PAN
    • 13. PAN的连接方式
    • 14. 激活函数
    • 15. 网络结构
    • 16.优点

今天YOLOv4理论版

1. BOF(bag of freebies)

  • 只增强训练成本,但是能显著提高精度,但是不影响推理速度
  • 数据增强:调整亮度,对比度,色调,随机缩放…
  • 网络正则化的方法:dropout,dropblock
  • 类别不平衡——>损失函数设计

2. Mosaic data augmentation

  • 参考cutmix,以前就存在,将增强的四张图像拼接在一张进行训练(相当于间接增加batch)
    在这里插入图片描述

3. 数据增强

  • random erase:随机遮挡或擦除
  • hide and seek:根据概率随机隐藏补丁

4. self-adversarial-training(SAT)

  • 在原始图像中增加噪音点干扰
    在这里插入图片描述

5. dropblock

dropout是随机选择一些点遮住(游戏难度增加不大),dropblock现在遮住一个区域(游戏难度增大)
在这里插入图片描述

6. label smoothing

  • 神经网络最大的缺点,标签绝对,容易过拟合
  • 使用之后,簇内更紧密,簇间更分离

7. 损失函数

a. IOU损失

  • 相同的IOU却反映不出实际情况到底是怎么样的
  • 当交集为0时,没有梯度无法计算(梯度消失)

b.GIOU

在这里插入图片描述

  • 引入最小封闭框C(C可以把A,B包含在内)
  • 在不重叠的情况下可以使预测框尽可能靠近真实框
  • 解决了梯度下降的问题,但是重叠的时候失灵

c. DIOU

在这里插入图片描述

  • 附加项的分子项:预测框与真实框中心点的欧氏距离
  • 附加项的分母项:最小封闭框的对角线长度C
  • 直接优化距离,速度更快,并解决GIOU

d.CIOU

在这里插入图片描述

  • 考虑三个几何因素:

    • 重叠面积
    • 中心点距离
    • 长宽比(v)

8. SPPNet(spatial pyramid pooling)

  • 为了更好满足不同输入大小,训练的时候要改变输入数据的大小
  • SPP其实就是用最大池化来满足最终输入特征一致即可

9. CSPNet(cross stage partial network)【更快】

在这里插入图片描述

  • 每个block 按照特征图的channel维度拆分成两部分
  • 一份正常走网络,另一份直接concat到这个block的输出

10.CBAM & SAM

在这里插入图片描述
在这里插入图片描述

  • 计算量太大!所以在V4中,引入SAM ,没有channel之间的attention,只有spatial空间attention(attention可以让模型更好学习特征)

11.YOLO中的attention链接机制

在这里插入图片描述

12. PAN

  • FPN是自顶向下的模式,将高层特征传下来,高层逐层向下兼容下层(单向)
  • 缺少底层到高层,PAN登场
  • 引入自底向上的路径,使得底层信息更容易传到顶部
  • 还是一个捷径,红色的可能要走100+层,绿色只需要几层就OK
    在这里插入图片描述

13. PAN的连接方式

在这里插入图片描述

14. 激活函数

在这里插入图片描述

15. 网络结构

在这里插入图片描述

16.优点

  • 使用单个GPU就可以训练很好
  • 量大核心方法:数据层面+网络层面
  • 消融实验
  • 速度快,性能高!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/658891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LwIP系列(2):动态内存池管理(memp.c)详细分析

前言 我们在学习Lwip源码时,内存管理是绕不开的一个重点,我们在看相关的代码时,经常会看到memp_malloc 和 mem_malloc, 其中: (1)memp_malloc是从内存池中申请内存,具体实现在memp.c memp.h。…

木马攻击与防护

目录 一、初识Trojan木马 1.1 木马概念 1.2 木马特点 1.2.1 欺骗性 1.2.2 隐蔽性 1.2.3 非授权性 1.3 病毒和木马 1.3.1 病毒的特点 1.3.2 病毒的主要目的 1.3.3 病毒例子 1.3.4 木马程序企图 1.3.5 木马危害 1.3.6 病毒与木马的区别 1.4 木马种类 1.4.1 远程访…

机器学习之KNN算法:基于pytorch在MNIST数据集上实现数据分类预测

1 KNN算法介绍 KNN算法又叫做K近邻算法,是众多机器学习算法里面最基础入门的算法。KNN算法是最简单的分类算法之一,同时,它也是最常用的分类算法之一。KNN算法是有监督学习中的分类算法,它看起来和Kmeans相似(Kmeans是…

CMake中的find_package(xxx REQUIRED)在windows平台怎么解

最近在编译FastDDS时,遇到了这个问题,使用CMake构建时提示找不到库。 下载的源代码不能一次性编过是最让人头疼的问题,这种开源代码通常都是迭代了很多版本,各种配置信息如果不在文档中说明,全靠自己去摸索确实会让人头…

idea运行java项目提示异常: java.security.InvalidKeyException: Illegal key size

idea运行java项目提示异常:java.lang.IllegalArgumentException: java.security.InvalidKeyException: Illegal key size 参考:java.security.InvalidKeyException: Illegal key size_gqltt的博客-CSDN博客 产生错误原因:为了数据代码在传输过…

4、做什么类型的产品经理

1、如何选择适合自己的产品经理岗位 怎么选择适合自己的这个产品经理岗位呢?建议大家是先考虑行业,再考虑其他的。 考虑行业就是说我要做什么行业的产品经理,然后再考虑在这个行业里面具体的你要做前端还是后端或者是APP端,还是web端&#x…

【MySQL】不就是MySQL——索引

前言 嗨!小伙伴们周末快乐呀!想必你们周末都在家里边呆着吧,外面实在是太热了!在家里吹着空调做着自己喜欢做的事情吧!本期我们主要学习的是MySQL中的约束条件。 目录 前言 索引概述 外键约束 1.概念 2.语法 1.添加…

【HTML界面设计(二)】说说模块、登录界面

记录很早之前写的前端界面(具体时间有点久远) 一、说说模板 采用 适配器(Adapter)原理 来设计这款说说模板,首先看一下完整效果 这是demo样图,需要通过业务需求进行修改的部分 这一部分,就是dem…

ch8_2_CPU的指令周期,流水线技术

1.  指令周期 指令周期是指_ CPU从主存取出一条指令, 分析指令,加上执行这条指令的时间。 1.1指令周期 指令周期: 是指cpu,从内存中取出指令,并且执行一条指令所需要的全部时间。 比如 从内存单元中,取出操作数&…

【使用Neo4j进行图数据可视化】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

“面试造火箭,入职拧螺丝”2023最新最全的Java开发八股文合集来了

前言 金三银四招聘旺季马上就到了,不知道大家是否准备好了,面对金三银四的招聘旺季,如果没有精心准备那笔者认为那是对自己不负责任;就我们 Java 程序员来说,多数的公司总体上面试都是以自我介绍项目介绍项目细节/难点…

Java016——Java输入输出语句

一、输出语句 Java常用的输出语句有三种: 1)System.out.println(); 换行输出,输出后会自动换行。 //示例 System.out.println("Hello"); System.out.println("World");//输出 Hello World2)System.out.pri…

LIN-物理层(收发器)

文章目录 一、显性和隐性二、LIN的供电电压说明三、LIN通道数3.1 单通道3.2 双通道3.3 四通道 一、显性和隐性 LIN总线协议规定其物理层收发器的显性(Dominant , 逻辑 “ 0”,电气特性为GND(0V))和隐性电平(Recessive , 逻辑 “ …

cgi接口原理(boa服务器)

CGI:通用网关接口(Common Gateway Interface)是一个Web服务器主机提供信息服务的标准接口。通过CGI接口,Web服务器就能够获取客户端提交的信息,转交给服务器端的CGI程序进行处理,最后返回结果给客户端。 b…

字符串概述

字符串 一、API二、字符串2.1字符串的构造方法2.2 字符串构造时的内存2.2.1 直接赋值时的内存模型2.2.2 由new创建时的内存模型 2.3 字符串的比较三、StringBuilder 一、API 目前已学过的两个API:Random和Scanner。 对记不清的API可以去JDK-API帮助文档进行查找。 …

基于matlab对现代相控阵系统中常用的子阵列进行建模分析

一、前言 本示例说明如何使用相控阵系统工具箱对现代相控阵系统中常用的子阵列进行建模并进行分析。 相控阵天线与传统碟形天线相比具有许多优势。相控阵天线的元件更容易制造;整个系统受组件故障的影响较小;最重要的是,可以向不同方向进行电子扫描。 但是&#xff…

分布式系统学习第一天 fastDFS框架学习

目录 1. 项目架构图 1.1 一些概念 1.2 项目架构图 2. 分布式文件系统 2.1 传统文件系统 3. FastDFS 3.1 fastDFS介绍 3.2 fastDFS安装 3.3 fastDFS配置文件 3.4 fastDFS的启动 3.5 对file_id的解释 4. 上传下载代码实现 5. 源码安装 - 回顾 1. 项目架构图 1.1 一…

JDK8-2-流(2)- 流操作

JDK8-2-流(2)- 流操作 上篇 JDK8-2-流(1)-简介 中简单介绍了什么是流以及使用流的好处,本篇主要介绍流的操作类型以及如何操作。 如何返回一个流 ① collection.stream 即调用集合 java.util.Collection 下的 stre…

大学生如何申请一台免费服务器?

大学生如何申请一台免费服务器?阿里云学生服务器免费申请:高效计划,可以免费领取一台阿里云服务器,如果你是一名高校学生,想搭建一个linux学习环境、git代码托管服务器,或者创建个人博客网站记录自己的学习…

【小米技术分享】MySQL:一条数据的存储之旅

大家好,我是你们的小米,一个热爱技术分享的活泼小伙伴!今天,我来给大家揭开一个神秘的面纱,带你们深入了解一下MySQL数据库是如何保存一条数据的。 客户端 首先,让我们从客户端(Client&#x…