深度学习(22)——YOLO系列

news2025/1/13 17:31:15

深度学习(22)——YOLO系列

文章目录

  • 深度学习(22)——YOLO系列
    • 1. 物体检测方法的两种类型
    • 2. YOLO-v1
      • 2.1 网络结构
      • 2.2 loss 函数
      • 2.3 NMS(非极大值抑制)
      • 2. 4 优缺点
    • 3. YOLO v2
      • 3. 1 相较于v1改进点
      • 3. 2 网络结构
      • 3.3 感受野
      • 3.4 特征融合的方法
      • 3.5 夸夸v2
    • 4. YOLO v3
      • 4. 1 在v2的基础上的改进
      • 4.2 网络结构
      • 4.3 anchor设计
      • 4.4 softmax 改进

最近在看物体检测方面的东西,第一个一定是YOLO系列,所以最近的两到三个博客会展开记录自己的学习过程。

1. 物体检测方法的两种类型

  • two-stage

    • RCNN
    • FastRCNN
  • one-stage

    • YOLO

2. YOLO-v1

为什么YOLO的使用面广?快!没别的!
YOLOv1是第一个版本的YOLO算法,它将目标检测问题转化为一个回归问题。具体来说,YOLOv1使用了一个单一的CNN网络,在输入图像上进行多尺度的滑动窗口操作,然后通过回归预测每个窗口内是否存在目标以及其边界框的位置和大小。但是,YOLOv1存在两个主要问题:定位不准确和对小目标不敏感。

2.1 网络结构

  • 虽然卷积对输入没有要求,但是因为有全连接层,所有要确定全连接层前面特征图的大小,所以YOLO的输入图片大小固定
  • 卷积得到特征图——>全连接——>7730 (5【4个偏移+1个置信度】+5+20类别)

举例

如果有两个候选框,20个类别
在这里插入图片描述


2.2 loss 函数

  • 位置误差——MSE

  • 置信度误差(背景多,加权重削弱背景重要性)——BCE

    • 含object(前景)
    • 不含object(背景,有权重)
  • 分类误差——BCE

2.3 NMS(非极大值抑制)

按照置信度进行排序,IOU满足一定值时,取出极大值即可

2. 4 优缺点

  1. 优点

    • 网络结构简单
    • 快速简单
  2. 缺点

    • 一个点只有一个类别,重合的物体很难检测到
    • 小物体检测不到
    • 多标签难做

3. YOLO v2

3. 1 相较于v1改进点

  • 采用Darknet-19作为特征提取网络,增加网络的深度和感受野
  • 舍弃dropout,卷积以后全部加入BN(batch normalization)
  • 网络每一层的输入都归一化,收敛相对容易(现在非常主流的一种方法)
  • V2分辨率更大,训练使用224224,测试使用448448,V2训练时额外进行了10次448*448做微调
  • 聚类提取先验框
    • V1只有两种先验框
    • faster-rcnn中的先验比例比较常规,但是不一定完全适合数据集(不同scale,每个scale有几个不同大小的框)
    • 在CoCo中有很多label的框,对这些框做K-means聚类(聚类过程中发现cluster越多越精准,但是没必要,5个的时候效果已经存在)
    • 感受野更大

3. 2 网络结构

  • 没有全连接层(全连接层容易过拟合,参数多训练慢)
  • 5次下采样
  • 一般输入(416416)要是2的倍数(下采样),最终希望是奇数(1313),奇数只有一个中心点,偶数存在四个中心点
  • 使用很多1*1卷积:只改变特征图个数
  • 小卷积核,参数量少,感受野大

3.3 感受野

感受野:特征图上的点能看到原始图像多大区域

  • 浅层特征:纹理线条
  • 中间特征更高级
  • 网络最深层的特征往往是全局特征
  • 用多个小卷积核可以取代大的卷积核的同时还可以节省参数量
  • 越大的感受野,保留的特征是越大的,小目标会丢失 ,需要融合前面的特征

3.4 特征融合的方法

在这里插入图片描述

3.5 夸夸v2

  • 没有全连接层,无所谓输入图片的输入大小
  • 一般输入大小是32的倍数
  • 更快更强

4. YOLO v3

4. 1 在v2的基础上的改进

  • YOLOv3使用了更深的Darknet-53作为特征提取网络,增加了网络的层数,进一步提取图像特征。
  • YOLOv3引入了多尺度检测的概念,将输入图像划分为不同大小的网格,并在每个网格上进行目标检测,以便检测不同尺度的目标。
  • YOLOv3还采用了三个不同尺度的特征图来进行目标检测,分别用于检测大、中、小尺寸的目标。
  • YOLOv3对Anchor Boxes的使用进行了改进,通过K-means聚类算法自动确定合适的Anchor Box尺寸,进一步提高边界框的定位能力。
  • softmax做改进,可以预测多标签任务

4.2 网络结构

  • Darknet-53作为特征提取网络
  • 没有池化和全连接,全部是卷积(卷积省时省力)
  • 残差连接
    在这里插入图片描述
    在这里插入图片描述

4.3 anchor设计

  • v3中有9种常见规格的anchor,将大的先验框分配给1313的,因为他的特征更能顾虑到全局,中等大小的先验框给2626,小框给52*52得到的特征(不同大小感受野不同大小先验框)
    在这里插入图片描述

4.4 softmax 改进

  • v2检测到的物体只有一个标签,不能是多标签
  • softmax做改进,将其转换成多个二分类

今天先这样吧,明天出YOLO v3的代码。感觉两个好像不够,感觉需要3+

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/650907.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用无代码工具开发一款问卷调查小程序

目录 1 创建项目2 创建页面3 创建后台4 前端调用后端5 预览总结 自2017年小程序概念提出以来,越来越多的场景已经可以在小程序上实现。比如我们在线预约、点餐、查询各类信息、购物等等。小程序的特点是不需要预先按照应用程序,使用时打开,不…

dpdk21.11 添加igb_uio模块

文章目录 前言igb_uio模块下载链接编译编译方式1:make编译方式2:mesonninja1. 解压,复制 dpdk-kmods/linux/igb_uio/ 到 dpdk-stable-21.11.4/kernel/linux/ 目录下2. vi dpdk-stable-21.11.4/kernel/linux/meson.build 4创建文件 meson.buil…

大模型入门(五)—— 基于peft微调ChatGLM模型

ChatGLM 是基于 General Language Model (GLM) 架构,针对中文问答和对话进行了优化。经过中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术,ChatGLM因为是中文大模型,在中文任务的表现要优于LLaMa,我在一…

ARP协议,带你了解ARP协议

目录 一、ARP协议概述 二、使用ARP的四种情况 三、ARP缓存 四、ARP的工作原理 1. 地址解析 2. 地址缓存 五、ARP报文格式 1. ARP请求报文格式 2. ARP响应报文格式 六、免费ARP 七、代理ARP 一、ARP协议概述 ARP(Address Resolution Protocol)地…

1、产品经理的宏观定义

什么是产品经理?为了引出来定义,我们来看一段对话,这个对话方式中的场景就是小明上了一年班,回家过年了,那亲戚可能就会会问小明在外面是做什么的? 亲戚:小明,你在外面是做什么的啊&…

# SIG Mesh协议学习

SIG Mesh协议学习 1. 简介 Bluetooth SIG组织在2017年7月17日发布了蓝牙Mesh标准. 蓝牙Mesh不同于传统Bluetooth Low Energy(BLE)协议的1对1, 1对多的通信方式, 它实现了多对多的通信. 这使得mesh网络中的各个节点之间可以相互通信. 蓝牙Mesh协议建立在BLE的物理层和链路层之…

Spark大数据处理学习笔记(3.8.2) Spark RDD典型案例-利用RDD统计每日新增用户

该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/Twpwe】 文章目录 一、任务目标二、准备工作2.1 在本地创建用户文件2.2 将用户文件上传到HDFS指定位置 三、完成任务3.1 在Spark Shell里完成任务3.1.1 读取文件,得到RDD3.1.2 倒排&am…

大模型入门(一)—— LLaMa/Alpaca/Vicuna

LLaMa模型是Meta开源的大模型,模型参数从7B到65B不等,LLaMa-7B在大多数基准测试上超过了GPT3-173B,而LLaMa-65B和Chinchilla-70B、PaLM-540B相比也极具竞争力。相比于ChatGPT或者GPT4来说,LLaMa可能效果上还有差距,但相…

python3 爬虫相关学习10:RE 库/ regex /regular experssion)正则表达式学习

目录 1 关于:re / regex / regular expression 1.1 什么是正则表达式 1.2 在python中导入 re 1.3 查看regex相关信息 2 正则表达式的相关符号 2.1 行定位符 2.2 元字符 (注意是 反斜杠\) 2.3 限定符号 2.4 字符类,字符集合 需要 中括号[] 2.…

Site-to-Site VPN配置和调试实践:构建安全的远程网络连接

Site-to-Site VPN配置和调试实践:构建安全的远程网络连接 【实验目的】 理解Site to Site VPN的含义。掌握Site to Site VPN的含义。验证配置。 【实验拓扑】 实验拓扑如下图所示。 实验拓扑 设备参数表如下表所示。 设备参数表 设备 接口 IP地址 子网掩码…

一组网格加载动画

先看效果&#xff1a; 再看代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>网格动画</title><style>import url("https://fonts.googleapis.com/css2?familyOrb…

蓝牙ble的常见概念

蓝牙广播 包组成结构 低功耗蓝牙一共有40个信道&#xff0c;频段范围从2402Mhz-2480Mhz&#xff0c;每2Mhz一个信道&#xff0c;37 38 39 是广播信道&#xff0c;其余为数据信道 一个广播信道最长37字节&#xff0c;有6字节用作蓝牙设备的MAC地址&#xff0c;我们只需要关注剩…

tftp服务器环境搭建与nfs服务器环境搭建

目录 tftp 服务器环境搭建 实验步骤&#xff1a; nfs 服务器环境搭建 实验步骤 tftp 服务器环境搭建 实验步骤&#xff1a; 一、 tftp 服务器环境搭建 1 、 打开一个命令行终端&#xff0c;执行如下命令查看是否已安装 tftp 服务器 $ dpkg -s tftpd-hpa 若显示如下信…

vue可视化面板创建项目

前端项目初始化步骤 安装 vue 脚手架 通过vue脚手架创建项目 在命令行输入vue ui 等待可视化界面打开 填写项目名称&#xff08;必须英文&#xff09;和仓库信息(可选填&#xff09;&#xff0c;然后点击下一步进入“预设面板” 这里根据需要选择一个选项&#xff0c;然后…

Node.js入门之 - 初识Node.js

初识 Node.js 1. 起源 Node.js 起源于 2009 年,由 Ryan Dahl 开发,起初的目的是为了解决一些网络应用运行缓慢的问题。 在 Node.js 之前,一般会采用 LAMP(Linux Apache MySQL PHP)或者 MEAN等技术栈开发 web 应用。这些技术通常会采用请求-响应模型: 客户端(浏览器)发送一…

机器学习 day19(使用python和np实现前向传播)

烤咖啡豆模型 使用一维数组来表示这些向量和参数&#xff0c;所以只有一个方括号W1_1&#xff1a;表示layer 1的第一个神经元的WZ1_1&#xff1a;表示 W1_1和输入X之间的点积&#xff0c;再与b1_1相加a1_1&#xff1a;表示应用Z1_1的sigmoid函数a1&#xff1a;表示把a1_1&…

Explain和索引基本优化示例

一、Explain介绍 1、Explain不用版本的使用 在mysql8.0版本只能用explain&#xff0c;已经弃用了explain extended和explain partitions&#xff0c;用了都会出现语法问题&#xff0c;只能用explain&#xff1b;在explain语句后面加上show warnings;可以查看mysql优化后的语句…

市场·分析

寡头垄断市场 完全竞争市场 完全垄断 垄断竞争 博弈论与寡头竞争理论 寡头市场的特征&#xff1a; 少量的企业竞争策略互动纯寡头 -生产相同产品的企业 -市场上只有一个价格差异化寡头 -生产差异化产品的企业 -价格成为决策变量 博弈论基础 博弈论模型描述个体在知道他所采…

用flex布局实现一个流程设计器

最近接到一个需求&#xff0c;要做一个流程设计的功能&#xff0c;大概长下面这个样子&#xff1a; 支持添加、编辑和删除节点&#xff0c;节点只有四种类型&#xff1a;开始节点、普通节点、分支节点、结束节点。 因为每个节点只有一个进和一个出&#xff0c;且节点不需要支持…

一文扫盲 OA、CRM、ERP、MES、HRM、SCM、WMS、KMS 等B端系统

OA系统 &#xff08;Office Automation System&#xff0c;办公自动化系统&#xff09;&#xff1a;OA系统是一种用于协调、管理和优化办公流程的软件系统&#xff0c;包括电子邮件、日程安排、文档管理、工作流程管理等功能模块&#xff0c;帮助企业提高工作效率和管理水平。…