YOLO V1 V2算法总结

news2024/9/9 5:15:16

1.YOLO(You Only Look Once)v1算法是一个单阶段目标检测模型

它的关键思想是将目标检测问题转化为回归问题,通过一次前向传递同时预测多个边界框和类别概率。

1.1. 网络结构

YOLO v1使用一个单一的卷积神经网络(CNN)来同时预测多个边界框和这些框内的类别概率。网络的输入是一个固定大小的图像(例如448x448),输出是一个SxSx(B*5 + C)的张量,其中:

  • SxS 是将输入图像划分成的网格单元数(通常为7x7)。
  • B 是每个网格单元预测的边界框数量(通常为2)。
  • 5 表示每个边界框的5个参数(x, y, w, h, confidence)。
  • C 是类别的数量。

1.2. 网格划分

YOLO v1将输入图像划分为一个SxS的网格,每个网格单元负责检测该单元内的对象。每个网格单元预测B个边界框和这些框的置信度(confidence),以及C个类别概率。

1.3. 预测

每个边界框预测5个参数:

  • (x) 和 (y):边界框中心相对于网格单元的位置。
  • (w) 和 (h):边界框的宽度和高度,相对于整个图像的归一化值。
  • 置信度(confidence):边界框包含对象的置信度分数,计算方式为:
    confidence = P ( object ) × IOU ( pred , truth ) \text{confidence} = P(\text{object}) \times \text{IOU}(\text{pred}, \text{truth}) confidence=P(object)×IOU(pred,truth)
    其中, P ( object ) P(\text{object}) P(object)表示该网格单元内存在对象的概率, IOU ( pred , truth ) \text{IOU}(\text{pred}, \text{truth}) IOU(pred,truth)是预测边界框和真实边界框之间的交并比。

1.4. 损失函数

YOLO v1的损失函数包括三个部分:

  • 边界框位置误差(x, y, w, h)的平方差。
  • 边界框置信度误差(confidence)的平方差。
  • 分类误差(类别概率)的平方差。

公式如下:
Loss = λ coord ∑ i = 0 S 2 ∑ j = 0 B 1 i j obj [ ( x i − x ^ i ) 2 + ( y i − y ^ i ) 2 + ( w i − w ^ i ) 2 + ( h i − h ^ i ) 2 ] + ∑ i = 0 S 2 ∑ j = 0 B 1 i j obj ( C i − C ^ i ) 2 + λ noobj ∑ i = 0 S 2 ∑ j = 0 B 1 i j noobj ( C i − C ^ i ) 2 + ∑ i = 0 S 2 1 i obj ∑ c ∈ classes ( p i ( c ) − p ^ i ( c ) ) 2 \text{Loss} = \lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbf{1}_{ij}^{\text{obj}} \left[ (x_i - \hat{x}_i)^2 + (y_i - \hat{y}_i)^2 + (w_i - \hat{w}_i)^2 + (h_i - \hat{h}_i)^2 \right] + \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbf{1}_{ij}^{\text{obj}} (C_i - \hat{C}_i)^2 + \lambda_{\text{noobj}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbf{1}_{ij}^{\text{noobj}} (C_i - \hat{C}_i)^2 + \sum_{i=0}^{S^2} \mathbf{1}_{i}^{\text{obj}} \sum_{c \in \text{classes}} (p_i(c) - \hat{p}_i(c))^2 Loss=λcoordi=0S2j=0B1ijobj[(xix^i)2+(yiy^i)2+(wiw^i)2+(hih^i)2]+i=0S2j=0B1ijobj(CiC^i)2+λnoobji=0S2j=0B1ijnoobj(CiC^i)2+i=0S21iobjcclasses(pi(c)p^i(c))2
其中:

  • λ coord \lambda_{\text{coord}} λcoord λ noobj \lambda_{\text{noobj}} λnoobj是用于平衡损失项的权重(通常 λ coord = 5 \lambda_{\text{coord}} = 5 λcoord=5 λ noobj = 0.5 \lambda_{\text{noobj}} = 0.5 λnoobj=0.5)。
  • 1 i j obj \mathbf{1}_{ij}^{\text{obj}} 1ijobj 1 i j noobj \mathbf{1}_{ij}^{\text{noobj}} 1ijnoobj是指示变量,表示网格单元是否包含对象。

1.5. 非极大值抑制(NMS)

为了减少重叠的边界框,YOLO v1使用非极大值抑制(NMS)来抑制低置信度的预测。具体步骤是:

  1. 根据置信度分数对所有预测的边界框进行排序。
  2. 从最高置信度开始,选择该框并删除所有与其重叠度(IOU)超过阈值的其他框。

1.6 总结

YOLO v1通过将目标检测问题转化为回归问题,实现了实时的目标检测速度。它通过一个单一的卷积神经网络一次性预测多个边界框和类别概率,大大简化了检测过程,适用于需要高效实时检测的场景。尽管YOLO v1在定位精度上稍逊色于一些多阶段检测器,但它的速度和简洁性使其成为许多实际应用中的首选。

2. YOLO v2(You Only Look Once v2)通过以下具体方法实现了改进:

2.1. 更高分辨率的输入图像

YOLO v2 支持多种输入图像分辨率(如 416x416),通过多尺度训练使模型在不同分辨率下均能有效工作。具体方法是,在训练过程中每隔几次迭代随机调整输入图像的尺寸。

2.2. 批量归一化

在每个卷积层后添加批量归一化层。这不仅有助于正则化模型,防止过拟合,还加速了模型收敛,提高了训练速度和稳定性。

2.3. 高效的网络结构

YOLO v2 使用了 Darknet-19 作为基础网络。Darknet-19 是一个包含 19 个卷积层和 5 个池化层的深层网络,比 YOLO v1 的网络更深,特征提取能力更强。同时采用了 1x1 卷积减少特征图的维度,降低计算成本。

2.4. 更好的锚点机制

引入了先验框(Anchors),通过在训练前对数据集中的边界框进行 k-means 聚类分析,确定一组适合该数据集的锚点框。这些锚点框在预测时用作参考,模型预测的是相对于这些锚点框的偏移量。

2.5. 直接位置预测

YOLO v2 通过 logistic 回归预测边界框中心坐标,确保预测的中心点位于所属的网格单元内。此外,预测的是边界框的宽度和高度的对数值,有助于更稳定的训练。

2.6. 多尺度训练

在训练过程中,YOLO v2 每隔一定次数迭代随机改变输入图像的尺寸,使得模型在不同大小的图像下都能适应,增强了模型的鲁棒性。这种训练方式使得模型在推理时也能处理不同尺寸的图像。

2.7 总结

YOLO v2 通过网络结构优化、批量归一化、锚点机制、直接位置预测和多尺度训练等方法,在保持实时检测速度的同时显著提升了检测精度和鲁棒性。上述改进使得 YOLO v2 在实际应用中更加高效和实用。

3.YOLO v3(You Only Look Once v3)相对于YOLO v2进行了多方面的改进

3.1. 改进的网络结构

YOLO v3 使用了称为Darknet-53的网络结构,它比Darknet-19更深,更强大。Darknet-53包含53个卷积层,并广泛使用了残差块(Residual Blocks),这有助于缓解深层网络的梯度消失问题,并提升特征提取能力。

3.2. 多尺度预测

YOLO v3 在三个不同的尺度上进行预测,每个尺度对应于不同的特征层。这种方法使得模型能够更好地检测不同大小的目标。

3.3. 改进的锚点框

YOLO v3 使用9个锚点框,分别分配给3个不同的尺度层。每个尺度层都有自己的3个锚点框,这样能够更好地捕捉不同大小的目标。

实现方法

anchors = [
    # 3 anchors for each scale
    [(10, 13), (16, 30), (33, 23)],  # Scale 1
    [(30, 61), (62, 45), (59, 119)], # Scale 2
    [(116, 90), (156, 198), (373, 326)] # Scale 3
]

3.4. 改进的损失函数

YOLO v3 在损失函数中使用了二元交叉熵损失来处理类预测,并在边界框回归损失中考虑了IOU(Intersection over Union),使得训练更加稳定。

3.5. 更高的分类能力

YOLO v3 支持多达80个类别的分类预测,使用了softmax层来输出每个类别的概率。

3.6总结

YOLO v3 通过改进网络结构、使用多尺度预测、优化锚点框、改进损失函数和增强分类能力等方面的改进,在保持实时检测速度的同时显著提升了检测精度和鲁棒性。这些改进使得YOLO v3在实际应用中更为高效和实用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1961588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring源码-xml配置文件如何加载解析默认标签变为BeanDefinition

1.创建Environment new StandardEnvironment() createEnvironment:346, AbstractApplicationContext (org.springframework.context.support) getEnvironment:332, AbstractApplicationContext (org.springframework.context.support) resolvePath:131, AbstractRefreshable…

通俗易懂理解提示词工程、RAG和微调

在当今的人工智能领域,提示工程、RAG(检索增强生成)和微调是三个重要的概念。本文将通过简单易懂的方式,帮助大家理解这三者之间的关系和应用。 大模型的训练过程 📊 在当今的人工智能领域,大模型的训练是…

如何使用 Flask 或 Django 创建 Web 应用

Flask和Django是Python中最受欢迎的两个Web框架,它们各有优点,适用于不同的应用场景。 一、使用Flask创建Web应用 1.1 Flask简介 Flask是一个轻量级的Web框架,以其简洁、易用和灵活著称。它遵循“微框架”的设计理念,只提供核心…

批量输出文件夹内所有文件名和文件——vba实现

导出一个文件夹下所有文件名,可用vba插件实现,如图 如下图,已在桌面生成一个txt文本,但此方法只可输出一级目录下的文件,若输出所有文件,则需修改插件代码 (若想导出硬盘下所有文件和文件夹&…

Windows10+VS2019编译Faiss

先放上我编译好的静态库,要配合OpenBLAS使用 通过百度网盘分享的文件:3rdparty.zip 链接:https://pan.baidu.com/s/1yPys-CX_EdmnJzj66g_KlQ?pwdh6ff 提取码:h6ff –来自百度网盘超级会员V1的分享 1.源码下载 首先下载Faiss地…

C++ STL inner_product 用法

一&#xff1a;功能 求内积&#xff0c; 给定两个向量x&#xff0c;y&#xff0c;内积公式如下&#xff1a; 二&#xff1a;用法 #include <iostream> #include <vector> #include <numeric>int main() {std::vector<int> height…

量子®膜高端服务门店品牌膜天轮全膜服务中心再添新成员 南京膜天轮量子®膜全膜中心(东麟路店)盛大启幕!

7月26日上午&#xff0c;膜天轮量子膜南京全膜中心&#xff08;东麟路店&#xff09;盛大开业&#xff0c;正式成为膜天轮品牌的第二十家门店。 圣戈班舒热佳特殊镀膜有限公司亚太区总裁陈剑超先生、圣戈班舒热佳特殊镀膜有限公司亚太区商务总监李振华先生、圣戈班舒热佳特殊镀…

FlashAttention解析——大预言模型核心组建

论文名称&#xff1a;FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 论文地址&#xff1a;https://arxiv.org/abs/2205.14135 一、研究FlashAttention的Motivate FlashAttention技术在现在的主流大语言模型中均有应用&#x…

2024靠这份软件测试面试题宝典已成功上岸,跳槽成功

上月很多朋友靠这份面试宝典拿到大厂的office&#xff0c;跳槽成功&#xff0c;面试找工作的小白和要跳槽进阶都很适合&#xff0c;没有一点准备怎么能上岸成功呢&#xff1f; 这份面试题宝库&#xff0c;包含了很多部分&#xff1a;测试理论&#xff0c;Linux基础&#xff0c…

Java中级

IDAE介绍 IDEA&#xff0c;全称为IntelliJ IDEA&#xff0c;是一款由JetBrains公司开发的集成开发环境&#xff08;IDE&#xff09;&#xff0c;主要用于Java开发&#xff0c;但也支持多种其他编程语言和框架&#xff0c;如Kotlin、Scala、Groovy、Android、Spring、Hibernate…

SpringBoot Mysql->达梦8 activiti6.0.0 项目迁移

全部源码&#xff1a;公众号搜索资小库&#xff0c;回复dm获取源码 1.整合达梦 1.1 达梦驱动下载 MyBatis-Plus 框架 | 达梦技术文档 (dameng.com) 1.2 数据迁移 怎么安装数据库&#xff0c;很多大佬有帖子&#xff0c;搜一下达梦先建立用户&#xff0c;使用DM管理工具 链…

【进阶篇-Day13:JAVA中IO流之字节缓冲流的介绍】

目录 1、IO流介绍2、IO流体系结构2.1 FileOutputStream 字节输出流&#xff08;1&#xff09;字节输出流操作方法&#xff1a;&#xff08;2&#xff09; 标准的关流代码&#xff1a; 2.2 FileInputStream 字节输入流&#xff08;1&#xff09;字节输入流操作方法&#xff1a; …

Glove-词向量

文章目录 共现矩阵共线概率共线概率比词向量训练总结词向量存在的问题 上一篇文章词的向量化介绍了词的向量化&#xff0c;词向量的训练方式可以基于语言模型、基于窗口的CBOW和SKipGram的这几种方法。今天介绍的Glove也是一种训练词向量的一种方法&#xff0c;他是基于共现概率…

【每日一题】【回溯+二进制优化】[USACO1.5] 八皇后 Checker Challenge C\C++\Java\Python3

P1219 [USACO1.5] 八皇后 Checker Challenge [USACO1.5] 八皇后 Checker Challenge 题目描述 一个如下的 6 6 6 \times 6 66 的跳棋棋盘&#xff0c;有六个棋子被放置在棋盘上&#xff0c;使得每行、每列有且只有一个&#xff0c;每条对角线&#xff08;包括两条主对角线的…

Python设置Excel单元格中的部分文本颜色

文章目录 一、概述二、效果三、示例 一、概述 openpyxl &#xff08;目前&#xff09;不支持设置单元格内部分字体颜色 xlsxwriter 支持设置单元格内部分字体颜色&#xff08;创建新的Excel&#xff09; 二、效果 三、示例 """ Python设置Excel单元格中的部分…

昇思 25 天学习打卡营第 24 天 | MindSpore Pix2Pix 实现图像转换

1. 背景&#xff1a; 使用 MindSpore 学习神经网络&#xff0c;打卡第 24 天&#xff1b;主要内容也依据 mindspore 的学习记录。 2. PixPix 介绍&#xff1a; MindSpore 的 Pix2Pix 图像转换 介绍 Pix2Pix是基于条件生成对抗网络&#xff08;cGAN, Condition Generative Ad…

Oracle如何跨越incarnation进行数据恢复

作者介绍&#xff1a;老苏&#xff0c;10余年DBA工作运维经验&#xff0c;擅长Oracle、MySQL、PG、Mongodb数据库运维&#xff08;如安装迁移&#xff0c;性能优化、故障应急处理等&#xff09; 公众号&#xff1a;老苏畅谈运维 欢迎关注本人公众号&#xff0c;更多精彩与您分享…

Skywalking 入门与实战

一 什么是 Skywalking? Skywalking 时一个开源的分布式追踪系统&#xff0c;用于检测、诊断和优化分布式系统的功能。它可以帮助开发者和运维人员深入了解分布式系统中各个组件之间的调用关系、性能瓶颈以及异常情况&#xff0c;从而提供系统级的性能优化和故障排查。 1.1 为…

笑谈“八股文”,人生不成文

一、“八股文”在实际工作中是助力、阻力还是空谈&#xff1f; 作为现在各类大中小企业面试程序员时的必问内容&#xff0c;“八股文”似乎是很重要的存在。但“八股文”是否能在实际工作中发挥它“敲门砖”应有的作用呢&#xff1f;有IT人士不禁发出疑问&#xff1a;程序员面试…

AcWing3302. 表达式求值

代码解释 while(j<str.size()&&isdigit(str[j])){xx*10str[j]-0;}把字符串中里面连续的数字转化为int类型变量&#xff0c;比如输入996/3328,正常的挨个字符扫描只能扫到’9’,‘9’,‘6’,但是按照上面代码的算法是重新开了一个循环&#xff0c;直接把’9’,‘9’,…