【YOLO系列】YOLOv1论文笔记

【YOLO系列】YOLOv1论文笔记

news2025/7/17 12:41:57

论文链接：[1506.02640] You Only Look Once: Unified, Real-Time Object Detection (arxiv.org)

YOLO将目标检测看作回归问题，使用单个神经网络直接从完整图像上预测边界框和类别概率。（端到端：输入原始数据，输出的是最后结果，之前输入端是在原始数据中提取的特征）

YOLO过程总结：
训练阶段:

首先将一张图像分成 S × S个 gird cell，然后全部送入CNN，生成S × S × (B × 5 + C）个结果，最后根据结果求Loss并反向传播梯度下降。

（S x S个网格，每个网格都有B个预测框，每个框有5个参数，再加上每个网格都有C个预测类）

预测、验证阶段：

首先将一张图像分成 S × S网格(gird cell)，然后全部送入CNN，生成S × S × (B × 5 + C）个结果，最后用NMS选出合适的预选框。

（NMS：主要解决一个目标被多次检测的问题，即在一个区域里交叠的很多框选一个最优的。

注意： NMS只发生在预测阶段，训练阶段是不能用NMS的，因为在训练阶段不管这个框是否用于预测物体的，它都和损失函数相关，不能随便重置成0。）

YOLO思想
YOLO将目标检测问题作为回归问题。会将输入图像分成S×S的网格，如果一个物体的中心点落入到一个cell中，那么该cell就要负责预测该物体，一个格子只能预测一个物体，会生成两个预测框。

对于每个grid cell：
（1）预测B个边界框，每个框都有一个置信度分数（confidence score）这些框大小尺寸等等都随便，只有一个要求，就是生成框的中心点必须在grid cell里。

（2）每个边界框包含5个元素：(x,y,w,h)

（3）不管框 B 的数量是多少，只负责预测一个目标。

（4）预测 C 个条件概率类别（物体属于每一种类别的可能性）

YOLO网络详解

YOLO优点：

（1）YOLO的速度非常快；

（2）YOLO在做预测时使用的是全局图像；

（3）YOLO 学到物体更泛化的特征表示。

YOLO缺点：

（1）对于图片中一些群体性小目标检测效果比较差；

（2）原始图片只划分为7x7的网格，当两个物体靠得很近时（挨在一起且中点都落在同一个格子上的情况），效果比较差；

（3）每个网格只对应两个bounding box，当物体的长宽比不常见(也就是训练数据集覆盖不到时)，效果较差；

（4）最终每个网格只对应一个类别，容易出现漏检(物体没有被识别到)。

参考链接：【YOLO系列】YOLOv1论文超详细解读（翻译＋学习笔记）_路人贾'ω'的博客-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/450344.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

E5EAA HENF105240R1将用于工业生产过程的测量、控制和管理

E5EAA HENF105240R1将用于工业生产过程的测量、控制和管理

E5EAA HENF105240R1将用于工业生产过程的测量、控制和管理工业控制计算机是工业自动化控制系统的核心设备工业控制计算机是工业自动化设备和信息产业基础设备的核心。传统意义上，将用于工业生产过程的测量、控制和管理的计算机统称为工业控制计算机，…

阅读更多...

SpringBoot整合WebSocket的两种方式及微服务网关Gateway配置

SpringBoot整合WebSocket的两种方式及微服务网关Gateway配置

一、说明项目中后台微服务需要向前端页面推送消息，因此不可避免的需要用到WebSocket技术。SpringBoot已经为WebSocket的集成提供了很多支持，只是WebSocket消息如何通过微服务网关Spring Cloud Gateway向外暴露接口，实际开发过程中遇到了很多…

阅读更多...

【数据结构第四章】- 串的模式匹配算法（BF 算法和 KMP 算法/用 C 语言实现）

【数据结构第四章】- 串的模式匹配算法（BF 算法和 KMP 算法/用 C 语言实现）

目录一、前言二、BF 算法三、KMP 算法 3.2.1 - KMP 算法的原理 3.2.2 - KMP 算法的实现 3.2.3 - KMP 算法的优化创作不易，可以点点赞，如果能关注一下博主就更好了~ 一、前言子串的定位运算通常称为串的模式匹配或串匹配。此运算的应用非常广…

阅读更多...

美国主机的带宽和网络速度究竟有多快？

美国主机的带宽和网络速度究竟有多快？

在选择一个主机时，其带宽和网络速度是非常重要的考虑因素。而美国主机在带宽和网络速度方面有着明显的优势，成为了众多用户的首选。那么，美国主机的带宽和网络速度究竟有多快呢?本文将通过分析美国主机的网络基础设施和数据中心设施&#xf…

阅读更多...

golang入门项目——打卡抽奖系统

golang入门项目——打卡抽奖系统

功能介绍用户加入群组之后，会在签到群组所设的签到地点进行签到和签退，并限制同一个设备只能签到一个用户，签到成功之后。会获取一定的限制在该群组使用的积分。该群组可以设置一些抽奖活动，用户可使用该群组内的积分来进行该群…

阅读更多...

Python+mysql+php搭建另类免费代理池

Python+mysql+php搭建另类免费代理池

文章目录前言:思路：开干：php连接MySQL取ip和端口：效果图： 最后调用代理池：总结： 前言: 为什么说另类的，因为我完全是按照我自己的想法来的，比较鸡肋，但是能用&#xff…

阅读更多...

短视频app开发：如何提高视频播放稳定性

短视频app开发：如何提高视频播放稳定性

简介如今，短视频已经成为人们日常生活中不可或缺的一部分，而短视频app的开发也日益成为了人们热议的话题。在短视频app开发的过程中，如何提高视频播放稳定性是一个非常重要的问题。本文将从短视频源码角度出发，分享提高短视频ap…

阅读更多...

如何优化语音交友app开发的搜索和匹配算法

如何优化语音交友app开发的搜索和匹配算法

语音交友app开发的挑战在当今社交媒体行业中，语音交友app开发已经成为一个热门的领域。越来越多的人开始使用语音交友app来寻找新的朋友，这也为开发者们带来了许多机会。然而，这个领域也面临着一些挑战。其中一个最大的挑战是如何优化搜索和…

阅读更多...

掏空腰包，日子难过，机缘转岗软件测试，这100个日夜的心酸只有自己知道...

掏空腰包，日子难过，机缘转岗软件测试，这100个日夜的心酸只有自己知道...

我今年27岁，原本从事着土木工程相关的工作，19年开始有了转行的想法... 大学刚毕业那年，我由于学的是土木工程专业，自然而然的从事了和土木工程相关的工作，房贷、车贷，在经济的高压下，当代社会许…

阅读更多...

大数据题目测试（一）

大数据题目测试（一）

目录一、环境要求二、提交结果要求三、数据描述四、功能要求 1.数据准备 2.使用 Spark，加载 HDFS 文件系统 meituan_waimai_meishi.csv 文件，并分别使用 RDD和 Spark SQL 完成以下分析（不用考虑数据去重）。 (1)配置环境…

阅读更多...

Java设计模式-day01

Java设计模式-day01

1，设计模式概述 1.1 软件设计模式的产生背景 "设计模式"最初并不是出现在软件设计中，而是被用于建筑领域的设计中。 1977年美国著名建筑大师、加利福尼亚大学伯克利分校环境结构中心主任克里斯托夫亚历山大（Christopher Alexand…

阅读更多...

React Native iOS打包详细步骤

React Native iOS打包详细步骤

一、在自己项目的iOS文件夹下新建一个文件夹取名bundle 二、将打包命令写到项目package.json文件里，终端执行 npm run bundle-ios 先添加如下（注意：这里写的路径"./ios/bundle"就是上面bundle创建的文件夹）&#xff1a…

阅读更多...

C51单片机介绍

C51单片机介绍

本文为学习51单片机的学习的基础，先介绍单片机是什么。所使用的单片机有什么资源。每一个功能的作用是什么。本文使用的是STC89C52RC 40I-PDIO40，故以此为基础研究学习。 C51单片机介绍单片机的概述单片机的组成部分中央处理器程序存储器数据存储器定时…

阅读更多...

图神经网络能做什么？

图神经网络能做什么？

从概念上讲，我们可以将图神经网络的基本学习任务分为 5 个不同的方向： （1）图神经网络方法； （2）图神经网络的理论理解； （3）图神经网络的可扩展性&#xff1b…

阅读更多...

Git的进阶使用（二）

Git的进阶使用（二）

本篇文章旨在分享本人在学习Git时的随笔记🤩 文章目录概述1、Git 分支1.1 主干分支1.2 其他分支1.2.1 创建分支1.2.2 查看分支1.2.3 切换分支1.2.4 删除分支 2、Git 合并2.1 主干分支2.2 其他分支2.3 合并分支 3、Git 冲突3.1 主干分支3.2 其他分支3.3 切换分支 -B…

阅读更多...

Replika：AI智能聊天机器人

Replika：AI智能聊天机器人

【产品介绍】 Replika，这个名字可能有点拗口，但如果你知道这是复制品Replica的同音变体，你即刻能明白这个产品的定位了。官方Luka公司定义它是你的AI朋友，默默学习你，最终成为你的复制品。它不像现在市面上各大厂的AI助…

阅读更多...

《ChatGPT开发应用指南》，Datawhale开源了！

《ChatGPT开发应用指南》，Datawhale开源了！

Datawhale发布开源教程：HuggingLLM，Datawhale团队随着ChatGPT的爆火，我们相信未来会有越来越多的大模型及类似OpenAI提供的服务出现，AI 正在逐渐平民化，将来每个人都可以利用大模型轻松地做出自己的AI产品。 Huggin…

阅读更多...

【历史上的今天】3 月 23 日：网景创始人出生；FORMAC 语言的开发者诞生；PRMan 非商业版发布

【历史上的今天】3 月 23 日：网景创始人出生；FORMAC 语言的开发者诞生；PRMan 非商业版发布

整理 | 王启隆透过「历史上的今天」，从过去看未来，从现在亦可以改变未来。今天是 2023 年 3 月 23 日，在 141 年前的今天，1882 年 3 月 23 日，抽象代数之母艾米诺特（Emmy Noether）诞生。她的…

阅读更多...

JUC-多线程（12. AQS-周阳）学习笔记

JUC-多线程（12. AQS-周阳）学习笔记

文章目录 1. 可重入锁1.1. 概述1.2. 可重入锁类型1.3. Synchronized 可重入实现机理 2. LockSupport2.1. LockSupport 是什么2.2. 3种线程等待唤醒的方法2.2.1 Object 的等待与唤醒2.2.2. Condition接口中的等待与唤醒2.2.3. 传统的 synchronized 和 Lock 实现等待唤醒通知的约…

阅读更多...

本地搭建属于自己的ChatGPT：基于PyTorch+ChatGLM-6b+Streamlit+QDrant+DuckDuckGo

本地搭建属于自己的ChatGPT：基于PyTorch+ChatGLM-6b+Streamlit+QDrant+DuckDuckGo

本地部署chatglm及缓解时效性问题的思路： 模型使用chatglm-6b 4bit，推理使用hugging face，前端应用使用streamlit或者gradio。微调对显存要求较高，还没试验。可以结合LoRA进行微调。缓解时效性问题：通过本地数据库…

阅读更多...

推荐文章

最新文章