【详细教程】如何使用YOLOv10进行图片与视频的目标检测

news2024/11/15 21:09:37

《博主简介》

小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。
更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~
👍感谢小伙伴们点赞、关注!

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称项目名称
1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】8.【基于YOLOv8深度学习的行人跌倒检测系统】
9.【基于YOLOv8深度学习的PCB板缺陷检测系统】10.【基于YOLOv8深度学习的生活垃圾分类目标检测系统】
11.【基于YOLOv8深度学习的安全帽目标检测系统】12.【基于YOLOv8深度学习的120种犬类检测与识别系统】
13.【基于YOLOv8深度学习的路面坑洞检测系统】14.【基于YOLOv8深度学习的火焰烟雾检测系统】
15.【基于YOLOv8深度学习的钢材表面缺陷检测系统】16.【基于YOLOv8深度学习的舰船目标分类检测系统】
17.【基于YOLOv8深度学习的西红柿成熟度检测系统】18.【基于YOLOv8深度学习的血细胞检测与计数系统】
19.【基于YOLOv8深度学习的吸烟/抽烟行为检测系统】20.【基于YOLOv8深度学习的水稻害虫检测与识别系统】
21.【基于YOLOv8深度学习的高精度车辆行人检测与计数系统】22.【基于YOLOv8深度学习的路面标志线检测与识别系统】
23.【基于YOLOv8深度学习的智能小麦害虫检测识别系统】24.【基于YOLOv8深度学习的智能玉米害虫检测识别系统】
25.【基于YOLOv8深度学习的200种鸟类智能检测与识别系统】26.【基于YOLOv8深度学习的45种交通标志智能检测与识别系统】
27.【基于YOLOv8深度学习的人脸面部表情识别系统】28.【基于YOLOv8深度学习的苹果叶片病害智能诊断系统】
29.【基于YOLOv8深度学习的智能肺炎诊断系统】30.【基于YOLOv8深度学习的葡萄簇目标检测系统】
31.【基于YOLOv8深度学习的100种中草药智能识别系统】32.【基于YOLOv8深度学习的102种花卉智能识别系统】
33.【基于YOLOv8深度学习的100种蝴蝶智能识别系统】34.【基于YOLOv8深度学习的水稻叶片病害智能诊断系统】
35.【基于YOLOv8与ByteTrack的车辆行人多目标检测与追踪系统】36.【基于YOLOv8深度学习的智能草莓病害检测与分割系统】
37.【基于YOLOv8深度学习的复杂场景下船舶目标检测系统】38.【基于YOLOv8深度学习的农作物幼苗与杂草检测系统】
39.【基于YOLOv8深度学习的智能道路裂缝检测与分析系统】40.【基于YOLOv8深度学习的葡萄病害智能诊断与防治系统】
41.【基于YOLOv8深度学习的遥感地理空间物体检测系统】42.【基于YOLOv8深度学习的无人机视角地面物体检测系统】
43.【基于YOLOv8深度学习的木薯病害智能诊断与防治系统】44.【基于YOLOv8深度学习的野外火焰烟雾检测系统】
45.【基于YOLOv8深度学习的脑肿瘤智能检测系统】46.【基于YOLOv8深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于YOLOv8深度学习的橙子病害智能诊断与防治系统】48.【车辆检测追踪与流量计数系统】
49.【行人检测追踪与双向流量计数系统】50.【基于YOLOv8深度学习的反光衣检测与预警系统】
51.【危险区域人员闯入检测与报警系统】52.【高压输电线绝缘子缺陷智能检测系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

简介

在这里插入图片描述

继 YOLOv8 和 YOLOv9 之后,YOLOv10也相继推出。这一突破性的迭代有望在目标检测领域实现重大飞跃。让我们深入研究细节,了解 YOLOv10 如何赋能计算机视觉的未来。

YOLOv10 擅长精确定位和识别图像和视频中的物体。这种能力构成了众多应用的支柱,包括自动驾驶汽车、先进的安全系统和强大的图像搜索引擎。然而,YOLOv10 在这些基础上引入了超越 YOLOv8 和 YOLOv9 的突破性创新。

YOLOv10 性能的关键创新:

  • 无 NMS 训练:YOLOv10 通过采用一种称为一致双重分配的新技术,消除了训练期间对非最大抑制 (NMS) 的需求。这简化了推理过程,从而显著减少了延迟,使实时对象检测速度更快。
  • 整体模型设计:YOLOv10 的架构师精心优化了模型的各个组件,将效率和准确性放在首位。这种整体方法包括轻量级分类头、独特的空间通道解耦下采样技术和秩引导块设计。其结果是一个在不牺牲计算效率的情况下实现卓越性能的模型。
  • 增强的模型能力:YOLOv10 集成了大核卷积和部分自注意力模块等尖端功能。这些改进提高了模型的性能,而不会产生大量的计算成本。这种功耗和效率之间的平衡使 YOLOv10 成为适用于更广泛计算机视觉任务的多功能工具。

通过结合这些创新,YOLOv10 将自己定位为实时对象检测的强大引擎。它能够提供卓越的准确性和效率,为各种计算机视觉应用带来令人兴奋的可能性。请继续关注 YOLOv10 如何塑造这个充满活力的领域的未来!

使用 YOLOv10 处理图像和视频

步骤 1:安装必要的库

pip install opencv-python ultralytics

第 2 步:导入库

import cv2
from ultralytics import YOLO

第 3 步:选择模型尺寸

model = YOLO("yolov10x.pt")

可以比较不同的型号并权衡它们各自的优缺点。在这种情况下,我们选择了 yolov10x.pt。

第 4 步:编写一个函数来检测图像和视频中的对象

def predict(chosen_model, img, classes=[], conf=0.5):
    if classes:
        results = chosen_model.predict(img, classes=classes, conf=conf)
    else:
        results = chosen_model.predict(img, conf=conf)

    return results

def predict_and_detect(chosen_model, img, classes=[], conf=0.5, rectangle_thickness=2, text_thickness=1):
    results = predict(chosen_model, img, classes, conf=conf)
    for result in results:
        for box in result.boxes:
            cv2.rectangle(img, (int(box.xyxy[0][0]), int(box.xyxy[0][1])),
                          (int(box.xyxy[0][2]), int(box.xyxy[0][3])), (255, 0, 0), rectangle_thickness)
            cv2.putText(img, f"{result.names[int(box.cls[0])]}",
                        (int(box.xyxy[0][0]), int(box.xyxy[0][1]) - 10),
                        cv2.FONT_HERSHEY_PLAIN, 1, (255, 0, 0), text_thickness)
    return img, results

predict() 功能

此函数采用三个参数:

  • chosen_model :用于预测的训练模型
  • img :要进行预测的图像
  • classes :(可选)要将预测筛选到的类名列表
  • conf :(可选)要考虑的预测的最小置信度阈值

该函数首先检查是否提供了 classes 参数。如果是,则使用 classes 参数调用该 chosen_model.predict() 方法,该参数仅将预测筛选为这些类。否则,将调用该 chosen_model.predict() 方法时不带 classes 参数,该参数将返回所有预测。

conf 参数用于筛选出置信度分数低于指定阈值的预测。这对于消除误报很有用。

该函数返回预测结果列表,其中每个结果都包含以下信息:

  • name :预测类的名称
  • conf :预测的置信度分数
  • box :预测对象的边界框

predict_and_detect() 功能

此函数采用与 predict() 函数相同的参数,但除了预测结果外,它还返回带注释的图像。

该函数首先调用该 predict() 函数以获取预测结果。然后,它循环访问预测结果,并在每个预测对象周围绘制一个边界框。预测类的名称也写在边界框上方。

该函数返回一个包含带注释的图像和预测结果的元组。

以下是这两个函数之间差异的摘要:

  • predict() 函数仅返回预测结果,而该 predict_and_detect() 函数还返回带注释的图像。
  • predict_and_detect() 函数是 predict() 函数的包装器,这意味着它在内部调用函数 predict()

第 5 步:使用 YOLOv10 检测图像中的对象

# read the image
image = cv2.imread("YourImagePath")
result_img, _ = predict_and_detect(model, image, classes=[], conf=0.5)

如果要检测特定类(可在此处找到),只需在类列表中输入对象的 ID 号即可。

第 6 步:保存并绘制结果图像

cv2.imshow("Image", result_img)
cv2.imwrite("YourSavePath", result_img)
cv2.waitKey(0)

第 7 步:使用 YOLOv10 检测视频中的对象

video_path = r"YourVideoPath"
cap = cv2.VideoCapture(video_path)
while True:
    success, img = cap.read()
    if not success:
        break
    result_img, _ = predict_and_detect(model, img, classes=[], conf=0.5)
    cv2.imshow("Image", result_img)
    
    cv2.waitKey(1)

第 8 步:保存结果视频

# defining function for creating a writer (for mp4 videos)
def create_video_writer(video_cap, output_filename):
    # grab the width, height, and fps of the frames in the video stream.
    frame_width = int(video_cap.get(cv2.CAP_PROP_FRAME_WIDTH))
    frame_height = int(video_cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
    fps = int(video_cap.get(cv2.CAP_PROP_FPS))
    # initialize the FourCC and a video writer object
    fourcc = cv2.VideoWriter_fourcc(*'MP4V')
    writer = cv2.VideoWriter(output_filename, fourcc, fps,
                             (frame_width, frame_height))
    return writer

只需使用上面的函数和代码即可

output_filename = "YourFilename"
writer = create_video_writer(cap, output_filename)

video_path = r"YourVideoPath"
cap = cv2.VideoCapture(video_path)
while True:
    success, img = cap.read()
    if not success:
        break
    result_img, _ = predict_and_detect(model, img, classes=[], conf=0.5)
    writer.write(result_img)
    cv2.imshow("Image", result_img)
    
    cv2.waitKey(1)
writer.release()

结论

在本教程中,我们学习了如何使用 YOLOv10 检测图像和视频中的对象。如果您觉得此代码有用,感谢点赞关注。

引用

YOLOv10论文:https://arxiv.org/abs/2402.13616
YOLOv10源码:https://github.com/WongKinYiu/yolov10


好了,这篇文章就介绍到这里,感谢点赞关注,更多精彩内容持续更新中~

关注文末名片G-Z-H:【阿旭算法与机器学习】,可获取更多干货学习资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1861091.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SaaS平台的iHRM管理系统测试学习

目录 1、登录模块 2、员工管理模块 3、Postmannewman软件的安装,学习 1、Postman的使用 2、Postman断言 1、断言状态码(重要) 2、断言包含某个字符串(contains string) 3、断言等于某个字符串(equal string) …

【多通道卷积终结篇,通俗易懂,清晰必读】

作为常识, 1、卷积层 输出特征图通道数 卷积核个数 与输入特征图通道数无关, 2、多卷积核处理多通道特征图的机制过程如下: 本文的参考资料为知乎:一文读懂Faster RCNN。 对于多通道图像多卷积核做卷积,计算方式如…

中兴光猫破解telnet配置命令汇总

中兴光猫telnet配置命令汇总 | LogDicthttps://www.logdict.com/archives/zhong-xing-guang-mao-telnetpei-zhi-ming-ling-hui-zong

Pikachu靶场--SSRF

参考借鉴:pikachu靶场练习——SSRF详解_pikachu ssrf-CSDN博客 SSRF(curl) 先了解一下curl curl是一个非常实用的、用来与服务器之间传输数据的工具;支持的协议包括 (DICT, FILE, FTP, FTPS, GOPHER, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, POP3, PO…

【技术指南】稳压器(电压调节器):原理、类型及其实际用用案例

电压调节器(稳压器)是一种电子器件或电路,用于控制电路中的电压水平,以确保在电源电压波动或负载变化时,输出电压能够保持在设定的稳定水平。它们通常用于各种电子设备和电源系统中,以提供稳定的电压供应。…

AMEYA360代理品牌江苏润石:RS8661/2/4系列高压精密低噪声运算放大器

继RS8651/2/4系列高压精密低噪声运算放大器成功推向市场,润石科技再次成功量产RS8661/2/4系列高压精密低噪声运算放大器。 RS8661/2/4系列产品将工作电压提升到最高36V(18V)、失调电压进一步优化到5μV、在工业现场数据采集、各种仪器仪表测量设备\分析设备上有着广…

QT中的样式表.qss文件

一、前言 qt中样式表的改变有几种方法,第一种就是直接在ui界面对应的组件右键修改样式表,还有一种就是直接在程序里面修改样式表,我知道的还有一种就是qss文件,这个文件就是将在程序中写的修改样式表的语句写道qss文件中&#xff…

ROS CDK魔法书:点亮博客上云新技能(Python篇)

引言 在数字世界的浩瀚海洋中,信息与数据如同戏剧中的主角,舞动着无形的旋律,构建起信息时代的交响乐。而在这其中,作为一位技术领域的探索者,你的使命便是挥舞着编码的魔杖,创造和守护着这些宝贵的数字灵…

游戏AI的创造思路-技术基础-深度学习(1)

他来了,他来啦,后面歌词忘了~~~~~ 开谈深度学习,填上一点小坑,可又再次开掘大洞 -.-b 目录 1. 定义 2. 深度学习的发展历史和典型事件 3. 深度学习常用算法 3.1. 卷积神经网络(CNN) 3.1.1. 算法形成过…

前端必会--浏览器的工作原理与实践

进程与线程 线程 线程分为单线程和多线程 线程是不能单独存在的,它是由进程来启动和管理的。 进程 一个进程就是一个程序的运行实例。详细解释就是,启动一个程序的时候,操作系统会为该程序创建一块内存,用来存放代码、运行中的…

OpenAI扩大版图,收购Mac协作应用巨擘Multi

Multi,这款专为macOS用户打造的多人协作应用,凭借其卓越的低延迟实时协作功能,如共享光标、绘图和键盘控制,在业界享有盛誉。如今,OpenAI宣布成功收购Multi,以进一步扩大其技术生态。Multi公司将停止运营&a…

ppt忘记保存怎么恢复?

朋友们大家好,我是热爱分享电脑知识的资源伙伴~接下来,别忘了点赞、收藏并关注资源伙伴!如果你在使用PowerPoint时忘记保存演示文稿,突然关闭程序或电脑出现故障,不用太担心。 PowerPoint和大多数现代Office应用程序都…

将本地项目托管到Github或码云中

最按照打开页面的步骤,一步步生成公钥就: 按照提示完成三次回车,即可生成 ssh key 到C:\Users\登录用户名.ssh下找到文件d_rsa.pub ,打开就可以获取到public key 将id_rsa.pub文件中的内容全部复制到设置/SSH页面中: 单…

PWN练习---Stack_1

pwn123 题源:ctfshow–pwn123 知识点:逻辑漏洞引发的数组越界,导致任意地址写,覆盖返回地址。 主要源码 查看ida存在后面函数,可以劫持ctfshow函数的返回值到backdoor获得shell。 查看case 1代码发现并未对数组赋值的…

ThreadLocal 源码浅析

前言 多线程在访问同一个共享变量时很可能会出现并发问题,特别是在多线程对共享变量进行写入时,那么除了加锁还有其他方法避免并发问题吗?本文将详细讲解 ThreadLocal 的使用及其源码。 一、什么是 ThreadLocal? ThreadLocal 是 J…

Ubuntu下Linux最常见归档与解压命令tar的用法备忘

一、tar命令说明: tar是Linux中备份文件的可靠方法,用于打包、压缩与解压文件,可以工作于任何环境,使用权限是所有用户。 二、压缩与解压最常见的打包文档的格式: 三、常见两种压缩格式的说明: 文件名.tar.…

期权义务仓和权利仓有什么区别?怎么使用?

今天带你了解期权义务仓和权利仓有什么区别?怎么使用?与其他保险产品相比,期权提供更大的灵活性,投资者可以根据个人需求和市场状况选择不同类型和到期时间的期权合约,那么期权义务仓和权力仓是什么? 权利…

构建一个检索增强生成(RAG)应用程序

:::tips 此文档是LangChain官方教程的实践总结:https://python.langchain.com/v0.2/docs/tutorials/rag/实践前你需要准备:OPENAI_API_KEY Generator:根据检索到的信息和用户的查询生成自然语言的回答。LANGCHAIN_API_KEY 密切监控和评估您的…

加速度传感器采集时无效数据的产生及消除

1.现象 这是振动传感器的原始采样信号,它有一个明显的上升沿,这个上升沿,看时间轴标尺,大概持续了至少50ms,它是从哪里来的呢? 加速度传感器一般是由恒流源驱动的。而恒流源的原始电源输入是个经由电源模…

3dmax最小细分,最大细分,全局细分倍增怎么设置才合理

在3ds Max中进行高质量渲染时,细分(Subdivision)是一个至关重要的参数。细分的设置直接影响到渲染结果的细节程度和渲染时间。以下内容详细解释最小细分、最大细分和全局细分倍增的含义及作用,并解释在渲染设置时,怎样…