【深度学习】【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV3人脸检测

news2025/3/26 7:07:18

【深度学习】【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV3人脸检测

文章目录

  • 【深度学习】【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV3人脸检测
  • 前言
  • YOLOV3模型运行环境搭建
  • YOLOV3模型运行
    • 数据集准备
    • YOLOV3运行
      • 模型训练
      • 模型验证
      • 模型推理
      • 导出onnx模型
  • 总结


前言

Ultralytics YOLO 是一系列基于 YOLO(You Only Look Once)算法的检测、分割、分类、跟踪和姿势估计模型,由 Ultralytics 公司开发和维护,YOLO 算法以其快速和准确的目标检测能力而闻名。从最初的YOLOv1到最新的YOLOv11,每一代版本都在特征提取、边界框预测和优化技术等方面引入了重要的创新。这些改进特别是在骨干网络(backbone)、颈部(neck)和头部(head)组件上的进步,使得YOLO成为实时目标检测领域的领先解决方案。
【YOLO的发展历程参考】,本博文将通过人脸检测项目简要介绍Ultralytics–YOLOv3的使用。【官方源码】


YOLOV3模型运行环境搭建

在win11环境下装anaconda环境,方便搭建专用于YOLOV3模型的虚拟环境。

  • 查看主机支持的cuda版本(最高)

    # 打开cmd,执行下面的指令查看CUDA版本号
    nvidia-smi
    

  • 安装GPU版本的torch【官网】
    博主的cuda版本是12.2,博主选的11.8也没问题。

    其他cuda版本的torch在【以前版本】找对应的安装命令。

  • 博主安装环境参考

    # 创建虚拟环境
    conda create -n yolov3 python=3.10
    # 查看新环境是否安装成功
    conda env list
    # 激活环境
    activate yolov3 
    # cd到合适的位置下载yolov3源码 
    git clone https://github.com/ultralytics/yolov3
    cd yolov3
    # 切换到一个特定的v9.6.0版本
    git checkout tags/v9.6.0
    # 安装pytorch和torchvision,否则容易自动安装成CPU版本(不知原因)
    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
    # 安装运行所需的包,修改requirements,删除torch和torchvision部分,增加onnx(博主需要导出onnx)
    pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
    # 查看所有安装的包
    pip list
    conda list
    

注意,这里博主的代码是YOLOV3算法的v9.6.0版本,假如git下载经常失败,也可以直接在【官方源码】直接下载。

YOLO系列的每个大版本算法都是有迭代优化的,不是每次迭代都是一个新的大版本,不要理解错了。


YOLOV3模型运行

数据集准备

  1. 数据集下载:人脸目标检测数据集WIDER_FACE_VOC2007.zip【百度云下载,提取码:u2b9 】,以下是下载的数据集格式:

     WIDER_VOC2007
       └── Annotations		标签	
           ├── 000001.xml
           ├── 000002.xml
           ├── ...
       └── ImageSets
               ├── Main
               |   ├── train.txt	训练集
               |   ├── val.txt		验证集
       └── JPEGImages		图片
           ├── 000001.jpg
           ├── 000002.jpg
           ├── ...
    
  2. 数据集格式转化:将原始标签的xml格式转化Ultralytics-YOLO的txt格式。

    每幅图像对应一个txt文件,如果图像中没有检测对象则不需要txt文件。
    每个对象占一行,每一行中包含的内容为:类别(class )、中心X坐标(x_center)、中心Y坐标(y_center)、图像宽度(width)和图像高度(height)。
    中心坐标已经宽高都做了归一化处理,从0到 1;类别编号从0开始。
    在这里插入图片描述

    这里博主提供了转化的python代码,博主个人推荐在yolov3工程下新建datasetsTool目录,用于放置额外需要的辅助代码,将xml2txt.py代码放置到datasetsTool目录下。

    # xml2txt.py代码
    import os
    import xml.etree.ElementTree as ET
    
    def parse_xml(xml_file):
        # 解析XML文件
        tree = ET.parse(xml_file)
        root = tree.getroot()
    
        # 获取图像尺寸
        size = root.find('size')
        width = int(size.find('width').text)
        height = int(size.find('height').text)
    
        # 初始化结果列表
        objects = []
    
        # 遍历所有的object标签
        for obj in root.findall('object'):
            name = obj.find('name').text
            difficult = int(obj.find('difficult').text)
    
            # 只处理name为'face'且difficult为0的对象
            if name == 'face' and difficult == 0:
                bndbox = obj.find('bndbox')
                xmin = int(bndbox.find('xmin').text)
                ymin = int(bndbox.find('ymin').text)
                xmax = int(bndbox.find('xmax').text)
                ymax = int(bndbox.find('ymax').text)
    
                # 计算中心点坐标和宽高
                x_center = (xmin + xmax) / 2.0
                y_center = (ymin + ymax) / 2.0
                box_width = xmax - xmin
                box_height = ymax - ymin
    
                # 归一化处理
                x_center /= width
                y_center /= height
                box_width /= width
                box_height /= height
    
                # 添加到结果列表
                objects.append((0, x_center, y_center, box_width, box_height))
    
        return objects
    
    def save_to_txt(objects, txt_file):
        with open(txt_file, 'w') as f:
            for obj in objects:
                line = ' '.join([str(x) for x in obj]) + '\n'
                f.write(line)
    
    def process_directory(input_directory, output_directory):
        # 确保输出目录存在
        if not os.path.exists(output_directory):
            os.makedirs(output_directory)
    
        # 遍历输入目录下的所有XML文件
        for filename in os.listdir(input_directory):
            if filename.endswith('.xml'):
                xml_file = os.path.join(input_directory, filename)
                txt_file = os.path.join(output_directory, filename.replace('.xml', '.txt'))
    
                # 解析XML并获取所需信息
                objects = parse_xml(xml_file)
    
                # 将结果保存到TXT文件
                save_to_txt(objects, txt_file)
    
    if __name__ == "__main__":
        input_directory = r'Annotations'  # 替换为你的XML文件所在目录
        output_directory = r'labels'  	  # 建议与Annotations在同一级
    	'''
    	eg:
        input_directory = r'E:\BaiduNetdiskDownload\WIDER_FACE_VOC2007\WIDER_VOC2007\Annotations'
    	output_directory = r'E:\BaiduNetdiskDownload\WIDER_FACE_VOC2007\WIDER_VOC2007\labels' 
    	'''  
        process_directory(input_directory, output_directory)
    
  3. 数据集组织结构:将原始数据划分成训练集和测试集,博主个人推荐在yolov3工程下新建datasets目录,用于放置所需的数据集,并新建人脸检测数据集facedetection,将train和val数据集放到facedetection目录下。

     facedetection
       └── train
               ├── images
               |   ├── 000001.jpg
               |   ├── 000002.jpg
               |   ├── ...
               ├── labels
               |   ├── 000001.txt
               |   ├── 000002.txt
               |   ├── ...
       └── val
               ├── images
               |   ├── 000007.jpg
               |   ├── 0000010.jpg
               |   ├── ...
               ├── labels
               |   ├── 000007.txt
               |   ├── 0000010.txt
               |   ├── ...
    

    这里博主提供了转化的python代码,将split_train_val.py代码放置到datasetsTool目录下。

    import os
    import shutil
    import random
    
    image_dir = r'JPEGImages'	# 替换为你的图像文件所在目录
    label_dir = r'labels'		# 刚才生成的txt文件
    '''
    eg:
    image_dir = r'E:\BaiduNetdiskDownload\WIDER_FACE_VOC2007\WIDER_VOC2007\JPEGImages'
    label_dir = r'E:\BaiduNetdiskDownload\WIDER_FACE_VOC2007\WIDER_VOC2007\labels'
    '''
    train_dir = r'datasets/facedetection/train'		# 人脸数据集的存放位置
    val_dir = r'datasets/facedetection/val'
    '''
    eg:
    train_dir = r'E:\Ultralytics-YOLO\yolov3\r'datasets\facedetection\train'
    val_dir = r'E:\Ultralytics-YOLO\yolov3\r'datasets\facedetection\val'
    '''
    
    # 创建新的文件夹
    os.makedirs(os.path.join(train_dir, 'images'), exist_ok=True)
    os.makedirs(os.path.join(train_dir, 'labels'), exist_ok=True)
    os.makedirs(os.path.join(val_dir, 'images'), exist_ok=True)
    os.makedirs(os.path.join(val_dir, 'labels'), exist_ok=True)
    
    # 获取所有图像文件名
    image_files = [f for f in os.listdir(image_dir) if f.endswith('.jpg')]
    
    # 设置随机种子以保证结果可复现
    random.seed(42)
    
    # 打乱文件列表
    random.shuffle(image_files)
    
    # 计算训练集和验证集的数量
    split_index = int(0.8 * len(image_files))
    train_files = image_files[:split_index]
    val_files = image_files[split_index:]
    
    # 复制训练集文件
    for file_name in train_files:
        image_path = os.path.join(image_dir, file_name)
        label_path = os.path.join(label_dir, os.path.splitext(file_name)[0] + '.txt')
    
        # 复制图像文件
        shutil.copy(image_path, os.path.join(train_dir, 'images', file_name))
    
        # 复制标签文件
        shutil.copy(label_path, os.path.join(train_dir, 'labels', os.path.splitext(file_name)[0] + '.txt'))
    
    # 复制验证集文件
    for file_name in val_files:
        image_path = os.path.join(image_dir, file_name)
        label_path = os.path.join(label_dir, os.path.splitext(file_name)[0] + '.txt')
    
        # 复制图像文件
        shutil.copy(image_path, os.path.join(val_dir, 'images', file_name))
    
        # 复制标签文件
        shutil.copy(label_path, os.path.join(val_dir, 'labels', os.path.splitext(file_name)[0] + '.txt'))
    
    print("数据集划分完成")
    
  4. 配置facedetection.yaml:博主根据data/coco128.yaml文件,在data目录下同样配置了人脸目标检测的数据集配置文件facedetection.yaml。

    path: datasets/facedetection    # 数据集路径
    train: train/images             # 训练集
    val: val/images                 # 验证集
    nc: 1                           # 类别数量
    names: ['face']                 # 类别名:避免用中文
    
  5. 配置yolov3-face.yaml:博主根据models/yolov3.yaml文件,在models目录下同样配置了人脸目标检测的网络配置文件yolov3-face.yaml。

    # 复制yolov3.yaml只需修改类别数量
    nc: 1                           # 类别数量
    

YOLOV3运行

运行yolov3,建议增加虚拟内存!!!!不然内存不足会导致很多错误!!!

模型训练

train.py配置训练参数:在有标注的者训练集进行模型的训练,并在验证集上评估。

常用参数含义
weights:指定预训练模型的权重文件;
cfg:存储模型结构的配置文件;
data:存储训练、测试数据的配置文件;
batch-size:一次训练的图片数量;
img:输入图片宽高,根据需求和硬件条件修改;
device:模型运行的设备,cuda 0,1,2,3或者cpu.
其他参数在后续讲解具体代码的过程中再去解释。

训练运行以下命令:

python train.py --img 640 --epochs 300 --data data/facedetection.yaml --batch-size 4 --weights yolov3.pt --cfg yolov3-face.yaml --device 0  

weights 参数和 cfg 参数对应的模型有冲突,以 cfg 指定的模型为基准。


可能出现的问题:
1.问题:“_pickle.UnpicklingError: Weights only load failed. This file can still be loaded, to do so you have two options, do those steps only if you trust the source of the checkpoint.”

解决方式:

# 修改前
ckpt = torch.load(weights, map_location=device)  # load checkpoint
# 修改后
ckpt = torch.load(weights, map_location=device,weights_only=False)  # load checkpoint

2.问题“AttributeError: module ‘numpy’ has no attribute ‘int’.”

解决方式:将np.int替换成np.int64或者np.int32(推荐)
3.问题:“RuntimeError: result type Float can’t be cast to the desired output type __int64.”

解决方式:

# 修改前
gain = torch.ones(7, device=targets.device)  # normalized to gridspace gain
# 修改后
gain = torch.ones(7, device=targets.device).long()  # normalized to gridspace gain

4.问题:“AttributeError: ‘FreeTypeFont’ object has no attribute ‘getsize.’”
解决方式:

# 修改前
w, h = self.font.getsize(label)  # text width, height
w, h = self.font.getsize(text)  # text width, height
# 修改后
w, h = self.font.getbbox(label)[2:4]     # text width, height
w, h = self.font.getbbox(text)[2:4]  # text width, height

模型验证

val.py参数验证配置:在有标注的者验证集上进行模型效果的评估模型好坏,目标检测中最常使用的评估指标为mAP。

常用参数含义
data:存储训练、测试数据的配置文件;
weights:指定训练好的模型权重文件;
batch-size:一次验证的图片数量;
img:输入图片宽高,根据需求和硬件条件修改;
device:模型运行的设备,cuda 0,1,2,3或者cpu;
augment:额外的数据增强.
其他参数在后续讲解具体代码的过程中再去解释。

验证运行以下命令:

python val.py --img 640  --data data/facedetection.yaml --batch-size 4 --weights runs/train/exp/weights/best.pt  --device 0 --augment

这里博主随便找了一次训练过程中的中间训练权重进行演示,所以精度不是很高。

模型推理

detect.py配置推理参数:在没有标注的数据集上进行推理。

常用参数含义
weights:指定训练好的模型权重文件;
source:测试图片的保存路径;
device:模型运行的设备,cuda 0,1,2,3或者cpu;
–conf-thres:指定置信度阈值;
–iou-thres:非极大值抑制IoU 阈值;
其他参数在后续讲解具体代码的过程中再去解释。

推理运行以下命令:

python detect.py --weights runs/train/exp/weights/best.pt --source data/images --device 0 --conf-thres 0.7 --iou-thres 0.3


在runs/detect/exp获得输出:

导出onnx模型

export.py配置推理参数:

常用参数含义
weights:指定训练好的模型权重文件;
include:导出的模型类型;
其他参数在后续讲解具体代码的过程中再去解释。

导出运行以下命令:

python export.py --weights runs/train/exp/weights/best.pt --include onnx


总结

尽可能简单、详细的介绍了YOLOV3的安装流程以及YOLOV3的使用方法。后续会根据自己学到的知识结合个人理解讲解YOLOV3的原理和代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320852.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

html5-qrcode前端打开摄像头扫描二维码功能

实现的效果如图所示,全屏打开并且扫描到二维码后弹窗提醒,主要就是使用html5-qrcode这个依赖库,html5-qrcode开源地址:GitHub - mebjas/html5-qrcode: A cross platform HTML5 QR code reader. See end to end implementation at:…

ui_auto_study(持续更新)

通过where python来找到python解释器的安装目录 如果不适配,谷歌浏览器插件可以在这个地址下载对应的驱动 谷歌浏览器驱动下载地址 下载对应的驱动版本,替换原驱动 替换后,可以执行成功 div代表标签 .开头的代表类# 使用class定位元素 …

【nodejs】爬虫路漫漫,关于nodejs的基操

一.下载安装nodejs 官网地址:Node.js — 在任何地方运行 JavaScript 二.下载安装vscode代码编辑器 官网地址:Download Visual Studio Code - Mac, Linux, Windows 三.修改本地脚本策略 1,windowsi 打开电脑设置 2,输入powersh…

常见中间件漏洞攻略-Jboss篇

一、CVE-2015-7501-Jboss JMXInvokerServlet 反序列化漏洞 第一步:开启靶场 第二步:访问该接口,发现直接下载,说明接⼝开放,此接⼝存在反序列化漏洞 http://47.103.81.25:8080/invoker/JMXInvokerServlet 第三步&…

quartz.net条件执行

quartz.net条件执行 在使用Quartz.NET时,你可能需要基于某些条件来决定是否执行一个任务。Quartz.NET本身并不直接支持基于条件执行任务的功能,但你可以通过一些策略来实现这一需求。下面是一些方法来实现基于条件的任务执行: 1. 使用触发器…

docker利用ollama +Open WebGUI在本地搭建部署一套Deepseek-r1模型

系统:没有限制,可以运行docker就行 磁盘空间:至少预留50GB; 内存:8GB docker版本:4.38.0 桌面版 下载ollama镜像 由于docker镜像地址,网络不太稳定,建议科学上网的一台服务器拉取ollama镜像&am…

ccfcsp3302相似度计算

//相似度计算 #include<iostream> #include<set>//不重复 #include<string> using namespace std; int main() {int n, m;cin >> n >> m;set<string>str1;set<string>str2;for(int i0;i<n;i){string s;cin>>s;for(int j0;…

DeepSeek和Kimi在Neo4j中的表现

以下是2个最近爆火的人工智能工具&#xff0c; DeepSeek:DeepSeek Kimi: Kimi - 会推理解析&#xff0c;能深度思考的AI助手 1、提示词&#xff1a; 你能帮我生成一个知识图谱吗&#xff0c;等一下我会给你一篇文章&#xff0c;帮我从内容中提取关键要素&#xff0c;然后以N…

【Java】TCP网络编程:从可靠传输到Socket实战

活动发起人小虚竹 想对你说&#xff1a; 这是一个以写作博客为目的的创作活动&#xff0c;旨在鼓励大学生博主们挖掘自己的创作潜能&#xff0c;展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴&#xff0c;那么&#xff0c;快来参加吧&#xff01…

剑指小米特斯拉:秦L EV上市11.98万起

3月23日&#xff0c;比亚迪王朝网推出全新中级纯电轿车秦L EV&#xff0c;价格区间为11.98万-13.98万元&#xff0c;瞬间火爆市场。 依托e平台3.0 Evo技术赋能&#xff0c;秦L EV以“国潮设计、智能座舱、越级空间、高效安全、高阶智驾”五大核心优势&#xff0c;直击年轻用户痛…

蓝桥杯高频考点——并查集(心血之作)

并查集 TA Can Do What & why learningwhatwhy 原理和结构路径压缩例题讲解题解solution 1&#xff08;50分&#xff09;solution 2&#xff08;100分&#xff09; 按秩(树高)合并按大小合并 TA Can Do What & why learning 从字面意思上来理解就是&#xff0c;合并&a…

Flutter 学习之旅 之 flutter 使用 connectivity_plus 进行网路状态监听(断网/网络恢复事件监听)

Flutter 学习之旅 之 flutter 使用 connectivity_plus 进行网路状态监听&#xff08;断网/网络恢复事件监听&#xff09; 目录 Flutter 学习之旅 之 flutter 使用 connectivity_plus 进行网路状态监听&#xff08;断网/网络恢复事件监听&#xff09; 一、简单介绍 二、conne…

Redisson 分布式锁原理

加锁原理 # 如果锁不存在 if (redis.call(exists, KEYS[1]) 0) then# hash结构,锁名称为key,线程唯一标识为itemKey&#xff0c;itemValue为一个计数器。支持相同客户端线程可重入,每次加锁计数器1.redis.call(hincrby, KEYS[1], ARGV[2], 1);# 设置过期时间redis.call(pexpi…

【STM32】SPI通信外设硬件SPI读写W25Q64

SPI通信协议和W25Q64存储器芯片解读笔记&#xff1a; 【STM32】SPI通信协议&W25Q64Flash存储器芯片&#xff08;学习笔记&#xff09;-CSDN博客 SPI通信外设 SPI外设简介 STM32内部集成了硬件SPI收发电路&#xff0c;可以由硬件自动执行时钟生成、数据收发等功能&…

Spring JDBC Template与事务管理:基于XML与注解的实战指南

摘要 本文深入解析Spring JDBC Template与事务管理的核心技术&#xff0c;结合XML配置与注解方式两种主流方案&#xff0c;通过转账案例完整演示数据库操作与事务管理的最佳实践。文章涵盖JDBC Template的核心用法、事务配置语法、常见问题及性能优化建议&#xff0c;帮助开发…

【Keil5-开发技巧】

Keil5-开发技巧 ■ Keil5利用AStyle插件格式化代码第一步:下载AStyle插件第二步:添加AStyle插件第三步:AStyle插件介绍■ 一键转UTF-8编码■ Keil5利用AStyle插件格式化代码 第一步:下载AStyle插件 AStyle下载 第二步:添加AStyle插件 解压后 astyle-3.6.7-x64 在重命…

电脑上不了网普通用户排除方法

1&#xff1a;首先通过电脑的运行/CMD/ipconfig /all 命令查看电脑的ip地址是否正常如图&#xff1a; 2&#xff1a;在命令行中运行&#xff1a;ping 127.0.0.1 如图则正常&#xff0c;否则要重新安装网卡驱动 程序。 3&#xff1a;用ping命令&#xff0c;ping一下同网段的电…

【C#】WinForm自定义控件及窗体

前言 WinForm&#xff08;Windows Forms&#xff09;是Microsoft.NET框架中的技术&#xff0c;用于开发Windows桌面应用程序。它提供了一套丰富的控件和组件。通过拖放控件、编写事件处理程序等方式快速构建用户界面。 通过属性窗口定制这些控件的外观和行为。 通过数据绑定&am…

基于虚拟知识图谱的语义化决策引擎

在数字化转型浪潮中&#xff0c;企业数据资产的价值释放面临两大挑战&#xff1a;海量异构数据的整合困局与业务-技术语义鸿沟。本文解析飞速创软灵燕智能体平台的创新解决方案——通过构建业务语义驱动的虚拟知识图谱系统&#xff0c;实现企业数据的智能认知与决策赋能。 一、…

HarmonyOS:@AnimatableExtend 装饰器自学指南

在最近的项目开发中&#xff0c;我遇到了需要实现复杂动画效果的需求。在探索解决方案的过程中&#xff0c;我发现了 AnimatableExtend 装饰器&#xff0c;它为实现动画效果提供了一种非常灵活且强大的方式。然而&#xff0c;在学习这个装饰器的过程中&#xff0c;我发现相关的…