YOLOv5课堂行为识别系统+GUI界面

news2025/1/9 16:40:07

课堂行为检测 gui/课堂行为识别系统/YOLOv5课堂行为识别/ yolov5/opencv/计算机视觉/python程序/深度学习/pytorch

数据集+标注/配置好环境程序可直接运行/带UI界面/代码+数据集/代码+数据集

［功能］图片识别/视频识别/摄像头识别损失/准确率等数据可在tensorboard中查看

［种类］可识别hand-raising/reading/writing/using phone/bowing the head/leaning over the table/共6种已经训练好了，有各种训练结果图，如果需要也可以自行训练。

项目介绍：基于YOLOv5的课堂行为识别系统

项目概述

本项目旨在开发一个基于YOLOv5的课堂行为识别系统，能够实时或离线地检测和识别课堂中的六种典型行为：举手（hand-raising）、阅读（reading）、书写（writing）、使用手机（using phone）、低头（bowing the head）和伏桌（leaning over the table）。系统使用Python编程语言，结合OpenCV、PyTorch等库，并提供了图形用户界面（GUI），使得用户能够轻松地进行图片识别、视频识别和摄像头实时识别。

项目特点

多种识别模式：支持图片识别、视频识别和摄像头实时识别。
实时监控：能够实时检测课堂中的学生行为，提供即时反馈。
图形用户界面：使用Python的GUI库开发，界面友好，操作简单。
深度学习模型：基于YOLOv5框架，利用PyTorch进行模型训练和推理。
数据可视化：训练过程中产生的损失、准确率等数据可以在TensorBoard中查看。
全面的行为识别：能够识别六种典型的课堂行为，满足多种应用场景需求。
预训练模型：已训练好的模型可以直接使用，同时提供了训练脚本以便进一步优化模型。

技术栈

Python：主要编程语言。
YOLOv5：基于PyTorch的实时目标检测框架。
OpenCV：用于图像处理和视频流处理。
PyTorch：用于模型训练和推理。
TensorBoard：用于可视化训练过程中的损失和准确率等数据。
GUI库：用于开发用户界面，例如Tkinter或PyQt。

系统功能

图片识别：用户可以选择一张图片，系统将识别图片中的学生行为。
视频识别：用户可以上传一段视频，系统将实时分析视频中的学生行为。
摄像头实时识别：系统可以连接到摄像头，实时监控课堂中的学生行为。

数据集与标注

数据集：包含大量的课堂行为图片，每张图片均带有详细的标注信息。
标注信息：采用YOLO格式的标注文件，每张图片对应一个.txt文件，包含每个行为的边界框和类别标签。
数据集划分：数据集分为训练集、验证集和测试集，用于模型训练、验证和测试。

关键代码示例

以下是一个简化的Python代码示例，展示如何使用YOLOv5进行实时摄像头识别：

1import cv2
2import torch
3from models.experimental import attempt_load
4from utils.datasets import LoadStreams
5from utils.general import check_img_size, non_max_suppression, scale_coords
6from utils.torch_utils import select_device
7
8# 加载预训练模型
9weights = 'best.pt'  # 模型权重文件路径
10device = select_device('')  # 使用GPU加速
11model = attempt_load(weights, map_location=device)  # 加载模型
12stride = int(model.stride.max())  # 模型步长
13names = model.module.names if hasattr(model, 'module') else model.names  # 类别名称
14imgsz = check_img_size(640, s=stride)  # 输入图像大小
15
16# 开始视频流
17view_img = True  # 是否显示识别结果
18dataset = LoadStreams('0', img_size=imgsz, stride=stride)  # 0 表示默认摄像头
19
20# 运行识别
21for path, img, im0s, vid_cap in dataset:
22    img = torch.from_numpy(img).to(device)
23    img = img.float()  # uint8 to fp16/32
24    img /= 255.0  # 0 - 255 to 0.0 - 1.0
25    if img.ndimension() == 3:
26        img = img.unsqueeze(0)
27
28    # 推理
29    pred = model(img, augment=False)[0]
30
31    # NMS
32    pred = non_max_suppression(pred, 0.25, 0.45, classes=None, agnostic=False)
33
34    # 处理每一帧
35    for i, det in enumerate(pred):  # detections per image
36        p, s, im0, frame = path[i], '%g: ' % i, im0s[i].copy(), dataset.count
37        if len(det):
38            # Rescale boxes from img_size to im0 size
39            det[:, :4] = scale_coords(img.shape[2:], det[:, :4], im0.shape).round()
40
41            # 打印结果
42            for *xyxy, conf, cls in reversed(det):
43                label = f'{names[int(cls)]} {conf:.2f}'
44                plot_one_box(xyxy, im0, label=label, color=[255, 0, 0], line_thickness=3)
45
46        # 显示图像
47        if view_img:
48            cv2.imshow(str(p), im0)
49            if cv2.waitKey(1) == ord('q'):  # 按q退出
50                raise StopIteration
51
52# 清理
53cv2.destroyAllWindows()