基于Mediapipe深度学习算法的手势识别系统【含python源码+PyqtUI界面+原理详解】-python手势识别 深度学习实战项目

news2024/11/25 19:15:25

功能演示

在这里插入图片描述

摘要:手势识别是一种通过技术手段识别视频图像中人物手势的技术。本文详细介绍了手势识别实现的技术原理,同时基于pythonpyqt开发了一款带UI界面的手势识别系统软件,以便于进行结果显示。手势识别采用了mediapipe的深度学习算法进行手掌检测与手部的关键点定位,实时检测速度快、识别精度高。该软件可以支持图片视频以及摄像头这3种方式进行手部动作识别,并可在界面实时显示相关检测结果。本文提供了完整的Python代码和使用教程,给感兴趣的小伙伴参考学习,完整的代码资源文件获取方式见文末。

文章目录

  • 功能演示
  • 前言
  • 一、软件核心功能介绍及效果演示
  • 二、手势识别的基本原理
    • 1.基本原理
    • 2. 代码实现
  • 【获取方式】
  • 结束语

点击跳转至文末《完整相关文件及源码》获取


前言

手势识别技术是一种将人类手部的动作转化为机器可理解形式的技术。它可以通过分析图像或视频中的手部或身体动作,来识别并理解用户的意图或指令。手势识别技术广泛应用于人机交互、虚拟现实、增强现实、智能监控等领域。通过手势识别技术,用户可以使用手势进行操作和交互,从而提供更加自然、直观的用户体验。

手势识别技术目前正处于快速发展阶段,并取得了很多重要的研究进展。以下是手势识别技术目前常见的一些研究:
1.传感器技术:传感器技术在手势识别中起着关键作用。例如,深度相机、红外传感器和摄像头等设备能够捕捉到人体的姿态和动作信息。
2.深度学习:深度学习方法在手势识别中被广泛应用。通过使用深度神经网络模型,可以实现对复杂手势的准确识别和分类。
3.实时性:实时手势识别是当前研究的一个重点。研究人员致力于提高算法的效率和响应速度,以满足实时交互的需求。
4.多模态融合:多模态手势识别结合了多种传感器数据,如图像、声音和运动数据,以提高识别准确度和鲁棒性。
5.应用:手势识别技术在各个领域都有广泛应用。例如,在虚拟现实和增强现实中,手势识别可用于交互和控制;在医疗领域,手势识别可用于康复训练和手术操作辅助等。

博主根据Mediapipe框架中的深度学习算法进行手势识别检测,并基于此开发了一款结果可视化的手势识别系统,可以通过图片视频摄像头3种方式进行手部跟踪与手势识别,并且展示相应识别结果。可以识别数字以及其他多种常见的手部姿势,感兴趣的小伙伴可以自己试试。

软件初始界面如下图:
在这里插入图片描述
手势识别的界面如下,可识别画面中存在的多个手势,并区分左右手,同时也支持开启摄像头或视频检测:
在这里插入图片描述

一、软件核心功能介绍及效果演示

手势识别系统主要功能包括以下几个部分:
1. 支持图片视频以及摄像头这3种方式进行手部动作识别;
2. 可区分左右手,并显示相应手部的坐标位置,以及21个手部关键点;
3. 可显示每只手的伸出手指数
4. 可识别多种常见手势结果,并在界面上显示;

(1)图片手势识别
点击打开图片按钮,选择需要识别的图片即可,操作演示如下:
在这里插入图片描述
(2)视频手势识别
点击打开视频按钮,选择需要识别的视频即可,操作演示如下:
在这里插入图片描述

(3)摄像头手势识别
点击打开摄像头按钮,即可开启摄像头,再次点击该按钮,会关闭摄像头,操作演示如下:
在这里插入图片描述

二、手势识别的基本原理

1.基本原理

Mediapipe是Google开源的一个多媒体处理框架,旨在为开发者提供高效、可扩展的数据流图(dataflow graph)方式来构建多媒体应用程序。它提供了一系列预训练好的模型和工具,用于处理视频、音频、姿势估计、手势识别等多媒体任务。

Mediapipe进行手势识别的基本原理是通过检测和跟踪手部关键点来识别手势。它使用了深度学习模型和计算机视觉技术来实现这一目标。首先,mediapipe使用大量的手部图像数据进行训练,以构建一个手部姿势估计模型。在进行检测时,mediapipe加载训练好的模型,并将输入的图像传递给模型。模型会检测图像中的手部区域,并定位手部关键点的位置。一旦检测到手部关键点的位置,mediapipe会利用计算机视觉技术对这些关键点进行跟踪。这有助于在连续帧之间保持关键点的一致性,以提高识别准确性。然后,根据手部关键点的位置和动作,mediapipe可以将手势分为不同的类别。这些类别可以包括手势如拳头、平手、手势指令等。

2. 代码实现

Mediapipe库基于C++实现,并提供了Python接口,使得开发者能够方便地使用这些功能。下面是使用mediapipe进行手势识别的基本原理:
安装:首先,需要安装mediapipe库。可以通过pip命令进行安装:

pip install mediapipe

导入库:导入mediapipe库和其他必要的依赖项。

python
import cv2
import mediapipe as mp

加载模型:使用mediapipe加载已经训练好的手部关键点模型。

mp_hands = mp.solutions.hands
hands = mp_hands.Hands()
mp_drawing = mp.solutions.drawing_utils

手势识别:打开摄像头并读取视频帧,将每一帧传递给hands.process()方法进行手势识别。

# coding:utf-8
cap = cv2.VideoCapture(0)  # 打开摄像头
while True:
    ret, frame = cap.read()  # 读取视频帧
    if not ret:
        break
    image = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)  # 转换颜色空间
    results = hands.process(image)  # 手势识别

    # 处理识别结果
    if results.multi_hand_landmarks:
        for hand_landmarks in results.multi_hand_landmarks:
            mp_drawing.draw_landmarks(
                frame,
                hand_landmarks,
                mp_hands.HAND_CONNECTIONS) # 用于指定地标如何在图中连接。

            for point in hand_landmarks.landmark:
                x = int(point.x * frame.shape[1])
                y = int(point.y * frame.shape[0])
                cv2.circle(frame, (x, y), 5, (0, 255, 0), -1) # 画出关键点

    cv2.imshow('Gesture Recognition', frame)  # 显示结果
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()

在上述代码中,我们首先导入了mediapipe库和其他必要的依赖项。然后,使用mp.solutions.hands.Hands()加载手部关键点模型,并打开摄像头读取视频帧。每一帧都传递给hands.process()方法进行手势识别。返回的结果包含检测到的手部关键点的位置信息,我们可以根据这些信息进行相应的处理。手部关键点位置如下图:
在这里插入图片描述

通过遍历识别结果中的多个手部关键点,我们可以获取每个关键点在图像中的坐标,并在图像上绘制圆形表示关键点的位置。最后,使用cv2.imshow()方法显示结果,并通过cv2.waitKey()检测按键操作。

这就是使用mediapipe进行手势识别的基本原理。通过结合mediapipe库提供的预训练模型和API,开发者可以更轻松地构建手势识别应用程序。
下图是摄像头检测结果:
在这里插入图片描述

根据以上原理,博主基于python+ pyqt5开发了一个手势识别系统软件,可以用于显示手势识别的结果。也就是第二部分介绍的软件功能内容。关于该手势识别系统的涉及到的完整源码、UI界面代码等相关文件,均已打包上传,感兴趣的小伙伴可以通过下载链接自行获取。


【获取方式】

关注下方名片G-Z-H:【阿旭算法与机器学习】,回复【手势识别】即可获取下载方式

本文涉及到的完整全部程序文件:包括python源码、UI文件等(见下图),获取方式见文末:
在这里插入图片描述

注意:该代码采用Pycharm+Python3.8开发,运行界面的主程序为MainProgram.py,,摄像头测试脚本可运行MyCameraTest.py。并提供了环境一键配置脚本文件:installPackages.py。为确保程序顺利运行,请按照程序环境配置说明.txt配置软件运行所需环境。

关注下方名片GZH:【阿旭算法与机器学习】,回复【手势识别】即可获取下载方式


结束语

以上便是博主开发的关于手势识别系统的全部内容,由于博主能力有限,难免有疏漏之处,希望小伙伴能批评指正
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

觉得不错的小伙伴,感谢点赞、关注加收藏哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/740548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[MMDetection]绘制PR图

评价指标 平均精度与平均召回率 AP 是所有类别的平均值。传统上,这称为“平均精度”(mAP)。我们不区分 AP 和 mAP(同样,AR 和 mAR) APAP at IoU.50:.05:.95 (primary challenge metric)AP50AP at IoU.50 (PASCAL VOC metric)AP…

数据结构初阶--绪论

目录 一.什么是数据结构 二.什么是算法 三.算法的时间复杂度 四.算法的空间复杂度 五.复杂度练习 题一:消失的数字 题二:旋转数组 一.什么是数据结构 数据结构:是相互之间存在一种或多种特定关系的数据元素的集合。 数据结构的三要素…

【LittleXi】 N-gram模型(C++实现)

LittleXi N-gram模型(C实现)马尔科夫性 (独立性假设)代码实现英文训练版本中文训练版本 训练效果 N-gram模型(C实现) 定义:通俗地讲,就是利用前文的单词,来推算下一个最大概率出现的单词 马尔…

Web入门-Web服务器

Web服务器是一个程序软件,对HTTP协议的操作进行封装,使得程序员不必直接对程序进行操作,让Web开发更加便捷,简化web程序开发。主要功能是“通过网上信息浏览服务”。 Tomcat 概念:Tomcat是阿Apache软件基金会一个核心…

Coggle 30 Days of ML(23年7月)任务八:训练BILSTM模型

Coggle 30 Days of ML(23年7月)任务八:训练BILSTM模型 任务八:使用Word2Vec词向量,搭建BILSTM模型进行训练和预测 说明:在这个任务中,你将使用Word2Vec词向量,搭建BILSTM模型进行文…

【雕爷学编程】Arduino动手做(158)---VL53L0X激光测距模块3

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

从零开始制作一个Web蜜罐扫描器(2)

从零开始制作一个Web蜜罐扫描器(0)_luozhonghua2000的博客-CSDN博客 从零开始制作一个Web蜜罐扫描器(1)_luozhonghua2000的博客-CSDN博客 文件读取和写入实现 上面的工作已经完成了逻辑判断的部分,下面还需要进一步完善一些旁支末节的部分因为爬虫生成的文件是一个ison文件…

熵权法 —— matlab

目录 一、熵权法介绍 二、熵权法赋权步骤 1.指标正向化 mapminmax介绍 2.数据标准化 3.计算信息熵 4.计算权重以及得分 三、实例分析 1.读取数据 2.指标正向化 2.1 越小越优型处理 2.2 某点最优型指标处理 3.数据标准化 4.计算信息熵 5.计算权重 6.计算得分 总…

第三章 技术选型

1、需要考虑以下几点 可控性 必须有人可以兜底,可以解决 稳定性 修改的版本最好可以上下兼容 核心项目不要用最新的技术 commit的时长 是否有团队维护 适用性 更多人都会的技术 易用性 学习曲线 2、有哪些好用的移动端React组件库 3、为什么使用NestJS 1、最像…

【LeetCode: 16. 最接近的三数之和 | 双指针专题 】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

港联证券|涨停不封板意味着什么?

涨停不封板或许是因为股票价格到达了涨停价,可是买卖量还未到达涨停板规则的要求,因而买卖并没有被暂停。涨停不封板也有或许是个股当天涨停之后,又呈现开板的状况。 总归,涨停不封板意味着上方的抛压较多,空方力气大于…

Node.js开发

Node.js是一个基于V8 JavaScript引擎的JavaScript运行时环境。 也就是说Node.js基于V8引擎来执行JavaScript的代码,但是不仅仅只有V8引擎:  前面我们知道V8可以嵌入到任何C 应用程序中,无论是Chrome还是Node.js,事实上都是嵌入…

C++智能指针使用及原理

在讲解之前,先讲述一种RAII思想. 目录 RAII 智能指针原理 auto_ptr auto_ptr的介绍 auto_ptr的实现 unique_ptr unique_ptr的介绍 unique_ptr实现 shared_ptr shared_ptr的介绍 shared_ptr实现 weak_ptr weak_ptr的介绍 weak_ptr的实现 RAII RAII&a…

西安大华时代网络科技有限公司

大华时代是行业领先的软件与信息技术服务企业。我们拥有专业的团队和先进的技术,在金融、电信、高科技和互联网等行业,为客户提供优质的产品、先进的解决方案和热情的服务!

【SpringBoot + Mybatis系列】插件机制 Interceptor

【SpringBoot Mybatis系列】插件机制 Interceptor 在 Mybatis 中,插件机制提供了非常强大的扩展能力,在 sql 最终执行之前,提供了四个拦截点,支持不同场景的功能扩展 Executor (update, query, flushStatements, commit, rollbac…

mysql check slow_log造成锁-waiting for table level lock

背景: 我们在生产环境使用mysql的时候开启了slow_log 记录表,但有的时候由于记录数据过大,造成该表损坏 ERROR 1194 (HY000): Table slow_log is marked as crashed and should be repaired 这时候就想着用check table 命令来看看表是否正…

云服务器下WordPress发送邮件的设置

WordPress的邮件功能很强大,可以实现用户密码以往后自助恢复等问题。 WordPress默认是使用php发邮件的,php需要配置好smtp(端口25)服务器及密码。这种方式不直观,因此一般都用smtp插件,常用的插件是WP Mai…

FastDDS 源码剖析:src/cpp/fastdds 源码结构与Publisher源码分析

目录 源码结构 Publisher分析 Publisher 类分析 PublisherIImpl 类分析 源码结构 —builtin:该目录包含FastDDS使用的内置类型和协议的实现。 —core:该目录包含FastDDS库中使用的核心类和函数。这包括处理错误、管理内存和处理线程的类。 --domain:此目录包含DomainPart…

本地资源检测 自定义规则 零基础上手指南

本地资源检测是UWA推出的、面向于静态资源的全量分析。可以全面自动检测项目静态工程内各项资源、代码和设置,能够帮助项目组制定合理的资源与代码标准,及时发现潜在的性能问题和异常错误,建立有效的开发规范。其中“自定义规则”功能特别获得…

docker 安装zookeeper单机版

1. 安装版本3.5.7, 也可以自己去官网找到自己需要的版本复制命令即可 https://hub.docker.com/_/zookeeper/tags docker pull zookeeper:3.5.7 2. 创建映射文件夹: #1. 在centos中创建三个文件夹 mkdir -p /home/zookeeper/conf mkdir -p /home/zookeeper/data mkd…