Opencv项目实战:基于dlib的疲劳检测

news2025/1/21 12:13:24

文章目录

  • 一、项目简介
  • 二、算法原理
  • 三、环境配置
    • 3.1、dlib人脸检测器:dlib.get_frontal_face_detector()
    • 3.2、dlib关键点定位工具:shape_predictor_68_face_landmarks.dat
  • 四、项目实战(加载视频)
  • 五、项目实战(摄像头获取帧图像)

一、项目简介

本项目基于dlib库提供的人脸检测器关键点定位工具以及眼睛纵横比算法完成。通过分析摄像头或视频流中的人脸,实时计算眼睛纵横比EAR(Eye Aspect Ratio),以判断眼睛是否闭合。通过统计眨眼次数,可以检测出眨眼的频率和时长,用于评估用户的注意力水平或疲劳状态

二、算法原理

论文地址:https://vision.fe.uni-lj.si/cvww2016/proceedings/papers/05.pdf

在这里插入图片描述

  • 由于眨眼动作是一个过程,而不是一个帧图像就能瞬间完成。故设置连续帧数的阈值(=3),即连续三帧图像计算得到的EAR值都小于EAR的阈值(=3),则表示眨眼一次。
  • 眨眼检测与疲劳检测的区别就是连续帧数的阈值设置,原理相同!

三、环境配置

dlib库在计算机视觉和人工智能领域有广泛的应用,包括人脸识别、人脸表情分析、人脸关键点检测、物体检测和追踪等任务。它的简单易用性、高性能和丰富的功能使其成为研究人员和开发者的首选库之一。

  • dlib是一个开源的C++机器学习和计算机视觉库,提供了人脸检测、关键点定位、人脸识别等功能,以及支持向量机和其他机器学习算法的实现,具有高性能和跨平台支持。
  • dlib工具的python API下载地址:http://dlib.net/python/
  • dlib库包的介绍与使用:opencv+dlib人脸检测 + 人脸68关键点检测 + 人脸识别 + 人脸特征聚类 + 目标跟踪

3.1、dlib人脸检测器:dlib.get_frontal_face_detector()

dlib官方详细说明:dlib.get_frontal_face_detector()

3.2、dlib关键点定位工具:shape_predictor_68_face_landmarks.dat

dlib官方预训练工具的下载地址:http://dlib.net/files/
(1)5个关键点检测:shape_predictor_5_face_landmarks.dat。五个点分别为:左右眼 + 鼻子 + 左右嘴角
(2)68个关键点检测:shape_predictor_68_face_landmarks.dat

脸部关键点注释详细请看:https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/
在这里插入图片描述

四、项目实战(加载视频)

  • 【参数配置】方式一:Pycharm + Terminal + 输入指令自动检测:python detect_blinks.py --shape-predictor shape_predictor_68_face_landmarks.dat --video test.mp4
  • 【参数配置】方式二:Pycharm + 点击Edit Configuration,输入配置参数--shape-predictor shape_predictor_68_face_landmarks.dat --video test.mp4,点击Run开始检测。

在这里插入图片描述

# 导入所需库
from scipy.spatial import distance as dist
from collections import OrderedDict
import numpy as np
import argparse
import time
import dlib
import cv2

# 定义脸部关键点索引
FACIAL_LANDMARKS_68_IDXS = OrderedDict([
    ("mouth", (48, 68)),
    ("right_eyebrow", (17, 22)),
    ("left_eyebrow", (22, 27)),
    ("right_eye", (36, 42)),
    ("left_eye", (42, 48)),
    ("nose", (27, 36)),
    ("jaw", (0, 17))
])


# 计算眼睛纵横比函数
def eye_aspect_ratio(eye):
    # 计算垂直距离
    A = dist.euclidean(eye[1], eye[5])
    B = dist.euclidean(eye[2], eye[4])
    # 计算水平距离
    C = dist.euclidean(eye[0], eye[3])
    # 计算眼睛纵横比EAR
    ear = (A + B) / (2.0 * C)
    return ear


# 解析命令行参数
ap = argparse.ArgumentParser()
ap.add_argument("-p", "--shape-predictor", required=True, help="面部地标预测器路径")
ap.add_argument("-v", "--video", type=str, default="", help="输入视频文件路径")
args = vars(ap.parse_args())

# 设置EAR阈值和连续帧数
EYE_AR_THRESH = 0.3
EYE_AR_CONSEC_FRAMES = 3

# 初始化计数器
COUNTER = 0		# 计算连续帧数3
TOTAL = 0		# 若连续帧数==3,则总眨眼次数+1

# 加载面部地标预测器
print("[INFO] 正在加载面部地标预测器...")
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(args["shape_predictor"])

# 分别获取左眼和右眼坐标索引
(lStart, lEnd) = FACIAL_LANDMARKS_68_IDXS["left_eye"]
(rStart, rEnd) = FACIAL_LANDMARKS_68_IDXS["right_eye"]

# 读取视频
print("[INFO] 开始视频流...")
vs = cv2.VideoCapture(args["video"])
time.sleep(1.0)


# 将shape对象转换为numpy数组
def shape_to_np(shape, dtype="int"):
    # 创建一个dtype类型的空ndarray用于存储68个关键点的坐标
    coords = np.zeros((shape.num_parts, 2), dtype=dtype)
    # 遍历每个关键点,提取坐标并存储到ndarray中
    for i in range(0, shape.num_parts):
        coords[i] = (shape.part(i).x, shape.part(i).y)
    return coords


# 不断循环处理每一帧图像
while True:
    # 预处理
    frame = vs.read()[1]
    if frame is None:
        break

    # 调整图像大小
    (h, w) = frame.shape[:2]
    width = 1200		# 脸部大小会影响检测器的识别,太小可能会识别不到
    r = width / float(w)
    dim = (width, int(h * r))
    frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

    # 人脸检测
    rects = detector(gray, 0)

    # 遍历检测到的每个人脸
    for rect in rects:
        # 获取关键点坐标
        shape = predictor(gray, rect)
        shape = shape_to_np(shape)

        # 提取左眼和右眼区域坐标
        leftEye = shape[lStart:lEnd]
        rightEye = shape[rStart:rEnd]

        # 计算左右眼纵横比EAR
        leftEAR = eye_aspect_ratio(leftEye)
        rightEAR = eye_aspect_ratio(rightEye)

        # 计算平均纵横比
        ear = (leftEAR + rightEAR) / 2.0

        # 绘制眼睛区域轮廓(凸包)
        leftEyeHull = cv2.convexHull(leftEye)
        rightEyeHull = cv2.convexHull(rightEye)
        cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)
        cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)

        # 检查是否满足EAR阈值
        if ear < EYE_AR_THRESH:
            COUNTER += 1
        else:
            # 如果连续几帧都是闭眼的,增加总数
            if COUNTER >= EYE_AR_CONSEC_FRAMES:
                TOTAL += 1
            # 重置计数器
            COUNTER = 0

        # 在图像中,显示眨眼次数和纵横比
        cv2.putText(frame, "Blinks: {}".format(TOTAL), (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
        cv2.putText(frame, "EAR: {:.2f}".format(ear), (300, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)

    # 显示当前帧图像
    cv2.imshow("Frame", frame)
    key = cv2.waitKey(10) & 0xFF

    # 按下Esc键退出循环
    if key == 27:
        break


vs.release()				# 释放视频流
cv2.destroyAllWindows()		# 关闭所有窗口

五、项目实战(摄像头获取帧图像)

  • 【参数配置】方式一:Pycharm + Terminal + 输入指令自动检测:python detect_blinks.py --shape-predictor shape_predictor_68_face_landmarks.dat
  • 【参数配置】方式二:Pycharm + 点击Edit Configuration,输入配置参数--shape-predictor shape_predictor_68_face_landmarks.dat,点击Run开始检测。
# 导入所需库
from scipy.spatial import distance as dist
from collections import OrderedDict
import numpy as np
import argparse
import time
import dlib
import cv2

# 定义脸部关键点索引
FACIAL_LANDMARKS_68_IDXS = OrderedDict([
    ("mouth", (48, 68)),
    ("right_eyebrow", (17, 22)),
    ("left_eyebrow", (22, 27)),
    ("right_eye", (36, 42)),
    ("left_eye", (42, 48)),
    ("nose", (27, 36)),
    ("jaw", (0, 17))
])


# 计算眼睛纵横比函数
def eye_aspect_ratio(eye):
    # 计算垂直距离
    A = dist.euclidean(eye[1], eye[5])
    B = dist.euclidean(eye[2], eye[4])
    # 计算水平距离
    C = dist.euclidean(eye[0], eye[3])
    # 计算眼睛纵横比EAR
    ear = (A + B) / (2.0 * C)
    return ear


# 解析命令行参数
ap = argparse.ArgumentParser()
ap.add_argument("-p", "--shape-predictor", required=True, help="面部地标预测器路径")
args = vars(ap.parse_args())

# 设置EAR阈值和连续帧数
EYE_AR_THRESH = 0.3
EYE_AR_CONSEC_FRAMES = 3

# 初始化计数器
COUNTER = 0    # 计算连续帧数3
TOTAL = 0    # 若连续帧数==3,则总眨眼次数+1

# 加载面部地标预测器
print("[INFO] 正在加载面部地标预测器...")
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(args["shape_predictor"])

# 分别获取左眼和右眼坐标索引
(lStart, lEnd) = FACIAL_LANDMARKS_68_IDXS["left_eye"]
(rStart, rEnd) = FACIAL_LANDMARKS_68_IDXS["right_eye"]

# 读取视频
print("[INFO] 开始视频流...")
vs = cv2.VideoCapture(0)
time.sleep(1.0)

# 将shape对象转换为numpy数组
def shape_to_np(shape, dtype="int"):
    # 创建一个dtype类型的空ndarray用于存储68个关键点的坐标
    coords = np.zeros((shape.num_parts, 2), dtype=dtype)
    # 遍历每个关键点,提取坐标并存储到ndarray中
    for i in range(0, shape.num_parts):
        coords[i] = (shape.part(i).x, shape.part(i).y)
    return coords

# 不断循环处理每一帧图像
while True:
    # 预处理
    ret, frame = vs.read()
    if not ret:
        break

    # 调整图像大小
    (h, w) = frame.shape[:2]
    width = 1200    # 脸部大小会影响检测器的识别,太小可能会识别不到
    r = width / float(w)
    dim = (width, int(h * r))
    frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

    # 人脸检测
    rects = detector(gray, 0)

    # 遍历检测到的每个人脸
    for rect in rects:
        # 获取关键点坐标
        shape = predictor(gray, rect)
        shape = shape_to_np(shape)

        # 提取左眼和右眼区域坐标
        leftEye = shape[lStart:lEnd]
        rightEye = shape[rStart:rEnd]

        # 计算左右眼纵横比EAR
        leftEAR = eye_aspect_ratio(leftEye)
        rightEAR = eye_aspect_ratio(rightEye)

        # 计算平均纵横比
        ear = (leftEAR + rightEAR) / 2.0

        # 绘制眼睛区域轮廓(凸包)
        leftEyeHull = cv2.convexHull(leftEye)
        rightEyeHull = cv2.convexHull(rightEye)
        cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)
        cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)

        # 检查是否满足EAR阈值
        if ear < EYE_AR_THRESH:
            COUNTER += 1
        else:
            # 如果连续几帧都是闭眼的,增加总数
            if COUNTER >= EYE_AR_CONSEC_FRAMES:
                TOTAL += 1
            # 重置计数器
            COUNTER = 0

        # 在图像中,显示眨眼次数和纵横比
        cv2.putText(frame, "Blinks: {}".format(TOTAL), (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
        cv2.putText(frame, "EAR: {:.2f}".format(ear), (300, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)

    # 显示当前帧图像
    cv2.imshow("Frame", frame)
    key = cv2.waitKey(1) & 0xFF

    # 按下Esc键退出循环
    if key == 27:
        break


vs.release()             # 释放视频流
cv2.destroyAllWindows()     # 关闭所有窗口

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/625171.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件测试猿和bug的爱恨情仇

对程序猿来说改bug可以位列开发过程中最讨厌的事之首了&#xff0c;这么讲应该没有人会反对吧&#xff1f;因为就连Java之父詹姆斯高斯林也很讨厌Bug。 另一方面对于测试猿来说工作职责就是尽可能多地找出bug&#xff0c;并确保其得以解决。所以被程序猿视为眼中钉肉中刺的bug可…

Doris半结构化数据分析(倒排索引使用)快速入门

1. 背景 Apache Doris2.0 基于Apache Doris向量化MPP引擎&#xff0c;增加了倒排索引和半结构化JSON数据支持&#xff0c;更好地满足日志存储、检索、分析需求。与基于ES的日志存储方案相比&#xff0c;有如下优势&#xff1a; 性价比提升&#xff1a;存储成本降低50%以上&am…

‍☠️stm32Cubemx欠采样原理讲解与实现 采集高频信号

&#x1f3f4;‍☠️STM32Cubemx ADCTIMDMA欠采样采集高频信号 本文主要讲解ADC借助欠采样采集高频信号&#xff0c;比如使用100k左右的采样率去采集1M的信号。 所需工具&#xff1a; 开发板:STM32F103RCT6STM32CubeMXIDE: Keil-MDK 相关文章&#xff1a; STM32HAL ADCTIM…

2核4G轻量服务器阿里云和腾讯云区别对比

阿里云轻量应用服务器2核4G4M带宽297.98元12个月&#xff0c;腾讯云轻量2核4G5M服务器168元一年&#xff0c;628元3年&#xff0c;2核4G轻量应用服务器阿里云和腾讯云怎么选择&#xff1f;哪个性能比较好&#xff1f;阿腾云分享轻量应用服务器2核4G配置阿里云和腾讯云CPU、带宽…

打破互联网思维,我们该如何思考?

在会议上&#xff0c;你是否流程规范讲到一半突然卡逻辑、测分会议疯狂输出周围却一脸问号&#xff1f;提交缺陷时&#xff0c;你又是否被告知看不懂&#xff0c;要求补充信息&#xff1f;受挫时捶胸顿足“表达可太太太重要了&#xff0c;难道我天生脑子转的就比别人慢&#xf…

基于深度学习的高精度红外行人车辆检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要&#xff1a;基于深度学习的高精度红外行人车辆检测识别系统可用于日常生活中或野外来检测与定位红外行人车辆目标&#xff0c;利用深度学习算法可实现图片、视频、摄像头等方式的红外行人车辆目标检测识别&#xff0c;另外支持结果可视化与图片或视频检测结果的导出。本系…

围绕中国旅行商问题完成综合性实验报告 旅行商问题

题目&#xff1a;围绕中国旅行商问题完成综合性实验报告 旅行商问题&#xff08;TSP问题&#xff09;。 假设有一个旅行商人要拜访全国31个省会城市&#xff0c;它需要选择所要走的路径&#xff0c;路径的限制是每个城市只能拜访一次&#xff0c;而且最后要回到原来出发的城市。…

【裸机驱动LED】使用C代码驱动LED(三)—— C代码编写篇

前面只使用了汇编代码来驱动LED&#xff0c;但是对于后续一些比较复杂的逻辑&#xff0c;使用汇编代码编写驱动的难度太大&#xff0c;因此&#xff0c;这次我们要使用C语言代码来驱动LED。 除了C代码外&#xff0c;依然需要编写汇编代码&#xff0c;在没有OS的情况下&#xf…

基于黄金莱维引导机制的阿基米德优化算法(MSAOA)-附代码

基于黄金莱维引导机制的阿基米德优化算法(MSAOA) 文章目录 基于黄金莱维引导机制的阿基米德优化算法(MSAOA)1.阿基米德优化算法2. 改进阿基米德优化算法2.1 变区间初始化策略2.2 黄金莱维引导机制2.3 自适应波长算子 3.实验结果4.参考文献5.Matlab代码6.Python代码 摘要&#x…

什么是接口测试?怎么做接口测试?Apifox 教你做!

目录 前言&#xff1a; 一、什么是接口测试&#xff1f; 二、接口测试的步骤 三、接口测试工具的选择 四、总结 前言&#xff1a; 随着互联网和移动互联网的发展&#xff0c;企业面对着越来越庞大和复杂的系统和数据接口。在这种情况下&#xff0c;手动测试不再能够满足测…

修复uproject右键菜单完全解决方案办法

在你电脑中找到UnrealVersionSelector通常和epiclauncher是同一个根目录 epiclauncher路径是:D:\MyEpic\Epic Games\Launcher\Portal\Binaries\Win32\EpicGamesLauncher.exe UnrealVersionSelector.exe的路径是:D:\\MyEpic\\Epic Games\\Launcher\\Engine\\Binaries\\Win64\\Un…

探索新科技:3DVR电子楼书引领视觉体验革命

导语&#xff1a; 近年来&#xff0c;科技的迅猛发展引领着我们进入一个全新的数字化时代。在这个时代&#xff0c;虚拟现实和电子书成为了许多领域的热门话题。 接下来&#xff0c;让我们一起探索一个引人注目的技术创新&#xff0c;将虚拟现实和电子书完美结合的3DVR电子楼书…

python基本语法知识(二)

杂项 如果一个制表符/t不能对齐&#xff0c;可以多加几个&#xff1b; 只有将字典转换为字符串的时候才会保留字典的value&#xff0c;转成集合、列表、元组、都会丢失value 函数 例子1&#xff1a; str1 "hello world" # 函数定义 def my_len(data):count 0f…

基于 Ray 的大规模离线推理

本文整理自字节跳动基础架构资深研发工程师王万兴在火山引擎开发者社区 Meetup 中的分享。大模型离线推理&#xff0c;是指在具有数十亿或数千亿参数的大规模模型上进行分布式推理的过程。相较于常规模型推理&#xff0c;在模型切分、数据处理和数据流、提升 GPU 利用率方面面临…

ROCK PI S音频开发(一)系统准备

1、连接WIFI sudo nmcli r wifi on sudo nmcli dev wifi sudo nmcli dev wifi connect "SSID" password "PASSWORD" 2、更新源 sudo apt-get update sudo apt-get install git wget export DISTROfocal-stable wget -O - apt.radxa.com/$DISTRO/publ…

PHP快速实战20-PHP7中的垃圾回收机制与原理讲解

文章目录 前言PHP垃圾回收实现的原理垃圾回收机制引用计数循环垃圾收集 实现原理 总结 前言 本文已收录于PHP全栈系列专栏&#xff1a;PHP快速入门与实战 在计算机程序中&#xff0c;垃圾回收指的是一种自动管理内存的技术。在程序执行过程中&#xff0c;分配给它的内存会随着…

2023年软件测试趋势?测试人的发展前景?“我“到底该如何走...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 现在开始学习软件…

NetSuite 中国财务常用报表功能包

目录 1.致谢 2.功能说明 2.1 概述 2.2 报表说明 3.安装 4.操作指南 4.1 CLR_资产负债表 4.2 CLR_资产负债表&#xff08;期初/发生/结余&#xff09; 4.3 CLR_利润表 4.4 CLR_利润表季报 4.5 CLR_现金流量表 4.6 CLR_现金流量表季报 4.7 CLR_总账 4.8 CLR_序时账…

《消息队列高手课》课程学习笔记(八)

如何实现高性能的异步网络传输&#xff1f; **异步与同步模型最大的区别是&#xff0c;同步模型会阻塞线程等待资源&#xff0c;而异步模型不会阻塞线程&#xff0c;它是等资源准备好后&#xff0c;再通知业务代码来完成后续的资源处理逻辑。**这种异步设计的方法&#xff0c;…

深入理解深度学习——注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)

分类目录&#xff1a;《深入理解深度学习》总目录 《深入理解深度学习——注意力机制&#xff08;Attention Mechanism&#xff09;&#xff1a;注意力汇聚与Nadaraya-Watson 核回归》中使用了高斯核来对查询和键之间的关系建模。式中的高斯核指数部分可以视为注意力评分函数&a…