【PyTorch实战演练】深入剖析MTCNN(多任务级联卷积神经网络)并使用30行代码实现人脸识别

news2024/11/19 17:28:28

文章目录

      • 0. 前言
      • 1. 级联神经网络介绍
      • 2. MTCNN介绍
        • 2.1 MTCNN提出背景
        • 2.2 MTCNN结构
      • 3. MTCNN PyTorch实战
        • 3.1 facenet_pytorch库中的MTCNN
        • 3.2 识别图像数据
        • 3.3 人脸识别
        • 3.4 关键点定位

0. 前言

按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解及成果,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。

本文详细介绍MTCNN——多任务级联卷积神经网络的结构,并通过PyTorch实例说明MTCNN在人脸识别上的应用。

MTCNN的全称是Multi-Task Cascaded Convolutional Networks,它的缩写确实是MTCNN不是MTCCN.

1. 级联神经网络介绍

级联(cascaded)神经网络是一种人工神经网络的架构设计,它指的是多个神经网络层按照特定的方式连接起来,形成一个逐层处理信息的多层结构。在级联神经网络中,前一层次网络的输出作为后一层次网络的输入,这种结构允许在网络在深度方向上对复杂性和抽象层数进行增加

级联网络的重要特点是其动态构建特性,即可以从一个小规模的基本网络开始,并随着训练过程自动添加更多的隐藏单元或子网络,逐渐扩展成一个更深层次的结构,然后通过只针对新增部分数据进行训练来更新权重,即增量式学习(Incremental Learning)。这与传统的——构建完整模型后统一进行训练更新权重的思路非常不同。

使用传统的思路,如果发现我们的模型并不适用于待解决的任务,导致要调整模型结构时,通常会意味着之前的训练模型的工作全部白费了。

总结起来级联神经网络具有以下优点:

  1. 自适应结构:级联网络设计允许根据训练数据或学习过程动态调整网络结构,比如自动增加新的层或神经元,以适应更复杂的模式识别任务。

  2. 学习效率提升:可以通过增量学习或局部训练来加快学习速度,只针对新增加的部分进行训练优化。在某些情况下,级联网络可以采用非传统的权重更新机制,不需要在整个网络上执行全局误差反向传播算法。

  3. 鲁棒性和容错性:分层结构有助于提高系统的鲁棒性,单个层次的错误可能在后续层次中得到修正。

2. MTCNN介绍

2.1 MTCNN提出背景

MTCNN是Kaipeng Zhang等人在论文——Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks中提出的,其宗旨是通过多任务级联CNN解决两个问题:人脸检测(找出图像中人脸的位置和边界框)和人脸对齐(精确定位面部特征点)。

2.2 MTCNN结构

MTCNN的构建思路可以简单分为下面几个步骤:
在这里插入图片描述

  • 准备步骤:对图像进行缩放,建立图像金字塔;
  • 第一步Proposal-Net:快速选出若干候选框,为下一步准备;
  • 第二步Refine-Net:对第一步的众多候选框进行精选,留下置信度大的候选框;
  • 第三步Output-Net:输出最终bounding box、人脸关键特征定位和置信度。

详细来说P-Net、R-Net和O-Net的结构如下:在这里插入图片描述
通过Netron可以看到facenet_pytorch库中的MTCNN的结构及详细参数如下:
请添加图片描述

  1. P-Net (Proposal Network):

    • 输入是原始图像。
    • 首先通过一个卷积层(Conv2d)将3通道的输入图像转换为10通道特征图,使用3x3的卷积核(kernel_size=(3, 3))。
    • 紧接着使用PReLU激活函数(prelu1)进行非线性变换。
    • 使用最大池化层(MaxPool2d)下采样特征图(pool1),步长为2。
    • 再经过两个卷积层(Conv2d)提取更深层次的特征,并分别用PReLU激活函数(prelu2和prelu3)进行非线性处理。
    • 最后通过两个1x1卷积层(Conv2d)生成两个输出:一个是softmax4_1用于预测每个像素是否为人脸的概率分布,另一个是conv4_2用于回归bounding box的位置信息。
  2. R-Net (Refine Network):

    • 输入是P-Net的候选区域。
    • 类似于P-Net,R-Net也包含多个卷积层与激活函数,以及池化层进行特征提取和下采样。
    • 在最后,通过两个全连接层(Dense或Linear)生成两个输出:softmax5_1用于判断候选框内是否为人脸并给出置信度,dense5_2用于进一步细化人脸框的位置。
  3. O-Net (Output Network):

    • 输入同样是前一级网络(R-Net)筛选后的候选区域。
    • O-Net具有更多的卷积层以获取更精细的特征表达,同样在最后阶段通过三个全连接层生成三个输出:softmax6_1用于人脸分类,dense6_2用于人脸框回归精修,dense6_3用于估计关键点(如眼睛、嘴巴等)的位置。

整个MTCNN模型通过逐步筛选和优化候选区域,在不同尺度上定位和识别图像中的人脸,从而实现高效准确的人脸检测。

3. MTCNN PyTorch实战

3.1 facenet_pytorch库中的MTCNN

facenet_pytorch库中的MTCNN类是一个用于人脸检测的多任务级联卷积神经网络模型实现。直接使用MTCNN类的最大好处就是该模型已经训练好,可以拿来即用,其初始化时接受多个参数,以下是对这些参数的详细解释:

  1. image_size(默认值:160):输出图像的大小(像素),图像会调整为正方形。

  2. margin(默认值:0):在最终图像上添加到边界框的边距(以像素为单位)。需要注意的是,与davidsandberg/facenet库中的应用方式稍有不同,该库在调整原始图像大小之前就对原始图像应用了边距,导致边距与原始图像大小相关(这是davidsandberg/facenet的一个bug)。

  3. min_face_size(默认值:20):要搜索的人脸的最小尺寸。

  4. thresholds(默认值:[0.6, 0.7, 0.7]):MTCNN人脸检测阈值列表,分别对应P-Net、R-Net和O-Net三个阶段的阈值。

  5. factor(默认值:0.709):用于创建人脸大小缩放金字塔的比例因子。

  6. post_process(默认值:True):是否在返回前对图像张量进行后处理。

  7. select_largest(默认值:True):如果检测到多个人脸,是否选择面积最大的一个返回。若设为False,则选择概率最高的人脸返回。

  8. selection_method(默认值:None):指定使用哪种启发式方法进行选择,如果设置此参数将覆盖select_largest

    • "probability":选择概率最高的。
    • "largest":选择面积最大的框。
    • "largest_over_threshold":选择超过一定概率的最大框。
    • "center_weighted_size":基于框大小减去离图像中心加权距离平方后的结果进行选择。
  9. keep_all(默认值:False):如果设为True,则返回所有检测到的人脸,并按照select_largest参数设定的顺序排列。如果指定了保存路径,第一张人脸将被保存至该路径,其余人脸将依次保存为<save_path>1, <save_path>2等。

  10. device(默认值:None):运行神经网络前向传递时所使用的设备。图像张量和模型会在前向传递前复制到这个设备上。

3.2 识别图像数据

这块没有特殊要求,随便去网上下载,以下是我自己的识别对象数据:
在这里插入图片描述

3.3 人脸识别
  • 代码
from facenet_pytorch import MTCNN
import torch
from torch.utils.data import DataLoader
from torchvision import datasets
import os

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
print('the device is:{}'.format(device))

model = MTCNN(image_size=160, margin=0, min_face_size=10,
              thresholds=[0.7,0.7,0.7],factor=0.7, post_process=True, device=device)
path = os.path.abspath('face_img')  #在face_img文件夹下面还要再加一个class_folder文件夹
dataset = datasets.ImageFolder(path)
imgs_list = list(sorted(os.listdir(os.path.join(path,'class_folder'))))

def collate_fn(x):
    return x[0]

loader = DataLoader(dataset, collate_fn = collate_fn, num_workers=0)
index = 0
#detected_faces = []

for pic,_ in loader:
    aligned, confidence = model(pic , return_prob=True)
    if confidence is not None:
        print('Confidence of {} containing human face is {:.8f}'.format(imgs_list[index], confidence))
        detected_faces.append(aligned)
    else:
        print('No human face detected in {}'.format(imgs_list[index]))
    index += 1
    
# 以下是人脸对齐的还原实现
#face_numpy = (detected_faces[0] + 1) * 127.5  # 由于是 [-1, 1] 范围,将其映射到 [0, 255]
#face_numpy = face_numpy.numpy().astype(np.uint8)
#face_image = Image.fromarray(face_numpy.transpose(1, 2, 0)) # 将 Numpy 数组转为 PIL 图像格式,并注意调整通道顺序为 (H, W, C)

#plt.imshow(face_image)
#plt.show()
  • 输出
Confidence of art.png containing human face is 0.99512947
No human face detected in ironman.png
Confidence of man.png containing human face is 0.99643928
No human face detected in ogre.png
Confidence of thanos.png containing human face is 0.96726525
Confidence of woman.png containing human face is 0.99991846

可见MTCNN不认为钢铁侠和食人魔魔法师算“人脸”。MTCNN的输出有2部分:

  1. 对齐后的人脸张量:其范围是[-1, 1],可以将其线性还原到[0, 255]并输出对其后的人脸,例如下图:在这里插入图片描述
  2. 包含人脸的置信度:即上面的0.99512947等置信度数值。
3.4 关键点定位

也可以使用mtcnn.detect()得到人脸得关键点(眼睛、鼻子、嘴角)定位,代码如下:

from facenet_pytorch import MTCNN
import torch
from torch.utils.data import DataLoader
from torchvision import datasets
import os
import numpy
import matplotlib
import matplotlib.pyplot as plt

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
print('the device is:{}'.format(device))

model = MTCNN(image_size=160, margin=0, min_face_size=10,
              thresholds=[0.7,0.7,0.7],factor=0.7, post_process=True, device=device)

path = os.path.abspath('face_img')  #在face_img文件夹下面还要再加一个class_folder文件夹
dataset = datasets.ImageFolder(path)
imgs_list = list(sorted(os.listdir(os.path.join(path,'class_folder'))))

def collate_fn(x):
    return x[0]

loader = DataLoader(dataset, collate_fn = collate_fn, num_workers=0)
index = 0
detected_faces = []

for pic,_ in loader:
    aligned, confidence = model(pic , return_prob=True)
    if confidence is not None:
        print('Confidence of {} containing human face is {:.8f}'.format(imgs_list[index], confidence))
        detected_faces.append(aligned)
        boxes, probs, points = model.detect(pic, landmarks=True)
        points = points.squeeze(0)
        for x,y in points:
            plt.scatter(x,y,s=10,c='r')
        plt.imshow(pic)
        plt.savefig('{}_aligned.jpg'.format(imgs_list[index]))
        plt.close()
    else:
        print('No human face detected in {}'.format(imgs_list[index]))
    index += 1

最终保存的图像为:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

可以看出MTCNN的关键点定位也是很准确的。上面代码的boxs即为人脸边界框,这里不再画出效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1507527.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android将自己写的maven库上传至jitpack(2024靠谱版)

浏览了一堆陈年旧贴&#xff0c;终于实验成功了 第一步 将自建空项目同步至github并保证能正常运行第二步新增一个library类型的modul第三步 在新建的library里面写一些测试用的代码第四步在library的gradle文件增加插件和发布脚本第五步新建一个配置文件第六步 把所有更改push…

3D模型+BI分析,打造全新的交互式3D可视化大屏开发方案

背景介绍 在数字经济建设和数字化转型的浪潮中&#xff0c;数据可视化大屏已成为各行各业的必备工具。然而&#xff0c;传统的数据大屏往往以图表和指标为主&#xff0c;无法真实地反映复杂的物理世界和数据关系。为了解决这个问题&#xff0c;3D模型可视化和数字孪生技术应运…

OSI(Open Systems Interconnection)模型和TCP/IP模型

OSI模型 OSI模型是一个概念模型&#xff0c;由国际标准化组织&#xff08;ISO&#xff09;在1984年提出&#xff0c;用于促进不同系统间的通信互联。OSI模型将网络通信的过程分为七层&#xff0c;每一层都有其特定的功能&#xff0c;从下至上依次是&#xff1a; 物理层&#x…

专题二 -滑动窗口 - leetcode 209. 长度最小的子数组 | 中等难度

leetcode 209. 长度最小的子数组 leetcode 209. 长度最小的子数组 | 中等难度1. 题目详情1. 原题链接2. 基础框架 2. 解题思路1. 题目分析2. 算法原理3. 时间复杂度 3. 代码实现4. 知识与收获 leetcode 209. 长度最小的子数组 | 中等难度 1. 题目详情 给定一个含有 n 个正整数…

WIN11环境下Git配置SSH Key拉取Gitee仓库代码

Gitee官方配置参考网址&#xff1a; https://help.gitee.com/base/account/SSH%E5%85%AC%E9%92%A5%E8%AE%BE%E7%BD%AE。https://help.gitee.com/base/account/SSH%E5%85%AC%E9%92%A5%E8%AE%BE%E7%BD%AE。 A.生成 SSH 公钥 Windows 用户建议使用 Windows PowerShell 或者 Git…

C#,数值计算,用割线法(Secant Method)求方程根的算法与源代码

1 割线法 割线法用于求方程 f(x) 0 的根。它是从根的两个不同估计 x1 和 x2 开始的。这是一个迭代过程&#xff0c;包括对根的线性插值。如果两个中间值之间的差值小于收敛因子&#xff0c;则迭代停止。 亦称弦截法&#xff0c;又称线性插值法.一种迭代法.指用割线近似曲线求…

【linux】02 :Linux基础命令

1.掌握linux系统的目录结构 linux只有一个顶级目录&#xff0c;称之为&#xff1a;根目录。 windows系统有多个顶级目录&#xff0c;即各个盘符。 2.linux路径的描述方式 /在Linux中的表示&#xff1a;出现在开头表示根目录&#xff0c;出现在后面表示层级关系。 3.什么是命…

官网在线客服系统源码 完全开源可二开 带完整的安装代码包以及搭建教程

在互联网时代&#xff0c;用户对于线上服务的便捷性和高效性要求越来越高。官网在线客服系统作为企业与用户之间实时沟通的工具&#xff0c;不仅能够提高用户满意度&#xff0c;还能够有效促进业务转化。然而&#xff0c;市面上的在线客服系统大多价格昂贵且功能单一&#xff0…

提高Python代码效率:*args与**kwargs的高级应用指南

提高Python代码效率&#xff1a;*args与**kwargs的高级应用指南 引言*args的使用和技巧基本用法示例代码&#xff1a; 结合位置参数和*args使用示例代码&#xff1a; 使用*args传递参数给另一个函数示例代码&#xff1a; 解包列表或元组为函数参数示例代码&#xff1a; 高级技巧…

不同路径 不同路径 II 整数拆分

62.不同路径 力扣题目链接(opens new window) 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为 “Finish” &#xff09;。…

jupyter notebook 突然莫名奇妙的白屏

jupyter notebook 突然莫名奇妙的白屏 事件背景&#xff1a; 最近在折腾openai&#xff0c;哎&#xff0c;一言难尽&#xff0c;使用的是conda管理python版本的切换&#xff0c;使用jupyter notebook来运行python程序&#xff0c;其实PyCharm也行&#xff0c;但是&#xff0c;…

数据标注专业团队

数据标注服务 在跟一些淘宝、多多商家老板合作后&#xff0c;客户一般付款后&#xff0c;中介是有20%左右的提成&#xff0c;我们主要是希望可以实现数据标注无中介化&#xff0c;有需求可以直接联系数据标注团队直接负责人&#xff0c; 若有意愿请添加添加v&#xff1a;shu_ju…

萨科微所在的功率半导体行业在电子产业中占据重要地位,产品用于电力设备的电能转换和电路控制,是进行电能处理的核心器件

萨科微slkor&#xff08;www.slkormicro.com&#xff09;半导体宋仕强说&#xff0c;萨科微所在的功率半导体行业在电子产业中占据重要地位&#xff0c;产品用于电力设备的电能转换和电路控制&#xff0c;是进行电能处理的核心器件。功率半导体细分产品主要有MOSFET、IGBT、BJT…

恒驰上云规划实施解决方案上线华为云官网

华为云与伙伴共同打造联合解决方案 已成为更多企业的数字化转型利器 1月恒驰上云规划实施解决方案 完成上市宣讲并正式上架华为云官网 恒驰上云规划实施解决方案能力全景图&#xff1a;融合厂商云服务能力&#xff0c;一站式高效云迁移 从深入了解企业的本地IT环境、业务特点…

前端的数据标记协议

文章目录 数据标记协议是什么数据标记协议的作用常见的数据标记协议Open Graph protocol 开放图谱协议基本元数据协议可选元数据结构化属性 —— 元数据的属性多个相同的元数据标签类型元数据的使用方法全局类型使用自定义类型使用对象类型使用歌曲对象类型视频对象类型文章对象…

应急响应-Webshell-典型处置案例

网站后台登录页面被篡改 事件背景 在2018年11月29日4时47分&#xff0c;某网站管理员发现网站后台登录页面被篡改&#xff0c;“中招”服务器为windows系统&#xff0c;应采用java语言开发&#xff0c;所使用的中间件为Tomcat。 事件处置 Webshell排查 利用D盾对网站目录进…

【框架学习 | 第四篇】Spring下篇(Spring AOP、Spring 事务、Spring中7种设计模式)

文章目录 4.详讲AOP4.1什么是AOP&#xff1f;4.2为什么叫做面向切面编程&#xff1f;4.3AOP解决的问题4.4AOP应用场景4.5AOP实现方式4.5.1动态代理的实现&#xff08;1&#xff09;JDK代理&#xff08;2&#xff09;CGLB代理&#xff08;3&#xff09;基于接口的动态代理&#…

国产云数据库介绍

这是ren_dong的第35篇原创 前言 目前布局数据库的IT公司越来越多&#xff0c;主要基于 计算场景的延伸和拓展。在不同的计算场景下&#xff0c;所需要的数据库的性能会有所差异。 特别是在 云计算场景下&#xff0c;传统的数据库面临一定挑战。腾讯、阿里巴巴等纷纷开发更加适合…

管理类联考-复试-管理类知识-领导激励理论控制

文章目录 领导领导方式的基本类型领导权变理论情境领导理论管理权力四种员工类型 激励理论归因理论、晕轮效应、假设相似性古典动机理论马斯洛需求理论双因素理论XY理论三种需求理论工作特征模型当代动机理论目标设置理论强化理论公平理论期望理论 控制控制及其必要性PDCA、甘特…

龙年新征程!凌恩生物2月客户文章累计IF>300

2024年2月&#xff0c;凌恩生物助力客户发表文章47篇&#xff08;6篇预发表&#xff09;&#xff0c;累计影响因子317.3分&#xff0c;其中包括Advanced Materials、Microbiome、Journal of Hazardous Materials、Small、Molecular Psychiatry、Science of the Total Environme…