基于深度学习的人脸表情识别的AR川剧变脸(一)

news2025/1/17 13:52:28

1、摘要

本项目分为两部分,第一个部分是人脸表情识别任务,第二部分是根据表情变化不同AR脸谱效果。

本文将第一部分,如何使用Keras训练一个人脸表情识别的卷积神经网络。

2、数据集处理

数据集我们使用FER2013PLUS人脸表情识别数据集,大概有35000张图片,每张图片是48*48分辨率的灰度图。
在这里插入图片描述

下图展示7个表情类别的数据集样本量,可以看出类别 angry、happy、sad、surprised、normal 这 5 种表情数量较多,而 disgust、fear这 2 种表情较少。
在这里插入图片描述

在实验中为了防止出现过拟合现象需要进行数据集扩充,提高模型的泛化能力。数据增强是指对输入的图像进行随机的图像处理,比如旋转、位移、光照强度、裁剪等,对于计算机而言,经过位移后的图像和原图像是两幅不同的图像,但具有相同的标签,从而扩充了已有的数据集。而通过使用大量不同的数据集来训练网络,进一步提高深度模型的泛化能力,使得网络即不过拟合也不欠拟合,达到最佳状态。

模型的实际使用常见是自由场景,自由场景中光照亮度的不同会影响模型的性能,添加随机光照,同时为了扩充数据集和对非正常角度人脸的识别增加随机旋转、随机聚焦和水平翻转。下图 展示对一张 48*48 尺寸,表情为 happy 的灰度图进行随机亮度、随机旋转、随机聚焦和随机水平翻转的效果。可以看出,小型数据集借此技术可以实现数十倍的规模扩充,而数据集规模的提升可以提升网络的泛化能力和鲁棒性,提高网络在场景下的识别准确率。
在这里插入图片描述

在Keras中,我们需要使用数据加载器加载数据,最大化硬件利用率,幸运的是Keras已经提供了方法,我们直接使用即可:

def getDenerator(fer2013plus_path="datasets/fer2013plus", batch_size=32):
    """
	我们传递数据集的位置和batch_size,然后函数返回用于训练和测试的数据加载器,用于训练时投喂数据
    :param fer2013plus_path:fer2013plus数据集目录
    :param batch_size:
    :return:
    """
    train_datagen = ImageDataGenerator(    # 定义数据增强的方式
        brightness_range=(0.7, 1.3),  # 随机亮度
        featurewise_center=False,
        featurewise_std_normalization=False,
        rotation_range=10,  # 随机旋转
        zoom_range=(0.7, 1.3),  # 聚焦
        horizontal_flip=True)  # 水平翻转
        
    train_generator = train_datagen.flow_from_directory(fer2013plus_path+"/train",  # 告诉Keras图片的位置
                                                        target_size=(48, 48),		# 将图片缩放到指定大小
                                                        color_mode="grayscale",		# 因为是灰度图
                                                        batch_size=batch_size,		# 一次性加载多少图片,越大训练越快,但是需要更多的显存
                                                        class_mode='categorical')    

    test_datagen = ImageDataGenerator()  # 水平翻转
    test_generator = test_datagen.flow_from_directory(fer2013plus_path+"/test",
                                                      target_size=(48, 48),
                                                      color_mode="grayscale",
                                                      batch_size=batch_size,
                                                      class_mode='categorical')

    return train_generator,test_generator

3、模型设计

模型设计参考VGG网络,也就是Conv+Conv+Pool式的堆叠。

如下图是VGG的结构,可以看出就是Conv+Conv+Pool式的堆叠,最后使用全连接层,实现1000类别的分类。
在这里插入图片描述
但是我们人脸表情识别数据集比较小,仅有3万多张图片,模型太大容易过拟合,所以以VGGNet为蓝本,设计一个比较小的模型,如下图所示,也是conv+conv+pool式,但是更小。

因为我们的表情是7中分类,所以输出的全连接层长度是7。

在这里插入图片描述

在Keras中定义模型结构其实而很简单,代码如下:

def getVXSlim():
    model = Sequential()

    # block1
    model.add(Conv2D(64, (5, 5), input_shape=(48, 48, 1), activation='relu', padding='same'))
    model.add(Conv2D(64, (5, 5), activation='relu', padding='same'))
    model.add(BatchNormalization())
    model.add(MaxPooling2D(pool_size=(2, 2)))

    # block2
    model.add(Conv2D(128, (5, 5), activation='relu', padding='same'))
    model.add(Conv2D(128, (5, 5), activation='relu', padding='same'))
    model.add(BatchNormalization())
    model.add(MaxPooling2D(pool_size=(2, 2)))

    # block3
    model.add(Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(BatchNormalization())
    model.add(MaxPooling2D(pool_size=(2, 2)))

    # single conv
    model.add(Conv2D(64, (3, 3), padding='same'))

    # classifier
    model.add(Flatten())		# 将多维的数据展成一列,可以理解为将图像展开成一列
    model.add(Dense(7))			# 堆叠一个全连接层,长度为7
    model.add(BatchNormalization())
    model.add(Dense(7))			# 堆叠一个全连接层,长度为7

    # config
    model.add(Activation('softmax'))	# 最后使用softmax激活函数,将输出转换为概率
    model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')  # 定义优化器

    return model

在上面的代码中使用了Conv2D、BatchNormalization、MaxPooling2D、Dense:

  • Conv2D:提取特征,将图像分解为多个特征的组合
  • BatchNormalization:将数据的分布变换为正态分布,再映射到其他分布,可以加快模型的训练速度
  • MaxPooling2D:可以缩减图像的尺寸
  • Dense:全连接层,用于综合所有特征进行判断类别

4、训练

其实到这里,最重要的数据加载和模型定义就写好了,就可以开始训练了。训练了100个轮次,然后开始训练。
在这里插入图片描述
从图中可以看到,训练集精度和损失在 45epoch 左右进入缓慢优化阶段,在 70epoch左右趋于稳定。测试集精度和损失在 45epoch 左右趋于稳定,最终测试集精度达到 83%,损失低于 0.3,取得了较好的表情识别效果。

都说深度学习是黑盒,我们来看看训练出来的模型的可视化效果。
在这里插入图片描述
在可视化中间输出部分,通过卷积网络的每层都会输出结果,通过将结果可视化可以看到输入图片在网络中的流动形式,在这里展示第 3 层的 max_pooling2d、第 4 层的conv2d_2 和第 8 层的 conv2d_4 的输出结果。在图 中可以看出,在开始阶段实际上是各种边缘检测器的集合,在这一阶段,激活几乎保留了输入图像中所有的信息。在第二幅中,虽然仍有边缘检测的痕迹,但是此时更加像是对某些局部部位的特征检测,随着层数的加深,中间激活的结果变得越来越抽象,也更加难以直观地理解。在第三层中几乎无法和原图联系起来。所以抽象是卷积神经网络的一大能力,而这种能力也正是人类所拥有的。

我们将本文设计的模型和VGG9,以及mini_Xception进行对比:
在这里插入图片描述
从图中可以看出,本文的VXSlim网络的验证集精度最高,达到了 83%,VGG9 达到了 82%,mini_Xception 最低,只有79%

那么本文的模型在7种表情类别上的效果如何?可以看到最好的是开心类别,正确率达到了91%!
在这里插入图片描述

我们把每一个类的正确识别率用曲线表示,可以看到本文设计的模型在7种类别上的正确率都是最高的,很nice!
在这里插入图片描述

5、效果展示

通过摄像头进行表情识别效果展示

VXSlim演示_x264

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/23834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot如何进行监控项目/SpringBoot Admin监控程序怎么用/监控程序可以监控到哪些信息

写在前面: 继续记录自己的SpringBoot学习之旅,这次是SpringBoot应用相关知识学习记录。若看不懂则建议先看前几篇博客,详细代码可在我的Gitee仓库SpringBoot克隆下载学习使用! 3.6 监控 3.6.1 意义 监控服务是否宕机监控服务运…

Hive数据定义语言-DDL-入门基础(含四个实践案例)

1. 概述 数据定义语言DDL,是SQL语言集中对数据库内部的对象结构进行创建、删除、修改等的操作语言,这些数据库对象包括database、table、view、index等。DDL核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。在某些上下文中&…

Docker ENV 与 ARG 详解

Docker Env 与 ARG 详解 Env 与ARG 差异可以用下面一张图来表示 ENV 使用说明 ENV 变量只能在容器运行时,生效 如果想在执行命令的时候,使用ENV变量需要在shell 模式下采用生效,比如我们运行spring boot 应用, 其中JAVA_OPTS 变量通过doc…

德国跨国汽车巨头大陆集团遭LockBit勒索软件组织攻击

据BleepingCompuer11月3日消息,知名勒索软件组织LockBit宣布他们对德国跨国汽车集团大陆集团( Continental) 发动了网络攻击。 LockBit声称,他们窃取了大陆集团系统中的一些数据,如果不能在11 月 4 日 15:45:36&#x…

Docker基本管理

一、Docker概述 1.什么是Docker 是一个开源的应用容器引擎,基于go语言开发并遵循了apache2.0协议开源; 是在Linux容器里运行应用的开源工具; 是一种轻量级的“虚拟机”; Docker的容器技术可以在一台主机上轻松为任何应用创建一个…

GC暂停时间过长——排查分析

告警 本次GC日志分析 2022-11-17T17:58:50.5180800: 1217960.132: [GC (Allocation Failure) 2022-11-17T17:58:50.5180800: 1217960.132: [ParNew: 1382400K->153600K(1382400K), 0. 5626158 secs] 3419277K->2410488K(4040704K), 0.5628652 secs] [Times: user1.07 sy…

vue3【toRef和toRefs--详】

通过下面的代码例子分析这两个作用及其用法&#xff1a; <template><h1>姓名&#xff1a;{{person.name}}</h1><h1>年龄&#xff1a;{{person.age}}</h1><h1>薪资&#xff1a;{{person.job.job1.salary}}w</h1><button click&qu…

springboot+vue网上零食购物商城网站java

零食商店管理系统是基于java编程语言&#xff0c;mysql数据库&#xff0c;springboot框架和idea开发工具开发&#xff0c;本系统主要分为用户和管理员两个角色&#xff0c;用户可以注册登陆查看零食资讯&#xff0c;零食分类&#xff0c;零食详情&#xff0c;收藏零食&#xff…

SwiftUI之iOS16中的三种SF字体的样式和使用

一、前言 在 iOS 16 中&#xff0c;Apple 引入了三种新的宽度样式字体到 SF 字体库&#xff1a;Compressed、Condensed、Expend&#xff0c;展示效果如下&#xff1a; 二、UIFont.Width Apple 引入了新的结构体 UIFont.Width&#xff0c;这代表了一种新的宽度样式。目前已有的…

纯前端 excel 导出

前端 excel 表格导出 我们习惯了后端去处理表格&#xff0c;直接接口返回 &#xff0c;那前端如何轻松的导出表格呢&#xff1f; 文章目录前端 excel 表格导出Ⅰ. 通过 js-xlsx ⭐⭐⭐⭐⭐安装① vue2 中使用② vue3 中使用③ react 中使用Ⅲ. 通过 vue-json-excel ⭐⭐安装使…

语音芯片KT148A的一线串口和KT148A的串口版本以及按键版本有什么区别

目录 一、简介 一线串口版本&#xff1a;应用场景是搭配MCU&#xff0c;KT148A受到MCU的控制&#xff0c;来播放语音 按键版本&#xff1a;KT148A有三个IO口&#xff0c;可以灵活配置为不同的触发播放形式 二、详细描述 2.1 一线串口版本和按键版本的硬件说明 一线串口版…

MeganeX VR原型体验:中心视觉清晰,畸变和IPD等细节待优化

前不久&#xff0c;松下子公司Shiftall在AWE Europe 2022上展示了MeganeX VR头显的新版原型设计&#xff0c;这个新版本采用和此前不同的外观设计&#xff0c;最大的特点是配备定制的SteamVR定位模块&#xff0c;可兼容Index VR手柄。相比于市面上一些主流PC VR头显&#xff0c…

SpringMVC之完成对前端传来的数据进行校验

假设您需要在网页上注册一个账号&#xff0c;其中有一项需要填入您的年龄&#xff0c;如果您不小心填了一个字符串&#xff0c;那么您的这个账号是不可能成功进行注册的&#xff0c;而本篇文章实现的功能就是&#xff0c;在后端将前端串传入的数据进行校验和识别。 第一步&…

yolo数据集的制作教程之海绵宝宝数据集的制作

yolo海绵宝宝数据集的制作 1、视频转图片 新建名为hm的文件目录&#xff0c;用于存放图片 代码如下&#xff1a; import cv2 from datetime import datetime def video_to_frames(path,savepath,m):video_cap cv2.VideoCapture()video_cap.open(path)fps video_cap.get(…

【云原生系列】第三讲:Knative 之 Serving

目录 序言 1. knative 1.1 发展历程 1.2 特点 2.Serving 2.1 基本介绍 2.2 支持类型 2.3 资源类型 2.3.1 service 2.3.2 Route 2.3.3 Configuration 2.3.4 Revision 2.4 Serving管理能力实现方式 2.4.1 四个 kubernetes Service 2.4.2 二个Deployment 2.4.3…

5G无线技术基础自学系列 | 5G下行物理信道和信号

素材来源&#xff1a;《5G无线网络规划与优化》 一边学习一边整理内容&#xff0c;并与大家分享&#xff0c;侵权即删&#xff0c;谢谢支持&#xff01; 附上汇总贴&#xff1a;5G无线技术基础自学系列 | 汇总_COCOgsta的博客-CSDN博客 5G空中接口下行的物理信道包括PB CH、P…

[附源码]计算机毕业设计JAVA基于web旅游网站的设计与实现

[附源码]计算机毕业设计JAVA基于web旅游网站的设计与实现 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; …

docker打包多架构镜像(manifest)

在docker仓库上&#xff0c;经常能看到这样的镜像 在一个”镜像“中&#xff0c;包含了三个架构的镜像 本质上&#xff0c;外部看到的这个镜像&#xff0c;其实不算是一个镜像&#xff0c;应该称它为镜像清单列表&#xff08;manifest list&#xff09; manifest是一个文件&a…

通过面积证明:两个函数相乘 / 相除的导数为什么长成这样?

参考视频 MIT 微积分课程 两个函数相乘的导数 (f(x)g(x))′f′(x)g(x)g′(x)f(x)(f(x)g(x))^{}f^{}(x)g(x)g^{}(x)f(x)(f(x)g(x))′f′(x)g(x)g′(x)f(x) 这是我们都非常熟悉的公式&#xff0c;熟悉到根本不知道是咋推出来的其实推导这个公式有两种方法&#xff0c;一种就是靠…

微服务平滑迁移上云最佳实践

作者&#xff1a;草谷 背景 许多企业在做微服务架构改造的时候&#xff0c;在自建还是上云的选择上难以决策&#xff0c;选择上云后&#xff0c;在微服务上云过程中&#xff0c;如何能够做到不影响业务情况下平滑迁移呢&#xff0c;通过阅读本文&#xff0c;你可以快速获得以…