机器学习周报第31周

news2024/9/23 13:19:13

目录

  • 一、论文阅读
    • 1.1 论文标题
    • 1.2 论文摘要
    • 1.3 论文背景
    • 1.4 提出的系统:MAER
      • 1.4.1 基于Asyncio的预处理
      • 1.4.2 多模态信号下的情感识别
      • 1.4.3 针对情感不匹配情况的自适应融合

一、论文阅读

1.1 论文标题

Beyond superficial emotion recognition: Modality-adaptive emotion recognition system(模态适应的情绪识别系统)

1.2 论文摘要

该论文提出了一个实时的模态自适应情感识别(MAER)系统,解决了现有面部表情识别系统在可靠性和实时操作方面的限制。该系统通过并行处理和模态自适应融合来改善情感识别的性能和可靠性。通过实时试验,该系统的准确性比仅使用外部信号(视频和音频)的情感识别高出33%。该系统能够推断出真实的情感,即使在内部和外部状态之间存在情感不匹配的情况下,通过给予真实情感信号更大的权重。该系统利用轻量级网络和可穿戴设备进行信号采集,实现了实时计算和实际应用。

1.3 论文背景

随着深度学习的发展,面部表情的情感识别取得了进展,但在实际应用中仍存在可靠性的问题。根据提供的来源,这些限制包括面部表情和真实情感之间的不一致性,以及仅使用外部信号进行情感识别的有限可靠性。此外,由于MAER系统基于预训练的神经网络,它对于超出分布范围的输入是脆弱的。为了提高情感识别的可靠性,研究人员开始探索使用音频或生物信号作为辅助模态。该论文提出了一种模态自适应融合的方法,通过并行处理和特征提取来预测主体的综合情感状态。通过实时试验验证了该系统的性能,并取得了比仅使用外部信号的情感识别更高的准确性。

1.4 提出的系统:MAER

该系统是一种多模态情感识别系统,通过融合视频、音频和生物信号来检测内部和外部情感信号之间的差异。该系统采用异步并行处理,可以实时响应多模态信号输入。通过模态自适应融合,该系统可以更加精细地识别内部情感,相比仅使用两种模态信号的传统方法更具优势。该系统在真实环境中进行了多种场景的实时试验,验证了多模态信号的协同效应。该系统的技术贡献包括实时自适应融合三种模态信号、通过实际试验验证系统的可行性,并且能够更好地捕捉真实情感。
在这里插入图片描述

1.4.1 基于Asyncio的预处理

MAER的第1部分是建立一个对多个信号进行实时处理的环境。MAER系统基于三种模态的信号:来自网络摄像头的视频信号,来自麦克风的音频信号,以及来自Shimmer3传感器信号。与大多数基于深度学习的框架一样,MAER系统是用Python实现的。然而,Python基本上都是通过一个全局解释器锁( GIL )来限制任务之间的并行性,从而防止多个任务同时被执行。因此,作为一种替代方案,提供了Asyncio库来保证任务之间的并发性。Asyncio通过基于协程反复测量每个任务的进度,支持任务之间的快速切换,并且具有微型性。通过在读取另一个信号的同时等待一个信号来最小化延迟。
来自三个传感器的多模态数据的帧率,即每秒帧数( fps )各不相同。例如,生物信号的采集速率为1 fps,而视频信号的输入速率为30 fps。音频信号是零星激活的(只有当主体说话时),输入数据的长度是可变的。为了解决这个实际问题,我们的代理不仅独立地处理每个信号,而且并行地从每个信号中识别情绪。因此,MAER系统必须能够异步地处理各模态信号,同时对连续信号做出响应。
为了平滑的系统维护,代理包括以下两个功能:( 1 )当多个任务同时请求时,提供适当的时间延迟以防止开销。( 2 )在情感识别分布式处理的同时,实现了各任务的数据采集。如果在模型运行过程中收到数据请求,则代理配备允许同时获取数据的功能。
在这里插入图片描述

1.4.2 多模态信号下的情感识别

  • 面孔情绪识别
    人脸检测器对人脸图像的预处理和基于深度学习网络的情感分析。采用平幅皂洗机单次曝光检测器( SSD )框架进行人脸检测。该检测器输出的人脸区域裁剪后大小为300 × 300,并输入到后续的网络中。为了从人脸数据中识别情绪,我们使用了FER模型。首先,FER模型可以在潜在特征空间中通过基于批评网络的对抗学习区分强、弱情感组,从而学习到多样性的表情。其次,它基于简单的AlexNet,保证了操作的实时性。特别地,FER模型适用于许多看不见的对象频繁出现的野外环境。该FER模型在ImpactNet数据集上进行预训练,并返回范围为[ -1⋅1 ]的连续AV值。
    在这里插入图片描述
  • 语音情感识别。
    SER过程包括三个步骤:用于信号采集的语音识别、特征提取和情感分析。注意到语音信号只有在主体说话时才会被激活,因此是在话语单元中进行处理的。因此,我们需要确定以下两点来实时采集语音信号:语音的存在和语音的结束。我们使用了能够区分语音和其他声音的WebRTC语音活动检测器,以便只收集语音信号。如果语音开始被工具检测到,则将其记录下来,直到超过一秒钟没有检测到语音信号。采集了长达10 s的语音数据,并对录制的语音信号进行批量填充。
    SER的一些特征是从语音信号中提取的。据报道,速度和加速度特征显示出噪声不敏感的语音识别。因此,利用Speech Py库提取MFCC能量、速度和加速度。在这里,每个特征有13个维度。然后,将这三个特征串联成一个39维的向量,并输入到后续的网络中,即VGGNet。最后,使用IEMOCAP数据集对基于2D CNN的小尺寸VGGNet进行预训练,并将其用于SER。SER模型返回离散的唤醒度和效价值范围为[ - 2,2 ]。因此,我们的小型VGGNet表现出噪声鲁棒性的SER性能。
    在这里插入图片描述
  • 生物信号情绪识别
    类似地,利用生物信号进行情绪识别包括3个步骤:通过可穿戴设备进行信号采集、预处理和情绪分析。如前所述,大多数基于生物信号的情绪识别系统所采用的EEG信号难以实时获取。因此,我们选择了PPG和GSR信号,即使通过简单的可穿戴设备也可以采集。PPG和GSR信号不需要额外的数据处理,可以在一秒内同时采集。在我们的系统中,巴特沃斯滤波器和滑动平均滤波器分别用于去除采集到的原始数据中的高频和低频噪声。为了保证在通用计算机上进行实时计算,必须使用小规模的输入数据或轻量级网络。然而,由于Shimmer3的硬件限制,输入数据大小不能任意减小。因此,我们应该采用轻量级的网络。我们应用了一种针对轻量级网络的知识蒸馏技术。配置了不同结构的教师模型和学生模型。具体来说,一维( 1D )卷积自编码器( CAE )和1D CNN模型分别用作教师和学生模型。最后,我们使用MERTI - Apps数据集对基于生物信号的情绪识别网络进行预训练,返回离散的唤醒度和效价值范围[ -1⋅1 ]。
    在这里插入图片描述

1.4.3 针对情感不匹配情况的自适应融合

所提出的模态自适应融合旨在实现对生物信号表达的内部状态和视听信号表达的外部状态之间的情感不匹配的鲁棒性。在多模态融合之前,进行基于模态的情感识别。设预处理后的视频、音频和生物信号分别为Xv∈Rvt × vw × vh、Xa∈Rat × ad和Xb∈Rbt × bd。
视频:vt、vw、vh分别表示视频帧的帧长、帧宽、帧高;
音频:at、ad分别表示音频信号的序列长度和特征维数;
生物:bt、bd分别表示生物信号的序列长度和特征维数。
用于情感识别的预训练编码器分别记为fv、fa、fb。它们的输出定义如下。
在这里插入图片描述
在这里插入图片描述
由于编码器的数据集覆盖了足够广泛的唤醒度和效价范围,因此我们假设对输出的融合没有负面影响。另一方面,每个模态的输出y具有连续或离散的形式,甚至是不同的范围。因此,我们通过使用ya和yb的置信度分数来调整ya和yb,使其具有与视频信号相同的标准(即,连续)。设ya和yb是离散的AV值.同样,令pa和pb分别表示ya和yb的置信度分数.然后将其转化为连续的AV值: ya = yapa / 2, yb = ybpb。因此,我们可以获得与视频信号相同范围[ - 1至1 ]的连续值。
为了从面部表情和音频信号中提取外部情感状态,我们使用条件平均值,该操作取决于是否启用音频输入,因为音频信号不像常规视频信号那样不规则地出现。
另一方面,一个人可以控制外在的情绪状态,却无法控制生物信号,即内在的情绪状态。因此,如果外部状态与内部状态之间的差距较大,那么主体隐藏内部(或真实)情绪的可能性就很高。基于这个假设,我们提出了一种融合方法,当外部状态和内部状态之间的差距较大时,对代表内部状态的yb赋予较大的权重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1487409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Noise Conditional Score Networks(NCSN)学习

参考: [1] https://zhuanlan.zhihu.com/p/597490389 [2] https://www.zhangzhenhu.com/aigc/Score-Based_Generative_Models.html TOC 1 基于分数的生成模型1.1 简介和动机1.2 Score Matching及其改进1.2.1 Score Matching1.2.2 Sliced score matching(不…

Achronix以创新FPGA技术推动智能汽车与先进出行创新

全球领先的高性能现场可编程门阵列(FPGA)和嵌入式FPGA(eFPGA)半导体知识产权(IP)提供商Achronix Semiconductor公司宣布,该公司将参加由私募股权和风险投资公司Baird Capital举办的“Baird车技术…

基于主从模式的Reactor的仿muduo网络库

🌇个人主页:平凡的小苏 📚学习格言:命运给你一个低的起点,是想看你精彩的翻盘,而不是让你自甘堕落,脚下的路虽然难走,但我还能走,比起向阳而生,我更想尝试逆风…

备战蓝桥杯————差分数组2

目录 引言 一、拼车 题目描述 解题思路及代码 结果展示 二、航班预定统计 题目描述 解题思路及代码 结果展示 总结 引言 在现代交通管理中,拼车服务和航班预订系统是提高资源利用效率、优化用户体验的关键技术。随着城市交通压力的增大和航空业的快速发…

TIOBE 2024榜单启示:程序员如何把握未来编程趋势与机遇

程序员如何选择职业赛道? 程序员的职业赛道就像是一座迷宫,有前端的美丽花园,后端的黑暗洞穴,还有数据科学的神秘密室。你准备好探索这个充满挑战和机遇的迷宫了吗?快来了解如何选择职业赛道吧! 方向一…

unity-1

创建游戏对象(游戏物体) 可通过unity中的菜单栏中的Gameobject创建;也可在Hierarchy(层级)中创建, 双击即可居中看到。 在Hierarchy空白处右键即可看到,能创建游戏对象。 在Scene框中&#x…

ubuntu环境下docker容器详细安装使用

文章目录 一、简介二、ubuntu安装docker1.删除旧版本2.安装方法一3. 安装方法二(推荐使用)4.运行Docker容器5. 配置docker加速器 三、Docker镜像操作1. 拉取镜像2. 查看本地镜像3. 删除镜像4. 镜像打标签5. Dockerfile生成镜像 四、Docker容器操作1. 获取…

07OpenCV 图像模糊

文章目录 图像掩膜操作模糊原理均值滤波高斯滤波中值滤波双边滤波算子代码 图像掩膜操作 图像掩膜操作 模糊原理 Smooth/Blur是图像处理中最简单和常用的操作之一 使用操作的原因之一就是为了给图像预处理时候减低噪声 图像噪声是指存在于图像数据中的不必要的或多余的干扰信…

docker基线安全修复和容器逃逸修复

一、docker安全基线存在的问题和修复建议 1、将容器的根文件系统挂载为只读 修复建议: 添加“ --read-only”标志,以允许将容器的根文件系统挂载为只读。 可以将其与卷结合使用,以强制容器的过程仅写入要保留的位置。 可以使用命令&#x…

C++笔试题(选择+编程)

个人主页:Lei宝啊 愿所有美好如期而遇 选择题 请找出下面程序中有哪些错误() int main() {int i 10;int j 1;const int *p1;//(1)int const *p2 &i; //(2)p2 &j;//(3)int *const p3 &i;//(4)*p3 20;//(5)*p2 30;//(6…

uniapp和vue项目配置多语言,实现前端切换语言

在uniapp中配置多语言功能,实现前端切换语言,可以按照以下步骤进行: 1. 创建语言包 首先,创建一个名为 lang 的目录,并在该目录下为每种支持的语言创建对应的JSON或JS文件。例如: lang/en.js&#xff08…

Vue3和ElementPlus封装table组件

最近学习vue3.2并自己在写一个项目,然后发现好几个页面都是列表页,重复写table和column也是觉得累,学习的项目列表页不算多,要是公司项目就不一样了,所以就想着自己封装一个table组件,免去大量重复工作和co…

综合实验nginx+nfs+kpa

综合实验 实验目的: 静态资源和动态资源分别存放在远端存储NFS上,NFS上数据实现实时备份,用户通过负载访问后端的web服务。实现ngixn负载高可用,当keepalived master宕机,vip能自动跳转到备用节点 实验环境&#xff…

游戏引擎分层简介

游戏引擎分层架构(自上而下) 工具层(Tool Layer) 在一个现代游戏引擎中,我们最先看到的可能不是复杂的代码,而是各种各样的编辑器,利用这些编辑器,我们可以制作设计关卡、角色、动画…

多功能声学综合馆:塑造未来城市空间的先锋

现代城市需要多功能声学综合馆,这不仅是一座建筑,更是空间的变革者,为城市注入活力,展现着未来的发展方向。让我们一同探讨多功能声学综合馆的种种优势,它是如何为城市带来独特的价值。 1. 灵活性与多功能性的典范&am…

【RT-DETR有效改进】结合SOTA思想利用双主干网络改进RT-DETR(全网独家创新,重磅更新)

一、本文介绍 本文给大家带来的改进机制是结合目前SOTAYOLOv9的思想利用双主干网络来改进RT-DETR(本专栏目前发布以来改进最大的内容,同时本文内容为我个人一手整理全网独家首发 | 就连V9官方不支持的模型宽度和深度修改我都均已提供,本文内…

RK3568平台开发系列讲解(基础篇)中断线程化

🚀返回专栏总目录 文章目录 一、什么是中断线程化二、中断线程化接口三、中断线程化案例沉淀、分享、成长,让自己和他人都能有所收获!😄 一、什么是中断线程化 中断线程化是一种优化技术, 用于提高多线程程序的性能。 中断线程化的核心思想是将中断处理和主线程的工作分…

paimon取消hive转filesystem

目录 概述实践关键配置spark sql 结束 概述 公司上一版本保留了 hive ,此版优化升级后,取消 hive。 实践 关键配置 同步数据时,配置如下,将形成两个库 # ods库 CREATE CATALOG paimon WITH (type paimon,warehouse hdfs:///d…

ospf协议以及案例

OSPF协议网络类型 OSPF协议支持四种网络类型,分别是点到点网络,广播型网络,NBMA网络和点到多点网络。 1、点到点网络是指只把两台路由器直接相连的网络。一个运行PPP的64K串行线路就是一个点到点网络的例子。 2、广播型网络是指支持两台以上…

第二篇【传奇开心果系列】Python的自动化办公库技术点案例示例:深度解读Pandas金融数据分析

传奇开心果博文系列 系列博文目录Python的自动化办公库技术点案例示例系列 博文目录前言一、Pandas 在金融数据分析中的常见用途和功能介绍二、金融数据清洗和准备示例代码三、金融数据索引和选择示例代码四、金融数据时间序列分析示例代码五、金融数据可视化示例代码六、金融数…