Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition阅读笔记

news2024/11/26 20:35:34

Abstract

摘要——多模态分析最近引起了人们对情感计算的极大兴趣,因为它可以提高情感识别相对于孤立的单模态方法的整体准确性。 最有效的多模态情绪识别技术有效地利用各种免费的信息源,例如面部、声音和生理模式,以提供全面的特征表示。 在本文中,我们专注于基于从视频中提取的面部和声音模态融合的维度情绪识别,其中可以捕获复杂的时空关系。 大多数现有的融合技术依赖于循环网络或传统的注意机制,这些机制不能有效地利用视听 (A-V) 模态的互补性。 我们引入了一种交叉注意融合方法来提取跨 A-V 模态的显着特征,从而可以准确预测效价和唤醒的连续值。 我们新的交叉注意力 A-V 融合模型有效地利用了模态间关系。 特别是,它计算交叉注意力权重以关注跨单个模态的更有贡献的特征,从而组合有贡献的特征表示,然后将其馈送到完全连接的层以预测效价和唤醒。 所提出方法的有效性在来自 RECOLA 和Fatigue
(private)数据集的视频上得到了实验验证。 结果表明,我们的交叉注意力 A-V 融合模型是一种具有成本效益的方法,优于最先进的融合方法。 代码可用:https://github.com/praveena2j/Cross-Attentional-AV-Fusion
主要贡献:(1)我们提出了一种基于互相关的交叉注意 A-V 融合模型,以有效地利用跨模态的互补关系进行维度情绪识别。 (2) 与之前的方法不同,我们利用 A-V 特征之间的相互作用(模态间关系)来获得维度情绪识别的补充表示。 (3) 对于概念验证,我们考虑使用 Inflated 3D CNN 模型 [14] 来有效地提取面部模态的时空特征,并结合 2D-CNN 模型从声谱图表示中提取 A 特征来表示声音模态。 RECOLA 和Fatigue
(private)数据集的实验结果表明,我们提出的交叉注意 A-V 融合可以胜过用于维度情绪识别的最先进的融合模型。

PROPOSED APPROACH

在本节中,我们介绍交叉注意力 A-V 融合模型,该模型提取面部和声音模态的互补特征,从而提供全面的表示以提高整体性能。

A. 视频中的视觉网络面部表情涉及视频序列的外观和时间动态。 视频序列的空间和时间动态的有效建模在提取鲁棒特征方面起着至关重要的作用,这反过来又提高了整体系统性能。 最先进的性能通常是使用 CNN 结合递归神经网络 (RNN) 来捕获有效的潜在外观表示以及时间动态 [26]。 已经探索了几种基于 LSTM [27]、[28] 的维度情绪识别方法。 然而,发现 3D-CNN 在捕捉视频中的时空动态方面非常有效。 具体来说,我们考虑使用 Inflated 3D-CNN [14] 从视频序列中提取面部剪辑的时空特征。 与传统的 3D CNN 相比,I3D 可以有效地捕获 V 模态的时空动态,同时使用比 3D CNN 更少的参数进行训练。 此外,它有助于探索现有的预训练 2D-CNN,这些 2D-CNN 在许多具有面部表情的图像上进行训练,从而提高视频的空间辨别力。 在提议的方法中,我们分别为面部模态训练了 I3D 模型(参见第 IV-B 节中的实现细节)。 B. 音频网络语音信号的副语言信息被发现具有传达一个人的情绪状态的重要信息。 尽管使用传统的手工特征(如 MFCC、全局特征 [29])广泛探索了使用语音的情感识别,但近年来随着 DL 模型的引入有了显着改进。 发现频谱图携带与一个人的情感状态有关的重要的副语言信息 [30],[31]。 因此,在基于语音的情感识别的 DL 模型框架中使用了频谱图。 在用于情感识别的文献中,已经使用各种 2D CNN 探索了频谱图 [32]、[33]。 我们使用表 I 中所示的 A 网络(参见第 IV-B 节中的实现细节)。
C. Cross-Attentional Fusion 分别训练了A和V模型,并为A和V模态提取了深层特征。 对于 A 和 V 模态,效价和唤醒的表现差异很大。 由于 V 模态中丰富的基于外观的信息,它在描述序列的表达式时传达了与效价相关的重要信息。 音频信号携带与表情强度相关的重要信息,这在 A 信号的能量中得到有效体现。 对于给定的视频序列,V 模态在某些视频剪辑中携带相关信息,而 A 模态可能与其他剪辑更相关。 由于与单一模态相比,多种模态传达了不同的效价和唤醒信息,因此可以通过以互补方式融合 A 和 V 模态来有效地利用多种模态。 为了可靠地融合这些模态以预测效价和唤醒,我们使用基于交叉注意的融合机制来有效地编码模态间信息,同时保留模态内特征。 所提出模型的框图如图 1 所示。
在这里插入图片描述
互相关矩阵 Z 给出了 A 和 V 特征之间的相关性度量。 矩阵 Z 中较高的相关系数表明子序列对应的 A 和 V 特征相互之间有很强的相关性。 因此,互相关矩阵 Z 的第 l 列显示了第 l 个 V 特征与 L A 个特征的相关性度量。 基于这个想法,我们分别通过应用 Z 和 Z T 的列向 softmax 来计算 A 和 V 特征 Aa 和 Av 的交叉注意力权重:

在这里插入图片描述
其中 i 和 j 表示互相关矩阵 Z 的第 i 行和第 j 列,T 表示 softmax 温度。 由于权重 W 是基于 A 和 V 特征的互相关学习的,因此每个模态的注意力权重由另一个模态引导,从而有效地利用 A 和 V 模态的互补性质。 得到cross-attention weights后,用来得到A和V特征的attention maps,使其更全面,更有判别力:
在这里插入图片描述
其中 Aa 和 Av 分别表示 A 和 V 特征的交叉注意力权重。 将重新加权的注意力图添加到相应的特征中以获得参与特征:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423836.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

谷歌云服务器centos9的docker部署chat-web,实现自己的ChatGPT

谷歌云服务器centos9的docker部署chat-web,实现自己的ChatGPT 前提条件:准备一个境外服务器和chatgpt的key。(网上教程很多) 1.更新yum yum update2.下载docker-ce的repo curl https://download.docker.com/linux/centos/dock…

IDEA Eval Reset 使用方法

IDEA Eval Reset 使用方法 idea eval reset 使用方法安装插件 离线安装方式 1、下载插件 下载地址:https://plugins.zhile.io/files/ide-eval-resetter-2.1.6.zip2、安装插件直接下载插件 zip 包(macOS 可能会自动解压,然后把 zip 包丢进回收…

文旅+虚拟数字人,开启数字文旅发展新方向

随着元宇宙概念爆发,对接虚拟与现实的虚拟数字人正成为国内数字文旅发展的新突破口!无论是当地文旅机构、文旅品牌还是政府部门来说,虚拟数字人具有独特的可塑性和创新性,利用文旅虚拟数字人广泛的应用场景,把文旅虚拟…

第十九章 案例TodoList之组件拆分

光说不练假把式,接下来我们将练习一个案例TodoList,让我们熟悉react。 以上是该案例的静态示例,其功能有: 在输入框输入任务,按回车键新增一个任务项鼠标移动在单个任务项上面,出现删除按钮点击删除按钮&a…

密度聚类算法(DBSCAN)实验案例

密度聚类算法(DBSCAN)实验案例 描述 DBSCAN是一种强大的基于密度的聚类算法,从直观效果上看,DBSCAN算法可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。DBSCAN的一个巨大优势是可以对任意形状…

SpringSecurity 学习笔记 下(微服务权限方案)

SpringSecurity 微服务权限方案 一、 什么是微服务 1.1 微服务由来 微服务最早由 Martin Fowler 与 James Lewis 于 2014 年共同提出,微服务架构风格是一种使用一套小服务来开发单个应用的方式途径,每个服务运行在自己的进程中,并使用轻量级…

使用Swagger生成在线文档

目录 1:Swagger介绍 2:使用 2.1:swaager集成boot依赖 2.2:配置文件中配置相关信息 2.3:在启动类中加入相关注解 2.4:测试 3:swagger常用注解 1:Swagger介绍 在前后端分离开发…

GET和POST方式请求API接口数据返回

区别: GET在浏览器回退时是无害的,而POST会再次提交请求。 GET产生的URL地址可以被Bookmark,而POST不可以。 GET请求会被浏览器主动cache,而POST不会,除非手动设置。 GET请求只能进行url编码,而POST支持…

DETR【论文阅读】

End-to-End Object Detection with Transformers 1. Introduction 发表:ECCV 2020影响:在目标检测上使用了一种全新的架构,是里程碑式的工作。简单优雅统一的结构,不再依赖于人的先验知识(anchor生成,nms…

二叉树_详解

目录 1. 树型结构 1.1 概念 1.2 概念 1.3 树的表示形式 1.4 树的应用 2. 二叉树 2.1 概念 2.2 两种特殊的二叉树 2.3 二叉树的性质 2.4 二叉树的存储 2.5 二叉树的基本操作 2.5.1 前置说明 2.5.2 二叉树的遍历 2.5.3 二叉树的基本操作 1. 树型结构 1.1 概念 …

k8s集群上安装Velero,用Velero备份K8S的数据

前提条件: 需要有一个K8S集群! 一、概述 Velero是一个开源工具,可以安全地备份和还原,执行灾难恢复以及迁移Kubernetes集群资源和持久卷。 二、docker安装minio mkdir -p /home/minio docker run -p 9000:9000 -p 9090:9090 …

Win11去掉桌面图标快捷方式(2)----Dism++

1.Dism介绍 Dism,也许是最强的实用工具全球第一款基于 CBS 的 Dism GUI 实现。 兼容 Windows Vista/7/8/8.1/10 Dism可以说是一个Dism的GUI版,但是并不依赖Dism,直接基于更底层的CBS(Component Based Servicing Reference&…

第1章 如何听起来像数据科学家

第1章 如何听起来像数据科学家 文章目录第1章 如何听起来像数据科学家1.1.1 基本的专业术语1.1.3 案例:西格玛公司1.2.3 为什么是Python1.4.2 案例:市场营销费用1.4.3 案例:数据科学家的岗位描述我们拥有如此多的数据,而且正在生产…

山西省税务汇总申报流程

1、国家税务总局山西省电子税务局 企业登录:填写社会信用代码、密码、手机号、获取验证码,即可登录成功。 2、登录成功后,按下图 第一步进行数据更新、第二步点击“我要办税”->税费申报及缴纳 3、先填写报表->增值税及附加税 4、…

每日学术速递4.11

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning 标题:InstantBooth:无需测试时间微调的个性化文本到图像生成 作者&a…

九耶丨钛伦特-用深度学习实现垃圾图像分类(一)

在这个项目中我们将结合我们的日常生活,让计算机帮助我们进行垃圾分类。比如让计算机能够正确将如下三张包含不同垃圾的图像进行分类。 我们希望计算机能够识别出三张图像依次是玻璃(玻璃瓶),纸张(信封)和塑…

Kafka学习记录

阅读前请看一下:我是一个热衷于记录的人,每次写博客会反复研读,尽量不断提升博客质量。文章设置为仅粉丝可见,是因为写博客确实花了不少精力。希望互相进步谢谢!! 文章目录阅读前请看一下:我是一…

“商量”翻车了?网友质疑搬运C站

在ChatGPT大热的当下,各大互联网和AI大厂陆续开始推出国内版本的大模型产品了,最近发布的有:商汤版ChatGPT发布千亿参数大模型:商量!第一个真正实现智能涌现的国产大语言模型,内测即将开启阿里版 ChatGPT 突…

ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

近两年,视觉语言模型 (VLM) 逐渐兴起,并在小样本学习 (Few-shot Learning) 和零样本推理 (Zero-shot Inference) 上取得了令人注目的成果。那么这些在自然图像上取得成功的大规模预训练视觉语言模型,是否能成功应用到医疗领域呢?抱…

springboot项目中的mysql用国产数据库达梦替换的相关说明

一、 用“DM管理工具”的“管理用户”创建你需要用户,也是达梦的模式。 用户的权限问题可以直接角色授权,方便一些。 二、借用达梦的“DM数据迁移工具”做数据库的表内容转移。 1. 新建工程、新建迁移 编辑mysql的数据库源 编辑达梦的目的端数据库 选择之…