ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

news2024/11/14 2:58:24

基本介绍:CVPR, 2023, CCF-A

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf

Abstract

        多模态情感识别(MER)旨在通过语言、视觉和听觉模态感知人类情感。尽管先前的MER方法表现出色,但多模态固有的异质性仍然是一个挑战,不同模态的贡献差异显著。在本研究中,我们通过提出解耦的多模态蒸馏(DMD)方法来缓解这一问题,促进灵活且自适应的跨模态知识蒸馏,旨在增强每个模态的判别性特征。具体来说,每个模态的表示被解耦为两部分,即模态无关和模态专属空间,以一种自回归的方式进行解耦。DMD使用了一个图蒸馏单元(GD-Unit)来处理每个解耦的部分,从而使每个GD能够以更加专业和有效的方式执行。GD-Unit由一个动态图组成,其中每个节点表示一个模态,每条边表示一个动态的知识蒸馏过程。这种GD范式提供了一种灵活的知识传递方式,蒸馏权重可以自动学习,从而实现多样化的跨模态知识传递模式。实验结果表明,DMD在性能上持续优于最先进的MER方法。可视化结果显示,DMD中的图边在模态无关-专属特征空间上展现了有意义的分布模式。

Introduction

        多模态情感识别(MER)旨在通过视频片段感知人类的情感态度。视频流包含来自多种模态的时间序列数据,例如语言、声音和视觉。这种丰富的多模态性使我们能够从协同的角度理解人类行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,拥有诸多吸引人的应用,如智能辅导系统、产品反馈评估和机器人技术。

        对于MER,同一视频片段中的不同模态通常是互补的,能够提供额外的线索,用于语义和情感的消歧。MER的核心部分是多模态表示学习和融合,即模型旨在编码和整合来自多种模态的表示,以理解原始数据背后的情感。尽管主流MER方法取得了显著成果,但不同模态之间的固有异质性仍然困扰我们,增加了稳健多模态表示学习的难度。不同的模态(如图像、语言和声音)在传递语义信息时采用不同的方式。通常,语言模态由有限的转录文本组成,其语义比非语言行为更为抽象。如图1(a)所示,语言在MER中发挥着最重要的作用,而模态之间的固有异质性导致了不同模态在性能上的显著差异。

        减轻显著模态异质性的一种方法是将强模态中的可靠且可推广的知识蒸馏到弱模态中。如图1(b)所示,然而,手动分配蒸馏方向或权重可能非常繁琐,因为存在多种潜在的组合方式。因此,模型应根据不同的示例自动学习调整蒸馏方向,例如,许多情感更容易通过语言识别,而有些情感则更容易通过视觉识别。此外,不同模态间的显著特征分布不匹配,使得直接的跨模态蒸馏效果不佳。

        为此,我们提出了一种解耦的多模态蒸馏(DMD)方法,用于学习模态间的动态蒸馏,如图1(c)所示。通常,每个模态的特征通过共享编码器和私有编码器分别解耦为模态无关/专属空间。为了实现特征解耦,我们设计了一种自回归机制,预测解耦后的模态特征,并对其进行自监督回归。为了巩固特征解耦,我们引入了一种边界损失,用于规范模态和情感之间表示关系的接近度。因此,解耦的图蒸馏(GD)范式减少了从异质数据中吸收知识的负担,并使每个GD能够以更专业和有效的方式执行。

        基于解耦的多模态特征空间,DMD在每个空间中使用一个图蒸馏单元(GD-Unit),以便跨模态知识蒸馏可以以更加专业和有效的方式进行。GD-Unit由一个图组成,其中(1)节点代表模态中的表示或分类结果,(2)边表示知识蒸馏的方向和权重。由于模态无关(同质)特征之间的分布差距被充分缩小,GD可以直接应用于捕捉模态间的语义关联。对于模态专属(异质)特征,我们利用多模态Transformer构建语义对齐并弥合分布差距。多模态Transformer中的跨模态注意机制强化了多模态表示,并减少了不同模态中存在的高级语义概念之间的差异。为了简化,我们分别将解耦多模态特征上的蒸馏命名为同质图知识蒸馏(HomoGD)和异质图知识蒸馏(HeteroGD)。这一重新定义使我们能够明确探索每个解耦空间中不同模态之间的相互作用。

        本研究的贡献可以总结为以下几点:

  1. 我们提出了一种解耦的多模态蒸馏框架,即解耦的多模态蒸馏(DMD),用于学习模态间的动态蒸馏,以实现稳健的多模态情感识别。在DMD中,我们明确将多模态表示解耦为模态无关/专属空间,以便在这两个解耦空间上进行知识蒸馏。DMD提供了一种灵活的知识传递方式,蒸馏的方向和权重可以自动学习,从而实现灵活的知识传递模式。
  2. 我们在公开的MER数据集上进行了全面的实验,取得了优于或与最先进方法相当的结果。可视化结果验证了DMD的可行性,且图边展示了与HomoGD和HeteroGD相关的有意义的分布模式。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2157135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于STM32残疾人辅助行走系统

要么是家人陪伴,要么是类似导盲犬的动物辅助,家人还有事要做,不一定实时在场,而动物辅助也可能会出现新的问题,威胁残疾人身体安全。因此利用现代计算机技术、传感器检测设备和物联网技术设计这一款辅助残疾人行走的智…

.NET常见的5种项目架构模式

前言 项目架构模式在软件开发中扮演着至关重要的角色,它们为开发者提供了一套组织和管理代码的指导原则,以提高软件的可维护性、可扩展性、可重用性和可测试性。 假如你有其他的项目架构模式推荐,欢迎在文末留言🤞!&a…

基于微信小程序的家教信息管理系统的设计与实现(论文+源码)_kaic

摘 要 随着互联网时代的来临,使得传统的家教模式已不复存在,亟需一种方便、快捷的在线教学平台。因此,利用Java语言作为支撑和MySQL数据库存储数据,结合微信小程序的便利性,为用户开发出了一个更加人性化、方便的家庭…

Centos 9 Steam扩容硬盘

要将 sda 的剩余空间扩展给 cs-root,可以按照以下步骤进行操作。假设你已经有剩余的未分配空间在 sda 上。 步骤 1:查看当前磁盘分区情况 首先,确保你有未分配的空间在 sda 上。 lsblk步骤 2:创建新的分区 使用 fdisk 或 par…

Apache Arrow IPC 消息格式

Apache Arrow 的 IPC(Inter-Process Communication,进程间通信)消息格式是一种用于在不同进程间高效传输数据的序列化格式,它允许不同系统或语言环境中的应用程序以统一的方式交换数据,而无需关心数据的具体存储细节。…

【网络安全】身份认证+wan优化+终端控制

用户身份认证 在允许用户访问你的网络时对其进行验证是至关重要的。不幸的是很多情况下,简单的用户名与密码验证并不可靠。公司通常需要更强大的针对访问信息价值较高系统(例如网络管理员系统与财务系统)的用户群体的验证。 双因子身份验证是根据“你知道的”和“你…

faiss安装 (CPU版本)

faiss版本 faiss-v1.7.4 cd faiss-v1.7.4cmake -B build . -DBUILD_TESTINGOFF -DFAISS_ENABLE_GPUOFF -DFAISS_ENABLE_PYTHONOFFmake -C build -j faiss; 默认安装路径如下 -- Installing: /usr/local/lib64/libfaiss.a -- Installing: /usr/local/include/faiss…

VMware vCenter Server 7.0U3s 发布下载,新增功能概览

VMware vCenter Server 7.0U3s 下载 - 集中管理 vSphere 环境 Server Management Software | vCenter | 集中管理 vSphere 环境 请访问原文链接:https://sysin.org/blog/vmware-vcenter-7-u3/,查看最新版。原创作品,转载请保留出处。 作者…

WebGL颜色与纹理

WEBGL中的着色器变量包括以下种类: 属性变量(Attribute Variables):这些变量用于接收从应用程序中传递的顶点数据,比如顶点位置和颜色,是只读的不可修改。统一变量(Uniform Variables&#xff…

通过docker启动ElasticSearch后为ElasticSearch设置用户和密码

文章目录 0. 前言1. 没有设置用户名和密码的情况2. 为ElasticSearch设置用户名和密码2.1 进入 ElasticSearch 容器内部2.2 修改 ElasticSearch 的配置文件2.3 设置用户名和密码 3. 在 kibana 容器中指定访问 ElasticSearch 的用户名和密码4. 设置用户名和密码后的情况4.1 访问 …

QT For Android开发-打开PPT文件

一、前言 需求: Qt开发Android程序过程中,点击按钮就打开一个PPT文件。 Qt在Windows上要打开PPT文件或者其他文件很容易。可以使用QDesktopServices打开文件,非常方便。QDesktopServices提供了静态接口调用系统级别的功能。 这里用的QDesk…

C语言理解 —— printf 格式化输出

目 录 printf 函数一、短整型输出二、长整型输出三、浮点型输出四、字符型输出五、字符串输出六、注意问题 printf 函数 在软件开发过程中,通常需要打印一些字符串信息,或把一些变量值输出到上位机显示。打印函数printf是最常用的。 一般格式&#xff…

架构设计笔记-5-软件工程基础知识

知识要点 按软件过程活动,将软件工具分为软件开发工具、软件维护工具、软件管理和软件支持工具。 软件开发工具:需求分析工具、设计工具、编码与排错工具。 软件维护工具:版本控制工具、文档分析工具、开发信息库工具、逆向工程工具、再工…

计算机毕业设计 基于Python的荣誉证书管理系统 Django+Vue 前后端分离 附源码 讲解 文档

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

【永磁同步电机(PMSM)】 6. 矢量空间算法(SVPWM)

【永磁同步电机(PMSM)】 6. 矢量空间算法(SVPWM) 1. SVPWM 的基本原理1.1 SVPWM 的优点1.2 SVPWM 的电路拓扑1.3 连续旋转的空间矢量 2. SVPWM 的算法实现2.1 电压矢量组合方案2.2 SVPWM 的实现步骤 3. 基于 Simulink 的 SVPWM 仿…

软考高级:系统安全 -区块链特点:去中心化、开放性、自治性、安全性、匿名性

讲解 生活化例子 想象一下,你和朋友们玩一个共享账本的游戏。每个人都可以在账本上记账,没人可以单独改动账本,大家都可以随时查看账本内容,也不用再信任某个单独的人来管理账本。这就类似于区块链的工作原理。 概念讲解 去中…

软考高级:敏捷开发 SCRUM

生活化例子 想象你和朋友们要组织一场周末聚会。你们首先会决定聚会的主题、场地、时间等大方向,然后每个人分配不同的任务,比如有人负责买零食,有人负责准备音乐,有人负责布置场地。你们每天都简单沟通下进展,看看大…

【C++笔试强训】如何成为算法糕手Day1

学习编程就得循环渐进,扎实基础,勿在浮沙筑高台 循环渐进Forward-CSDN博客 笔试强训第一天 目录 循环渐进Forward-CSDN博客 第一题:两个数组的交集 暴力循环法: 哈希法 : 数组下标法: 第二题&#x…

“滑动窗口”思想在算法里面的应用

目录 一 无重复字符串的最长子串 链接:无重复字符的最长子串 1. 题目分析 解法一:暴力求解 借助2个“指针”:left , right 指针,依次固定left 指针,让right指针进行遍历,每遇到一个最大的 …

24/9/19 算法笔记 kaggle BankChurn数据分类

题目是要预测银行里什么样的客户会流失,流失的概率是多少 我这边先展示一下我写的二分类的算法 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.linear_model impo…