【CubeMLP】核心方法解读

news2024/10/12 17:12:25

abstract:

多模态情绪分析和抑郁估计是利用多模态数据预测人类心理状态的两个重要研究课题。以前的研究主要集中在开发有效的融合策略,以交换和整合来自不同模式的心智相关信息。一些基于mlp的技术最近在各种计算机视觉任务中取得了相当大的成功。受此启发,我们在本研究中以特征混合的视角探索了多模态方法。为此,我们引入了完全基于MLP的多模态特征处理框架CubeMLP。CubeMLP由三个独立的MLP单元组成,每个单元都有两个仿射变换。CubeMLP接受所有相关的模态特征作为输入,并在三个轴上混合它们。利用CubeMLP提取特征后,对混合多模态特征进行平面化处理,用于任务预测。我们的实验是在情感分析数据集:CMU-MOSI和CMU-MOSEI,以及抑郁估计数据集:AVEC2019上进行的。结果表明,CubeMLP可以以更低的计算成本实现最先进的性能。


intro:

随着社交媒体的普及,多模态数据已经成为个人和公众交流的重要手段。在这种情况下,从多模态数据估计人类的心理状态变得越来越重要。多模态数据通常包括文本、声学和视觉信息,从多模态数据中提取特征特征为二维矩阵其中Lm和Dm分别为模态m的序列长度和特征通道大小。

为了有效地处理多模态特征, Zadeh等[37]首先在张量融合网络(Tensor Fusion Network, TFN)中引入了笛卡尔积,将所有涉及的模态特征在𝐿𝑚轴上进行融合。随后,许多研究者提出模态之间存在双向关系和互补信息,并应用注意机制计算模态对(如文本和声学)的共同注意[9,39]。最近,随着基于transformer的结构的显著成功[34],一些作品试图将自注意机制用于模态相互作用[3,4,11,35]。这些趋势方法的核心主要是模态之间的信息交换。

这些信息交换方法的结果可以看作是特征混合。例如,TFN[37]和一些顺序型共注意方法[19,39]试图在模式之间混合𝐿𝑚轴上的特征,而通道型共注意方法[21]试图在𝐷𝑚上进行混合。对于基于transformer的方法[3,4,11,35],它们采用自关注机制,并在𝐿𝑚轴上执行配对模态之间的复杂混合,这也可以视为通过另一个模态来增强一个模态。

由于在计算机视觉应用中越来越多地使用变压器,最近提出了许多变体,如ViT[7]和ViViT[1]。另一方面,Transformer对自我关注有很大的内存需,这是Transformer架构的一个主要缺点因此,完全由多层感知器(mlp)组成的结构引起了人们的兴趣。例如,MLP-mixer[31]和ResMLP[32]使用mlp来替代自关注机制设计。通过用mlp代替自我关注,这些技术在保持高性能的同时显著降低了计算成本。 

受基于mlp技术的启发,本文提出了一种简单而有效的基于mlp的多模态特征处理框架CubeMLP。


在预处理过程中,我们将模态特征整合成一个多模态张量,其中𝑀为模态个数,𝐿为序列长度,𝐷为特征通道的大小。CubeMLP由三个MLP单元组成,分别对应三个轴(𝐿、𝑀和𝐷)。第一个MLP单元被设计用于混合𝐿轴上的特征,这个过程称为顺序混合。模态混合(𝑡、𝑎和𝑣)由𝑀轴上的第二个MLP单元执行。最后,𝐷轴上的第三个MLP单元执行通道混合。每个MLP单元包含两个完全连接的层,每个层都包含一个仿射变换,可以在数学上表示为一个带有偏差的矩阵𝑊。在CubeMLP中,我们使用提出的三种MLP设计结构在每个可能的轴上混合多模态特征。之后,混合特征被平面化并馈送到分类器进行预测。在此过程中,融合多模态特征,并在任意轴上交换多模态信息。

贡献如下:

  • 我们提出了一个完全基于MLP的多模态特征处理框架CubeMLP。CubeMLP在三个轴上混合特征:序列(𝐿)、模态(𝑀)和通道(𝐷)。在混合过程中,不同的多模态信息(𝑡,𝑎和𝑣)被有效地传输和共享,以提取重要特征用于情感分析和抑郁检测。
  • 我们建议使用mlp来大大减少计算负担,同时与一些最先进的方法取得竞争结果,这证明了我们的CubeMLP是一种有效的多模态特征处理结构。
  • 我们在两个心理状态估计任务上进行了彻底的实验,以验证CubeMLP的有效性:多模态情绪分析和多模态抑郁检测。结果表明,我们的方法与最先进的情感分析方法具有良好的竞争力,同时在抑郁症检测方面取得了很大进展。

 related work:

 多模态和抑郁部分略过

mlp-based models:

基于mlp的模型是一种新的视觉任务结构。在ViT[7]中,首先使用Transformer进行图像处理。它将图像分成几个小块,并将它们提供给Transformer。显著的性能提升引发了许多其他变化[1,20],但计算负担仍然很大。因此,提出了一些基于mlp的模型,包括MLP-Mixer[31]、ResMLP[32]和Hire-MLP[10]。这些方法抛弃了自关注机制,代之以效率更高的mlp。通常,这些模型中包含两个独立的MLP,一个MLP处理通道,另一个处理令牌。

受基于mlp模型固有结构的启发,我们发现它可以很自然地转移到多模态特征处理中。由于多模态特征通常由三个轴(顺序、模态和通道)组成,我们添加了一个额外的MLP来全面混合这些特征。详细的结构在第3节中说明。

 methods:

 提取的特征被输入到堆叠的立方体mlp块中进行混合。

为了预测,混合特征被平面化。

其中 MLP unit:

CubeMLP是一种简单而有效的多模态特征处理结构。我们的任务是从视频中的人类话语中预测情绪倾向或抑郁程度,其中每个话语都是模型的输入样本。在一个话语中,提供了三种方式,包括文本(𝑡)、声学(𝑎)和视觉(𝑣)。我们的方法概述如图1所示。每个模态特征首先通过特定的方法提取。特征提取后,我们不像以前的方法那样在序列级别或通道级别交换跨模态信息[4,41]。

相反,我们在顺序,通道和模态级别上单独执行混合。具体来说,CubeMLP用于通过各自的MLP单元混合所有轴上的多模态特征。然后将混合的多模态特征传递给分类器,以执行情绪分析或抑郁检测的预测。

MD,我怎么没想到啊,让人提前发了

特征提取部分略过

CubeMLP:
提取特征后,我们首先在第二维上将扩展为,然后沿着扩展轴将它们连接起来组成多模态特征,其中𝑀是模态的数量。然后,将多模态特征传递给聚合层堆叠的cubemlp,以便混合如图1所示。

 CubeMLP块由三个MLP单元组成,每个MLP单元被设计成在其各自的轴上混合多模态特征。

具体地说,第一个MLP目的是作用域L轴的序列混合

第二个MLP,目的是作用于M轴的的模态混合

第三个MLP,目的是作用于D轴的通道混合

每个MLP单元由两个完全连接的层和一个非线性激活组成,全连通层也可以看作是两个变换。

让我们考虑𝐿轴上的第一个顺序混合MLP单元。张量𝑋可以看作是一组向量,在(𝑚𝑑)∈{(1,1),(1、2),…,(2,1),(2,2),…,(𝑀,𝐷)}。是𝑚-th模态和𝑑-th通道的向量。序列混合MLP中的每个变换可以表示为:

其中是两个矩阵的可学习参数,是L轴上的降维,他是一个超参数,在下面讨论,AffL的公式代表所有的都会共享参数WL和BL。

MLP unit可以被数学公式表示为:

其中参数解读:

第一个MLP unit输出的张量可以被考虑成一个系列的vector,其中(m,d)的范围是

其他两个unit是一样的

其中M'和D'分别是M轴和D轴上的降维,他们的公式表示为:

预测:

根据之前的工作[11,37],混合多模态特征𝑋‘∈𝑅𝐿’ ×𝑀‘ ×𝐷’被扁平化为𝑋‘∈𝑅𝐿’𝑀‘𝐷’。然后,将平坦的特征馈送到分类器𝑓𝑐:𝑅𝐿‘𝑀’𝐷'→𝑅,以预测情绪倾向或抑郁程度。

我们使用平均绝对误差(MAE)作为多模态情感分析训练过程中的损失函数,这是一个回归任务:

其中N是样本数。利用MAE计算预测结果与地面真实值之间的绝对误差。MAE对小错误的影响比高阶错误的影响更大,允许模型在微妙的情感上达到更好的准确性。

因此,MAE经常被用作情感分析的关键性能指标[2,11,12,37]。

对于抑郁检测,我们训练模型以一致性相关系数(CCC)损失作为损失代价来回归抑郁趋势:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2208336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pandas与JQData在量化投资中的应用:数据获取与处理函数详解

🌟作者简介:热爱数据分析,学习Python、Stata、SPSS等统计语言的小高同学~🍊个人主页:小高要坚强的博客🍓当前专栏:《Python之量化交易》🍎本文内容:Pandas与JQData在量化投资中的应用:数据获取与处理函数详解🌸作者“三要”格言:要坚强、要努力、要学习 目录 …

dvwa:暴力破解、命令注入、csrf全难度详解

暴力破解 easy模式 hydra -L /usr/share/wordlists/SecLists-master/Usernames/top-usernames-shortlist.txt -P /usr/share/wordlists/SecLists-master/Passwords/500-worst-passwords.txt 192.168.72.1 http-get-form "/dvwa/vulnerabilities/brute/:username^USER^&…

UDP和TCP的区别、网络编程(UDP回显服务器、TCP回显服务器)

目录 一、什么是网络编程 二、网络编程的内容概念 接受端和发送端 请求和响应 服务端和客户端 三、UDP和TCP协议的区别 四、UDP网络编程的类和函数(回显服务器) DatagramSocket DatagramPacket InetSocketAddress 基于UDP的回显服务器和客户…

​​​​​​​​​​Proxifier安装步骤

​​​​​​​​​​Proxifier ​​​​​​​​​​Proxifier下载连接 进入Proxifier官网后,点击下面按钮,下载安装包 下载完成后,打开压缩包 双击运行 选择试用 安装完成

Vue 3 全屏切换组件(附Demo)

目录 1. 基本知识2. 拓展3. 延伸 1. 基本知识 全屏 API document.documentElement.requestFullscreen():请求全屏模式 document.exitFullscreen():退出全屏模式 document.fullscreenElement:返回当前处于全屏状态的元素 基本的Demo如下&…

大模型进军医疗行业:实验揭示LLMs在临床建议中的表现

近年来,大型语言模型(LLMs)如GPT-4等以其强大的自然语言处理能力,引发了科技界和公众的广泛关注。随着技术的不断进步,越来越多的人开始探索将LLMs应用于医疗行业,以期提高医疗服务的效率和质量。然而&…

第170天:应急响应-战中溯源反制对抗上线CSGoby蚁剑Sqlmap等安全工具

目录 案例一:溯源反制-Webshell工具-Antsword 案例二:溯源反制-SQL注入工具-SQLMAP 案例三:溯源反制-漏洞扫描工具-Goby 案例四:溯源反制-远程控制工具-CobaltStrike 反制Server,爆破密码(通用&#x…

吴恩达演讲全文:AI Agent工作流的趋势

本文是吴恩达今年3月的演讲,题目为“Agentic Reasoning”,对AI Agent工作流的趋势进行了讲解。 本文对AI Agent翻译为了AI代理。 吴恩达指出,随着AI技术的发展,AI代理被视为一个能显著提升软件开发效率和质量的工具。 他通过展…

umi配置阿里云短信验证登录流程

首先 开通短信服务,融合认证,设置签名,模板,templateparams,调试板块可以发送成功并测试; s​​​​​​​​​​​​​​SendSmsVerifyCode_云通信号码认证服务_API调试-阿里云OpenAPI开发者门户 下图的s…

荆州团市委领导一行赴点赋科技公司参观考察

近日,荆州团市委书记熊燃、副书记陈杰一行前往点赋科技公司进行参观考察,为荆州科技领域与青年工作的交流合作开启新篇。 在考察过程中,熊燃书记和陈杰副书记深入点赋科技公司的办公区域、设备点位等进行实地走访。他们仔细聆听了公司董事长崔…

HUAWEI_HCIA_实验指南_Lib3.1_VLAN 基础配置及 Access 接口

1、原理概述 早期的局域网技术是基于总线型结构的。总线型拓扑结构是由一根单电缆连接着所有主机,这种局域网技术存在着冲突域问题,即所有用户都在一个冲突域中,那么同一时间内只有一台主机能发送消息,从任意设备发出的消息都会被…

Monad 101 杭州线下活动:解锁创新技术,引领低成本高效 DApp 开发之路!

以太坊等区块链在处理传统金融大规模交易时面临巨大挑战,有限的可扩展性成为阻碍其广泛应用的主要瓶颈。为了解决这一难题,并缩小传统金融与去中心化金融(DeFi)之间的差距,Keone 创立了 Monad。通过显著提升交易速度和…

STM32(十八):SPI通信

SPI通信: SPI(Serial Peripheral Interface)是由Motorola公司开发的一种通用数据总线 四根通信线:SCK(Serial Clock)、MOSI(Master Output Slave Input)主机输出从机输入、MISO&…

Idea 2024.2.3 找不到Cache Recovery设置

idea找不到官网所说的设置 下面是解决办法 1.找到对应位置 2.增加配置文件内容 idea.is.internaltrue3.重启idea 4.查看结果 解决方案原文

Android列表组件api

目录 1.ListView控件 1)android:divider 2)android:dividerHeight 3)android:entries 4)android:footerDividersEnabled 5)android:headerDividersEnabled 6)android:listSelector 7)android:sc…

JavaScript Set 必备指南:深入理解 Set 的特性和方法

一. 了解 Set 1. 概念和用途 Set 是 JavaScript 中的一种集合(collection)数据结构,它类似于数组,但是集合中的元素是唯一的,不允许重复。Set 提供了一种存储不重复数值或对象的机制,可以用于存储一组唯一…

【03】手把手教你0基础部署SpringCloud微服务商城教学-Docker前置篇(附Linux虚拟机配置调试及Docker安装全流程)

前文回顾:【02】手把手教你0基础部署SpringCloud微服务商城教学-Mybatis篇(下) 首先我们第一次看见这个东西,第一步就是需要知道它到底是用来干什么的? 简单来说,Docker就是一个快速构建、运行、管理应用的…

K8s-services+pod详解1

一、Service 我们能够利用Deployment创建一组Pod来提供具有高可用性的服务。 虽然每个Pod都会分配一个单独的Pod IP,然而却存在如下两问题: Pod IP 会随着Pod的重建产生变化Pod IP 仅仅是集群内可见的虚拟IP,外部无法访问 这样对于访问这…

【干货】2024新学期期中考试,老师成绩发布工具

老师们别再为期中发成绩发愁了,我给各位带来了一个解决方案——易查分小程序,它可以将彻底改变您发布成绩的方式!一分钟发布期中考试成绩。不管您是教育界的新手还是老手,易查分都能成为您的得力助手。它的界面既美观又实用&#…

大数据毕业设计选题推荐-音乐数据分析系统-音乐推荐系统-Python数据可视化-Hive-Hadoop-Spark

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…