【人工智能】深度解剖利用人工智能MSA模型

news2025/1/10 17:26:42

目录

  • 情感分析的应用
  • 一、概述
  • 二、研究背景
  • 三、主要贡献
  • 四、模型结构和代码
  • 五、数据集介绍
  • 六、性能展示
  • 七、复现过程

在这里插入图片描述

情感分析的应用

近年来社交媒体的空前发展以及配备高质量摄像头的智能手机的出现,我们见证了多模态数据的爆炸性增长,如电影、短视频等。在真实的生活中,多模态数据通常由三个渠道组成:视觉(图像)、听觉(语音)和转录文本。他们中的许多人经常表达某种情绪,这是一种长期的倾向,当一个人遇到一个特定的话题,他们会生成不同的反应和情绪。从多模态数据中挖掘和理解这些情感元素,即多模态情感分析(MSA),已经成为热门的研究主题,这是因为有许多吸引人的应用,例如从客户获得整体产品反馈或从潜在投票者中衡量投票意向的报告。一般而言,同一数据段中的不同模态通常彼此互补,从而为语义和情感歧义消除提供额外的线索的报告。MSA的关键部分是多模态融合,旨在从所有输入模态中提取和集成信息,以理解所见数据背后的情感。

此外,抑郁症对世界各地的个人和社会都有严重的负面影响。目前,抑郁症的诊断主要依靠问卷调查,辅以医学专业评估。但问卷调查的准确性在很大程度上取决于参与者的合作和操作人员的专业知识。近年来,基于人工智能的自动抑郁检测技术越来越突出。这些基于人工智能的抑郁检测技术通常涉及使用各种类型的生理或行为数据,例如面部表情,语音记录,文本和脑电图,通常在参与者的访谈期间记录。在这些数据形式中,音频和文本都很容易访问,并且包含有关抑郁症状的丰富信息。

我致力于对情感计算领域的经典模型进行分析、解读和总结,此外,由于现如今大多数的情感计算数据集都是基于英文语言开发的,我们计划在之后的整个系列文章中将中文数据集(SIMS, SIMSv2)应用在模型中,以开发适用于国人的情感计算分析模型,并应用在情感疾病(如抑郁症、自闭症)检测任务,为医学心理学等领域提供帮助,此外还加入了幽默检测数据集,在未来,我也计划加入更多小众数据集,以便检测更隐匿的情感,如嫉妒、嘲讽等,使得AI可以更好的服务于社会。

一、概述

这篇文章,我将介绍第二篇情感计算经典论文模型,他是EMNLP 2021的一篇经典MSA论文中的模型–Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis(MMIM)
此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及SIMS数据集和SIMV2数据集。

二、研究背景

最近几年,多模态情感分析(MSA)和抑郁症检测(DD)引起了越来越多的关注。在多模态情感分析(MSA)中,模型的性能在很大程度上取决于合成嵌入的质量。这些嵌入是从称为多模态融合的上游过程中生成的,该过程旨在提取并联合收割机输入的单峰原始数据,以产生更丰富的多模态表示。以往的研究要么反向传播任务丢失,要么通过调整特征空间的几何属性来获得较好的融合结果,而忽略了从输入到融合结果的关键任务相关信息的保存。本文提出了一个多模态信息最大化框架MMIM,该框架通过分层最大化单模态输入对(模态间)之间以及多模态融合结果与单模态输入之间的互信息,从而在多模态融合中保持与任务相关的信息。该框架与主任务(MSA)联合训练,以提高下游MSA任务的性能。为了解决难以解决的MI界问题,进一步建立了一套计算简单的参数和非参数方法来逼近它们的真值。

三、主要贡献

提出了一种用于多模态情感分析层次化MI最大化框架。MI最大化发生在输入级和融合级,以减少有价值的任务相关信息的损失。据我们所知,这是第一次尝试在MI和MSA之间建立桥梁;
作者制定了我们的框架中的计算细节,以解决棘手的问题。该公式包括参数学习和非参数GMM稳定和光滑的参数估计;
在两个公开的数据集上进行全面的实验,并获得上级或与最先进的模型相当的结果。

四、模型结构和代码

  1. 总体框架
    如下图所示,MMIM模型首先使用特征提取器(用于视觉和声学的固件,没有参数可供训练)和标记器(用于文本)将原始输入处理为数字序列向量。然后,将它们编码为单个单位长度表示。然后,该模型在两个协作部分中parts-fusion和MI最大化,分别由下图中的实线和虚线标记。在融合部分,堆叠的线性激活层的融合网络F将单峰表示转换为融合结果Z,然后将其通过回归多层感知器(MLP)进行最终预测。这两个部分同时工作,以产生用于反向传播的任务和MI相关损失,通过该模型学习将任务相关信息注入融合结果,并提高主任务中预测的准确性。

  2. 模态编码器
    我们首先将多模态顺序输入Xm编码成单位长度表示h m 。具体地,我们使用BERT对输入句子进行编码,并从最后一层的输出中提取头部嵌入作为h t 。对于视觉和声学,遵循之前的成果,采用了两个特定于模态的单向LSTM来捕获这些模态的时间特征:
    在这里插入图片描述

  3. 模态间MI最大化
    通过以上分析,我们希望通过在多模态输入之间提示MI,可以过滤掉与任务无关的模态特定随机噪声,并尽可能多地保留跨所有模态的模态不变内容。如前所述,作者提高了一个易于处理的下限,而不是为此直接计算MI。利用了Barber和Agakov中引入的精确和直接的MI下界。

  4. 融合的MI最大化
    为了加强中间融合结果以捕获模态之间的模态不变线索,在融合结果和输入模态之间重复MI最大化。优化目标是产生融合结 的融合网络F。因为我们已经有了一条从Z的生成路径,所以我们期望有一条相反的路径,即从构造m∈t,v,a。受Oord等人的启发但与之不同,作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性;

因为作者发现模型打算拉伸两个向量以最大化中的得分,而不进行这种归一化。然后,与Oord等人所做的相同,将此评分函数纳入噪声对比估计框架,将同一批次中该模态的所有其他表示处理为负样本;

以下是对这种提法的合理性的简短解释。对比预测编码(CPC)“在时间范围内”对上下文和未来元素之间的MI进行评分,以保持跨越许多时间步长的“慢功能”部分。类似地,在MMIM的模型中,要求融合结果Z反向预测“跨模态”的表示,以便可以将更多的模态不变信息传递给Z。此外,通过将预测与每一种模态对齐,使模型能够确定它应该从每一种模态接收多少信息。

五、数据集介绍

  1. CMU-MOSI: 它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。

  2. CMU-MOSEI: 它类似于CMU-MOSI,但规模更大。它包含了来自在线视频网站的23,453个注释视频片段,涵盖了250个不同的主题和1000个不同的演讲者。CMU-MOSEI中的样本被标记为[-3,3]范围内的情感强度和6种基本情绪。因此,CMU-MOSEI可用于情感分析和情感识别任务。

  3. AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行,以排除人为干扰。与上述两个数据集不同的是,AVEC2019中的每种模态都提供了几种不同的特征。例如,声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中,发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此,为了简单和高效的目的,我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0,24]内的PHQ-8评分进行注释,PHQ-8评分越大,抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

  4. SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集,为每种模态提供了详细的标注。该数据集包括2281个精选视频片段,这些片段来自各种电影、电视剧和综艺节目,每个样本都被赋予了情感分数,范围从-1(极度负面)到1(极度正面)

六、性能展示

  • 在情感计算任务中,可以看到MMIN模型性能超越其他模型,证明了其有效性;

在这里插入图片描述

  • 抑郁症检测任务中,MMIN在我们的数据集AVEC2019中依旧亮眼:在这里插入图片描述
  • SIMS数据集
    在这里插入图片描述

七、复现过程

在准备好数据集并调试代码后,进行下面的步骤,附件已经调通并修改,可直接正常运行;

  1. 下载多模态情感分析集成包
pip install MMSA
  1. 进行训练
$ python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112

运行过程
在这里插入图片描述
总结

  1. 适用场景
  • 情感驱动的内容生成: 该模型可以应用于情感驱动的内容生成任务,如根据用户的情感状态生成符合其情绪的音频、图像或文本内容。这在个性化推荐系统和广告定制中具有潜在的应用。

  • 心理健康监测与干预: 在心理健康领域,MMIM模型可以用于抑郁倾向监测和情绪干预。通过分析用户的语音、面部表情和文字信息,可以早期发现和处理心理健康问题,提供个性化的支持和建议。
    情感教育和人际关系:

  • 在教育和培训领域: MMIM模型可以用于情感教育和人际关系技能培训。通过模拟多模态情境并提供实时反馈,帮助个体提高情感表达和沟通能力。

  1. 项目特点
  • 多模态整合: MMIM模型能够有效地整合文本、图像和音频等多模态数据,充分利用不同模态之间的相关性,提升情感分析的准确性和全面性。

  • 自适应情感建模: 采用先进的自适应学习技术,MMIM模型能够根据具体任务和用户需求动态调整情感建模策略,提高模型的灵活性和适应性。

  • 跨领域适用性: MMIM模型具有较强的跨领域适用性,不仅适用于社交媒体分析和心理健康监测,还能扩展至教育、电商推荐和人机交互等多个应用领域。

  • 高效的情感表示学习: 通过深度学习技术,MMIM模型能够高效地学习和表示复杂的情感信息,实现对多模态数据的深度理解和情感分析。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255017.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MongoDB性能监控工具

mongostat mongostat是MongoDB自带的监控工具,其可以提供数据库节点或者整个集群当前的状态视图。该功能的设计非常类似于Linux系统中的vmstat命令,可以呈现出实时的状态变化。不同的是,mongostat所监视的对象是数据库进程。mongostat常用于…

Scratch教学作品 | 中国诗词大会——闯关擂台,品味诗词之美! ✨

🎓 Scratch教学作品 | 中国诗词大会——闯关擂台,品味诗词之美! 📜✨ 今天给大家推荐一款结合文化与挑战的Scratch作品——《中国诗词大会》!由zhouyq制作,这款游戏让你置身诗词的世界,通过闯关…

安全关系型数据库查询新选择:Rust 语言的 rust-query 库深度解析

在当今这个数据驱动的时代,数据库作为信息存储和检索的核心组件,其重要性不言而喻。然而,对于开发者而言,如何在保证数据安全的前提下,高效地进行数据库操作却是一项挑战。传统的 SQL 查询虽然强大,但存在诸…

微信小程序里的小游戏研发需要什么技术栈

研发小程序里的小游戏通常需要以下技术栈: 前端技术 HTML5 / CSS3:用于构建游戏的界面布局和样式。JavaScript:作为核心编程语言,实现游戏的逻辑和交互。小程序开发框架:如微信小程序的开发框架,了解其 API…

Install PyTorch (安装 PyTorch)

Install PyTorch {安装 PyTorch} 1. Install PyTorch1.1. Previous PyTorch Versions1.2. Latest PyTorch1.3. 查看 PyTorch 的版本 References 1. Install PyTorch https://pytorch.org/ Select your preferences and run the install command. Stable represents the most …

第二篇:k8s工作流程

我们来看通过deployment部署pod的常规流程: kubectl向apiserver发送部署请求(例如使用 kubectl create -f deployment.yml)apiserver将 Deployment 持久化到etcd;etcd与apiserver进行一次http通信。controller manager通过watch a…

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

第五节、电机多段运动【51单片机-TB6600驱动器-步进电机教程】

摘要:本节介绍用控制步进电机三个主要参数角度、速度、方向,实现简单的步进电机多段控制 一、目标功能 输入多个目标角度,设定好步进电机速度,实现步进电机多段转动 二、计算过程 2.1 速度计算 根据第三节内容,定时器…

C++(九)

前言: 本文主要讲述运算符的优先顺序。 一,运算符的优先级。 请看以下表达式: a32*5 运算结果为:13. 可以看到,在此代码中,先运行了2*5的结果,在此基础上在进行3操作,因此结果…

志愿服务管理系统设计与实现

私信我获取源码和万字论文,制作不易,感谢点赞支持。 摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此&#xff0…

dbeaver安装

数据库常用的管理工具就是navicat,页面简洁大方,且易上手,唯一不好的就是要收费,个人使用的话可以用dbeaver,一款开源的数据库管理工具。 下载地址:https://dbeaver.io/download/ 直接下载这个windows(inst…

Odoo :一款免费且开源的食品生鲜领域ERP管理系统

文 / 贝思纳斯 Odoo金牌合作伙伴 引言 提供业财人资税的精益化管理,实现研产供销的融通、食品安全的追踪与溯源,达成渠道的扁平化以及直面消费者的 D2C 等数字化解决方案,以此提升运营效率与核心竞争力,支撑高质量的变速扩张。…

【AIGC半月报】AIGC大模型启元:2024.12(上)

【AIGC半月报】AIGC大模型启元:2024.12(上) (1)OpenAI-12日发布会(持续更新中........)Day01-12.06:o1满血版上线(已发布)Day02-12.07:强化微调&a…

Mysql学习-Mysql查询(1)

1.基本查询&#xff08;SELECT&#xff09; SELECT语句基本格式&#xff1a; SELECT {*|<字段列表>} [ FROM<表1>&#xff0c;<表2>.. [WHERE <表达式> [GROUP BY<group by definition>] [HAVING <expression>[{<operator><exp…

OpenCV-平滑图像

二维卷积(图像滤波) 与一维信号一样&#xff0c;图像也可以通过各种低通滤波器&#xff08;LPF&#xff09;、高通滤波器&#xff08;HPF&#xff09;等进行过滤。LPF 有助于消除噪音、模糊图像等。HPF 滤波器有助于在图像中找到边缘。 opencv 提供了函数 **cv.filter2D()**&…

WPS解决Word文件引入excel对象文件无法打开提示“不能启动此对象...”的问题

一、问题现象 接收到了一份 Word文件&#xff0c;里面引入了一个Excel对象文件&#xff0c;双击时候&#xff0c;wps出现卡顿&#xff0c;过一会之后弹出错误提示&#xff1a;不能启动此对象... 二、解决方法 1.点击WPS左上角图标&#xff0c;并打开右上角设置&#xff0c;萱蕚…

做异端中的异端 -- Emacs裸奔之路6: 不可能存在的跳转功能

当一个问题存在两难时&#xff0c;市面上就不太可能出现稳定的&#xff0c;大众化的解决方案。 这很多是一个哲学问题 两害权衡&#xff0c; 存在很强的个性差异. 这种问题需要自己解决&#xff0c; 这个就是为什么要使用Emacs或者Vim的原因。 今天分享的一个想法&#xff0…

【Linux】ubuntu下一键配置vim

&#x1f525;个人主页&#x1f525;&#xff1a;孤寂大仙V &#x1f308;收录专栏&#x1f308;&#xff1a;Linux &#x1f339;往期回顾&#x1f339;&#xff1a;Linux权限&#xff08;超详细彻底搞懂Linux的权限&#xff09; &#x1f516;流水不争&#xff0c;争的是滔滔…

华为的USG6000为什么不能ping通

前言&#xff1a; 防火墙usg6000v的镜像 链接: https://pan.baidu.com/s/1uLRk0-hnHRTLYLx1Pnplow?pwdtymp 提取码: tymp 看了好多毒文章&#xff0c;感觉写作业更有意思&#xff0c;可以了解新的知识 内容&#xff1a; 首先看毒文章是这样说的&#xff0c;华为的防火墙是…

【Linux】实战小项目-----Bash的简易版

目录 一、什么是Bash 二、实现Bash&#xff1a; 1、整体需求分析&#xff1a; 2、初始化&#xff1a; 3、分割字符串&#xff1a; 4、执行普通命令&#xff1a; 5、内建命令与特殊处理&#xff1a; 1、ls的颜色&#xff1a; 2、内建命令cd&#xff1a; 3、export&#…