Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理

news2024/12/23 5:40:31

1.摘要

多模态情感识别是人工智能领域的一个活跃的研究课题。它的主要目标是整合多种模态(如听觉、视觉和词汇线索)来识别人类的情绪状态。目前的工作通常假设基准数据集的准确情感标签,并专注于开发更有效的架构。但由于情感固有的主观性,现有数据集往往缺乏高标注一致性,导致潜在的不准确标签。因此,建立在这些数据集上的模型可能难以满足实际应用的需求。为了解决这个问题,提高情感标注的可靠性至关重要。在这篇论文中,我们提出了一个新的任务叫做“可解释的多模态情感推理(EMER)”。与以前主要集中于预测情绪的作品相比,EMER更进一步,为这些预测提供了解释。只要预测情绪背后的推理过程是可信的,预测就被认为是正确的。本文介绍了我们在EMER上的初步工作,其中我们引入了一个基准数据集,建立了基线模型,并定义了评估指标。同时,我们注意到整合多方面能力以应对EMER的必要性。因此,我们提出了影响计算中的第一个多模态大语言模型,称为AffectGPT。我们的目标是解决标签歧义的长期挑战,并为更可靠的技术指明道路。此外,EMER提供了一个机会来评估音频视频文本理解能力的最新多模态LLM。为了便于进一步的研究,我们将代码和数据发布在:https://github . com/zero qiaoba/affect GPT

  • 多模态情感识别目标:整合多种模态识别人类的情绪状态。
  • 论文提出了一个新的任务: 可解释的多模态推理EMER
  1.                 可解释性在于:为预测结果提供了解释
  2.                 提出一个数据集,作为基准
  • 情感计算的第一个大模型AffectGPT
  • 目标:解决标签歧义的长期挑战,更可靠的技术发展

2.数据集

该文章提出的数据集是新颖的,其独特之处在于:

每个标注者从四个方面标注情感线索:

1)面部表情和肢体动作;

2)声调和语调;

3)演讲内容;

4)视频内容、环境和其他线索。

线索总结:对于每个样本,三个注释者从四个方面提供线索。为了总结所有线索,我们利用chat GPT并使用图1中的提示。但是,我们仍然在生成的结果中观察到一些重复的表达式。因此,我们手动检查并优化输出。

目的:使用gpt的智能性对线索进行总结。

一段视频的多段描述如下。请将这些描述总结如下:

1.请将“线索描述”的多个段落的主语统一为“他”

2 .请将“线索描述”的多个段落进行总结,删除重复的单词、短语或句子,并用完整的句子描述最终结果

3 .检查标点符号

情感总结:在这一步中,我们使用ChatGPT从汇总的线索中推断情绪状态,因为这一策略比MER2023中的原始标签提供了更微妙的情绪。然而,我们在输出中观察到一些不可靠的情绪。为了解决这个问题,我们使用few-shot

ChatGPT进行情感摘要。提示如图2所示。

请总结一下这个人的情绪状态:投入:

他看起来很开心,其实很焦虑。

输出:焦虑

线索和情感的结合:我们把情绪和线索组合成一个段落:在这些“线索”的辅助下,我们可以推断出人物的情绪状态为“情绪”。然后,我们人工评估这个推理过程的合理性,得到最终的描述

总结

     

可解释型多模态情感推理==(线索+情感——>预测情感)

什么是可解释性:

        我在这里的理解就是,我有一个很合理的证据去推断出当前的情感。这个证据就是线索和情感。线索是关键信息的提炼,情感是关键信息表征的情感内涵的提炼。这两个因素很大程度上能够指向一个合理的情感,且这个过程是人工可以评估的,那么我的情感预测就是可解释的。

3.任务解决思路

直接方法:使用多模态逻辑线性模型,因为这些模型能够处理各种多模态理解任务

由于情绪感知依赖于时间信息,我们只选择支持视频输入的多模态LLM,包括VideoChat [9]、Video-ChatGPT [13]、Video-LLaMA [10]、PandaGPT [11]和Valley [14]

多模态LLM背后的基本思想:将其他模态的预训练模型与文本LLM对齐。在对指令数据集进行微调后,这些模型表现出理解指令和多模态输入的非凡能力

例如,VideoChat和Video-LLaMA使用BLIP-2[15]中的Q-Former将可视查询映射到文本嵌入空间。

PandaGPT使用image bind[16]来学习六种模态之间的对齐。

Video-ChatGPT和Valley exploit CLIP[17]来获得文本对齐的视觉特征。

PandaGPT和Video-LLaMA还支持音频输入。

为了在视频中集成字幕信息,我们在提示中包含字幕作为附加内容。——即为需要提取线索信息的原料

相同的提示信息:

Prompt:The subtitle of this video is <Subtitle><Subtitle_Here></Subtitle>.Now answer my question based on what you have heard,seen,and given subtitles.From what clues can we infer the person’s emotional state?Please summarize the clues in a maximum of 100 words.

此视频的字幕为< Subtitle > < Subtitle _ Here > 。现在根据你所听到的、看到的和给的字幕回答我的问题。从哪些线索可以推断出这个人的情绪状态?请用不超过100字的篇幅总结这些线索

4.评价指标

评价指标主要分为自动评价和人工评价两部分。

自动评价

利用ChatGPT从三个方面评估预测结果:

1)情感相关线索之间的重叠程度;

2)概括的情绪状态之间的重叠程度;

3)推理过程的模态完备性。对于前两个指标,分数范围为0到10,分数越高表示重叠越多

对于这些指标,我们首先使用提示1总结情绪相关的线索(或情绪状态),然后使用提示2计算重叠部分(见图3和图4)。

所谓重叠度的计算即重复词的概率

##Prompt1:请提取与角色情绪状态相关的描述,然后进一步总结这些描述,

输入:{预测}

输出:##

Prompt2:“真实线索”和“预测线索”在下面给出。请计算“真实线索”和“预测线索”的重叠部分。重叠程度越高,返回的分数越高。分数范围从0-10。

真实线索:抬眉、笑脸

预测线索:抬眉

得分:5

真实线索:{ gt _ clue }

预测线索:{ pred _ clue }

得分:

图3:计算情绪相关线索重叠程度的提示。

##Prompt1:请总结此人的情绪状态:

输入:他看起来很开心,但实际上很焦虑。

输出:焦虑

输入:{预测}

输出:

# #Prompt2:下面给出“真实情绪”和“预测情绪”。请计算“真实情绪”和“预测情绪”的重叠程度。重叠程度越高,返回的分数越高。分数范围从0-10。

真实情绪:快乐

预测情绪:快乐

得分:10

真实情绪:{ gt _ emo }

预测情绪:{ pred _ emo }

得分:

图4:计算情绪状态重叠程度的提示

与此同时,能够从更多模态推断情绪的模型应该得到更高的分数。

因此,我们使用图5中的提示来评估推理过程的完整性

推理过程的完整性展示:

        从那种模态——什么内容——推断出什么情感

请总结输入内容涵盖了多少种模式。您可以从['音频','视觉','内容']:

输入:他看起来很开心,音乐让我开心。

输出:视觉,音频

输入:他看起来很开心,音乐让我开心。同时,他对研究人员表示感谢。

输出:视觉、听觉、内容

输入:{预测}

输出:

图5:评估模态完整性的提示。

人工评估

对预测结果进行人工评估。

对于每个视频,我们雇佣五个注释者来判断推理过程的合理性。注释者有

        “完全错误”、“正确(小部分)”、“正确(大部分)”和“完全正确”四种选择。

        我们将这些选择映射到从1到4的分数范围内,分数越高表明推理能力越强

总结评价:当前的一些评价指标基本都是基于自动指标+人工指标的标准,人工指标多结合认为特别设计,而自动指标常常为该领域的常用指标。

5.AffectGPT

使用初始EMER数据集来训练音频-视频-文本对齐的多模态LLM,称为AffectGPT。

模型:主要框架来自Video-LLaMA,并做了一些修改

修改:

        (1)视频-LLaMA分别训练音频和视频分支。我们修改它以支持音频-视频-文本对齐训练

        (2)在Video-LLaMA中,不同指令数据集的输入输出格式不一致。因此,我们统一了输入和输出格式。

        代码:https://github . com/zero qiaoba/affect GPT。

数据集处理:一些初步的实验来测试不同样本选择策略的影响

1.训练测试随机划分:80个:20个

2.训练集+Video-LLaMA三个指令数据集结合【训练集扩充】

3.指令微调——模型:gt-eng-remove-test【微调】

4.去除短样本(小于2s)——模型:gt-eng-remove-test remove-short【清洗】

5.训练期间合并训练集和测试集——gt-eng【所有数据训练,测试上限性能】

重叠性与性能展示:

总结:

        EMER数据集指令微调能够给情感推理带来性能改善——原因很明显,因为EMER数据集是一个情感相关的数据集。

        gt-eng训练完美——原因测试数据集参与训练了,为了测试模型性能上限。

总结:

        很少有模型从听觉推断情感,当前LLM多模态更关注视觉通道——看数据集也能看出来听觉信息不多叭

        提高多通道理解能力,考虑更多音频指令数据集——模态平衡的操作叭

总结

        gt-eng-remove-test: 没有去除短视频

        gt-eng-remove test-remove-short : 去除短视频

         去除短视频模态完整性更好——短视频情感相关描述更少,取出后,倾向于更长的描述,覆盖更多的模态。

6.实验结果和讨论

评估不同基线在整个EMER数据集上的性能

视频聊天的两个版本:

        文本视频聊天:使用视觉模型将视觉数据转换为文本格式

         嵌入式视频聊天:将视觉信息与文本嵌入空间对齐的端到端模型

自动评估:

1.实际和预测差异显著:现有多模态LLM在情感推理中的局限性

2.指标趋势具有相似性:        

        在所有基准中,VideoChat-Text通常表现最差,而Valley通常表现最佳。值得注意的是,音频基准(如PandaGPT和Video-LLaMA)并没有表现出优异的性能。

人工评估:

人工评价的设计:

        尽在20个测试样本进行人工评估

        为消除人为误差影响:将ground truth和预测放在一起,打乱评分

        结果见表2

总结

        chatGPT和人工评估有一定的相似性: VideoChat-Text 一贯表现最差,而Valley一贯实现最佳表现

        指标间存在差异:chatGPT作为参考,主要结论来自人的评价

        评估多模态集成效果:       

                基于chatGPT和人工的相似性,根据线索重叠和情感重叠从基线中选择最佳预测——标记为基线(线索)、基线(情感)

                这种策略可以提高情感推理性能,验证了多模型集成的优势

总结AffectGPT的性能-表二

        AffectGPT在情感推理中得分最高——>AffectGPT(线索)”和“AffectGPT(情感)这两个模型都最好

        最好——>在gt-eng-remove-test”和“‘gt-eng-remove-test-remove-short”两种训练集设置中,获取性能最好的模型(最佳预测)。分别被表示为“AffectGPT(线索)”和“AffectGPT(情感)”

        实验结果表明,AffectGPT在情感推理中的得分最高,充分验证了该策略的有效性

        

定性分析:

   随机选择样本进行可视化展示:

总结

        基线预测都是快乐,但实际标签是愤怒

        错误原因:不能理解声音线索(如颤抖的声音和激动的音调)和面部线索(如皱眉)。

        Video-LLaMA:错误识别出背景音乐的存在(当根本没有背景音乐时)

        Valley和Video-LLaMA的视频描述能力不错——他们成功地识别出一名穿着西装的男子在木窗前对着麦克风说话,尽管这些描述与他的情绪状态无关。

总结:

        所有基线只有PandaGPT和Video-ChatGPT准确地将人的情绪状态识别为烦躁。

        Video-ChatGPT:错误识别人物正在对着电话说话(当这个人没有拿着电话时)

        大多数基线正确地识别出这个人正在喝水,但这种观察与她的情绪状态无关。

        原因:即当前的多模态LLM主要是在图像字幕数据集或视频字幕数据集上训练的,这些数据集关注于服装、环境、动作等。,而不是以面部为中心的描述。此外,这些数据集通常忽略多模态信息,从而限制了在这些数据集上训练的多模态LLM的音频-视频-文本理解能力

7.总结

总结:

        提出EMER任务,去做情感多模态。与传统情绪识别不一样,不仅预测情绪状态,还提供了解释。旨在解决:标签歧义问题,提高识别可靠性

        为促进研究,构建了初始数据集,开发了基线,并定义评估指标:自动|人工

        实验结果证明这项任务有难度——现有技术达不到预期效果。使用AffectGPT整合多方面能力来解决当前问题。EMER成为评估多通道LLM音频-视频-文本理解能力的基础任务。

        

目标

        降低标注成本,增加数据集大小

        设计更有效的基线,改善任务效果

        鼓励更多人参与,推进情感计算实际应用

8.读后感

   1.作者提出要做可解释的多模态情感推理,为了解决标签歧义和提高可靠性。

    2.什么是作者说的可解释多模态情感推理呢? 不仅预测情绪状态还提供解释

    3.作者怎么实现即预测情绪又解释的?分两部分:

                第一步从现有ground truth中,通过GPT提取线索,然后人工微调重复的生成。然后通过重叠率进行评价。

                第二步根据线索,通过GPT提取情感。通过重叠率进行评价。

                可解释性==>提线索(重叠率)->提情感(重叠率)

                根据情感重叠率,约束情感的提取,且约束线索能够提取更好的情感。

                根据线索重叠率,约束线索总是提取出了关键信息。

                所以线索总是能支撑情感提取的,即提取的情感的可解释性来自线索,线索是情感预测的解释

        4.实验是怎么做的? 作者实验了很多现有的多模态LLM。

                整个流程中第一步和第二步使用两个LLM模型,他们可以是不一样的。

                最好的模型,挑选了提取线索最好的模型和提取情感最好的模型的组合,集模型集成的优势。

                两步提取都是通过大模型的微调+模板信息提示的模式进行提取的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1275853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对外汉语教师简历(精选12篇)

以对外汉语老师招聘需求为背景&#xff0c;我们制作了1份全面、专业且具有参考价值的简历案例&#xff0c;大家可以灵活借鉴&#xff0c;希望能帮助大家在众多候选人中脱颖而出。 对外汉语教师简历下载&#xff08;在线制作&#xff09;&#xff1a;百度幻主简历或huanzhucv.c…

六要素小型气象站-气象百科

随着科技的发展&#xff0c;人们对气象信息的掌握越来越及时、准确。而六要素小型气象站作为一款功能强大的气象监测设备&#xff0c;更是受到了广泛的关注。本文将介绍这款气象站的特点&#xff0c;以及如何通过它来监测天气&#xff0c;让你随时掌握气象变化。 一、六要素小型…

matlab 汽车单车模型固定点跟踪算法

1、内容简介 略 29-可以交流、咨询、答疑 2、内容说明 单车模型固定点跟踪算法 单车模型&#xff0c;固定点跟踪算法&#xff0c;动画演示&#xff0c; 汽车单车模型、转弯动画、固定点跟踪算法、pid控制 3、仿真分析 略 A[0,5;0,0];B[0;1]; Q10*eye(2);R1; Klqr(A…

20、LED点阵屏

LED点阵屏介绍 LED点阵屏由若干个独立的LED组成&#xff0c;LED以矩阵的形式排列&#xff0c;以灯珠亮灭来显示文字、图片、视频等。LED点阵屏广泛应用于各种公共场合&#xff0c;如汽车报站器、广告屏以及公告牌等 LED点阵屏分类 按颜色&#xff1a;单色、双色、全彩 按像素…

年终好价节入手什么数码合适?盘点23年度值得入手的数码好物

各位科技控和数码迷&#xff01;时间过得飞快&#xff0c;一眨眼2023年就要过去了&#xff0c;说到年底&#xff0c;当然少不了年终好价节啦&#xff01;这时候正是更新你的数码装备、升级生活品质的绝佳时机。别管你是不是科技控&#xff0c;工作狂还是生活追求者&#xff0c;…

软文营销助力品牌打开市场,提升内在竞争力

当今环境下&#xff0c;企业想要通过传统营销方式打开市场可以说是难度较大&#xff0c;用户如今更偏向于好的内容&#xff0c;而软文营销正是通过好内容吸引用户&#xff0c;助力品牌打开市场&#xff0c;提升内在竞争力&#xff0c;接下来媒介盒子就从以下几个方面和大家聊聊…

Mybatis如何执行批量操作

文章目录 Mybatis如何执行批量操作使用foreach标签 使用ExecutorType.BATCH如何获取生成的主键 Mybatis如何执行批量操作 使用foreach标签 foreach的主要用在构建in条件中&#xff0c;它可以在SQL语句中进行迭代一个集合。foreach标签的属性主要有item&#xff0c;index&…

深度学习环境配置(pytorch版本)----超级无敌详细版(有手就行)

公众号文章--深度学习环境配置(pytorch版本) 写在前面&#xff1a;如果这篇文章对大家有帮助的话&#xff0c;欢迎关注Franpper的公众号&#xff1a;Franpper的知识铺&#xff0c;回复“进群”&#xff0c;即可进入讨论群&#xff0c;有什么问题大家可以一起讨论呀&#xff01…

filebrat+elk+kafka实现远程收集日志

20.0.0.15 kafka1 20.0.0.30 kafka2 20.0.0.40 kafka3 20.0.0.10 logstashkibana 20.0.0.20 elasticsearch 20.0.0.60 elasticsearch 注意---一个input,output要有一个 filebeat.intput Nginx----kafka.conf httpd.conf 两边同时启动 时间同步

计算机基础知识62

模型层回顾&#xff1a;基本使用 # 模型层有orm框架&#xff1a;对象关系映射 数据库中&#xff1a;一个个表 &#xff1a;user表&#xff0c;book表&#xff0c;一条条的记录 程序中&#xff1a;一个个类&#xff0c;一个个对象 数据库中一张表---->程序中一个…

汽车行驶不同工况数据

1、内容简介 略 28-可以交流、咨询、答疑 2、内容说明 汽车行驶不同工况数据 汽车行驶不同工况数据 ECE、EUDC、FTP75、NEDC、自定义 3、仿真分析 4、参考论文 略 链接&#xff1a;https://pan.baidu.com/s/1AAJ_SlHseYpa5HAwMJlk1w 提取码&#xff1a;rvol

MS721仪表总线收发器可Pin to Pin兼容TSS721A

MS721 是为 M-Bus 标准&#xff08;EN1434-3&#xff09;的应用而开发的单片收发电路。MS721 接口电路可以适应从站与主站之间的电压差&#xff0c;总线的连接没有极性要求&#xff0c;电路由主站通过总线供电&#xff0c;这样对于从站电池就不会增加额外的负载&#xff0c;同时…

[山东大学操作系统课程设计]实验2

0.写在前面 其实昨天就把这篇写完了&#xff0c;可是遇到了一些突发事件&#xff0c;暂时还没想好自己的出路在哪&#xff0c;争取这两天把课程设计的实验全都写完吧。。。。。我知道大家现在都很难过&#xff0c;生活上&#xff0c;学业上&#xff0c;事业上。。。。但是还是…

全系降3万,一把干到底,极越「智取」特斯拉

作者|德新 编辑|王博 11月30日&#xff0c;极越01官宣全系降价3万。 这意味着21.99万起步的极越01 Max&#xff0c;成为这个市场上入门门槛最低的带有城市智能驾驶辅助功能的车型。 要知道这是一台比Model Y大了一圈&#xff0c;全系配置了高阶智驾硬件&#xff0c;全系配高…

【工具分享】| 阅读论文神器 使用技巧 AI润色 AI翻译

文章目录 1 使用技巧1.1 功能一 即时翻译1.2 功能二 文献跳转1.3 功能三 多设备阅读1.4 功能四 小组讨论笔记共享1.5 功能五 个人文献管理 2 其他功能 超级喜欢Readpaper这一款论文阅读软件&#xff0c;吹爆他哈哈 为什么&#xff1f; 当然是他可以解决我们传统阅读论文的种种…

影响CSGO饰品价格涨跌的因素有哪些?

首先&#xff0c;饰品的交易是从市场进行的&#xff0c;市场终究是市场&#xff0c;是自由买卖的&#xff0c;必然存在供求关系以及资本操作&#xff0c;饰品价格的涨幅都是有道理或是有规律可循的。 1、价格上涨&#xff0c;最主要的影响因素来自于皮肤租赁市场的出现&#x…

简述MyBatis、MyBatis-Plus、以及MyBatis-Plus的简单运用

什么是MyBatis MyBatis是一个开源的Java持久层框架&#xff0c;用于简化与关系型数据库的交互。它通过将SQL语句与Java代码进行分离&#xff0c;提供了一种优雅的方式来处理数据库操作。 MyBatis的核心思想是将SQL语句与Java方法进行映射&#xff0c;使得开发人员可以通过配置…

【STM32】EXTI外部中断

1 中断系统 1.1 中断简介 中断&#xff1a;在主程序运行过程中&#xff0c;出现了特定的中断触发条件&#xff08;中断源&#xff09;&#xff0c;使得CPU暂停当前正在运行的程序&#xff0c;转而去处理中断程序&#xff0c;处理完成后又返回原来被暂停的位置继续运行。 比如&a…

密码学实验三

第一题&#xff1a; 寻找满足特定条件的 e&#xff1b; 第一步&#xff1a; 第二步&#xff1a; 由式1.7知&#xff0c;给定e,p,q&#xff0c;就可计算出相应的RSA不动点的数目。因此设计算法步骤如下&#xff1a; 枚举找出所有与φ(n)互素的e。枚举所有满足条件的e&#xff…

c语言:模拟实现atoi函数

atoi函数的功能和用法&#xff1a; 主要功能&#xff1a;将字符串转换为整数。例如&#xff0c;将字符类型的“123”转换为整数123. #include <stdio.h> #include <stdlib.h>int main() {char str[] "123";int num atoi(str);printf("Converted …