EmoBench:评估大模型的情感智能

news2024/12/24 4:00:16

人工智能咨询培训老师叶梓 转载标明出处

情感智能是识别、理解和管理自己和他人的情感的能力,对于塑造人际关系、改善决策和影响整体福祉至关重要。尽管情感智能系统被认为具有相似的好处,但现有研究主要集中于情绪识别,忽视了情绪调节和通过情绪理解促进思考等关键EI能力。现有基准测试多基于现有数据集构建,这些数据集包含频繁模式、显式信息和注释错误,导致评估不可靠。针对这些问题,清华大学、密西根大学和香港大学的研究团队提出了EmoBench,这是一个基于成熟心理学理论的全面EI基准测试,包含情感理解和情感应用的400个精心设计的问题,旨在通过更全面和具有挑战性的基准测试,推动LLMs在理解、推理和导航个体心理状态方面的能力。

之前方法在情感标签和原因识别方面的不足以及提出的解决方案

EMOBENCH

EmoBench的设计超越了传统设计,通过创建情感复杂的情景,要求模型不仅识别情绪和原因,还要在情感困境中找到最有效的解决方案。例如,与传统数据集通常包含的“失去”与“悲伤”的常见模式不同,EmoBench通过增加对象的感知价值,要求模型从上下文中推断个体的情绪状态,从而识别相应的情绪和推断其原因。

基准测试(EMOBENCH)的概览

图2展示了EmoBench基准测试的总体框架和设计理念。该图概述的主要内容为:

  1. 情感理解(Emotional Understanding, EU):这是EmoBench的两个核心维度之一,重点评估LLMs对情感的识别和理解能力。它包括识别个体在特定情境中的情绪,以及理解引发这些情绪的原因。

  2. 情感应用(Emotional Application, EA):这是EmoBench的另一个核心维度,评估LLMs如何将对情感的理解应用于实际情境中,以促进思考和情绪管理。这涉及到在情感困境中选择最有效的行动或回应。

  3. 多面评估:EmoBench通过多方面的评估来测试LLMs的情感智能,不仅包括传统的情绪识别和原因识别,还扩展到更复杂的情感理解任务,如理解复杂情感、情感线索、个人信念和经历,以及换位思考。

  4. 情感复杂性:EmoBench设计了情感复杂性高的场景,这些场景涉及多种情感状态和情绪变化,要求LLMs能够理解情感的多样性和复杂性。

  5. 情感困境:EmoBench包含了需要LLMs在情感困境中做出决策的场景。这些场景模拟了现实生活中可能遇到的复杂情感问题,测试LLMs是否能够识别出最有效的解决方案。

  6. 多标签注释:每个设计的场景都经过精心的多标签注释,确保了评估的全面性和准确性。这些注释不仅包括情绪标签,还包括情感原因和可能的解决方案。

  7. 心理学理论基础:EmoBench的设计基于多个心理学理论,如Salovey和Mayer的情感智能理论,确保了评估的科学性和理论基础。

  8. 数据公开:研究者计划公开EmoBench的代码和数据,以便其他研究者可以利用这一基准测试进行进一步的研究和开发。

情感理解(Emotional Understanding)着重于评估大模型(LLMs)在识别和理解情感方面的能力。情感智能不仅包括识别情绪,还涉及理解情绪背后的原因和情境。

为了深入评估LLMs的这一能力,研究者设计了一系列复杂的场景,这些场景要求模型不仅要识别出人物的情绪,还要推断出导致这些情绪的原因。这种方法超越了简单的模式识别,要求模型能够进行更深层次的推理和理解。

在数据收集和注释过程中,研究者采用了Plutchik情绪轮作为情绪分类的基础,这是一种广泛认可的情绪理论模型。他们将基本情绪按照不同的强度进行分类,并混合这些基本情绪来形成更复杂的情绪。例如,将愤怒和厌恶混合,可能会产生“憎恶”这种情绪。这种方法不仅使得情绪分类更加细致,也为未来的扩展和新情绪标签的添加提供了灵活性。

研究者们还特别关注了情感理解中的几个关键类别,包括复杂情感、情感线索、个人信念和经历,以及换位思考。这些类别涵盖了情感理解的多个方面,如情感的转变、混合情感、文化价值、情感价值、个人特质(如性格)等。通过这些类别,研究者能够全面评估LLMs在理解情感复杂性方面的能力。例如,在情感转变的情境中,一个人可能因为一开始的事件感到恼怒,但随后的情况变化可能会使他们感到高兴。研究者通过这样的情境,测试LLMs是否能够理解情感随情境变化的能力。在混合情感的情境中,一个人可能同时体验到快乐和失望,研究者通过这些情境评估LLMs是否能够识别并理解这种复杂情感状态。

研究者还设计了情感线索的情境,测试LLMs是否能够从文本中识别出情感的暗示,如面部表情或语气。换位思考的情境则要求LLMs从他人的角度理解情感,这涉及到理解他人的信念和知识状态。

EMOBENCH中主要类别的分布情况

研究者们进一步探讨了大模型(LLMs)如何将对情感的理解应用于实际情境中,以促进思考和情绪管理。这一部分的核心在于评估LLMs在面对情感复杂的问题时,是否能够识别出最有效的行动方案或回应。

研究者们设计了一系列基于不同人际关系和问题的场景,这些场景模拟了人们在日常生活中可能遇到的各种情感困境。例如,一个家庭成员在经济困难时请求经济援助,或者一个朋友在社交场合中不慎失言。在这些情境中,LLMs需要根据对个体情感状态的理解,提出最合适的解决方案或回应。

在数据收集和注释的过程中,研究者们首先根据生成的示例和分配的类别设计场景,并为每个困境创造出多种可能的解决方案。他们鼓励增加问题的难度,通过在场景中引入隐含的含义,并为所有选项增加合理性。例如,一个场景可能涉及朋友之间的误会,研究者们会设计不同的解决方案,如直接道歉、用幽默化解尴尬或选择沉默,每个选项都有其潜在的情感影响。

为了确保评估的准确性,研究者们采用了多轮注释和审查。首先,一个工作者会设计场景和解决方案,然后另一个工作者会对其进行修订和翻译。接着,其他工作者会根据他们对情感困境的理解,为每个多项选择题(MCQ)分配分数,以评估每个选项的有效性。这种方法不仅增加了评估的客观性,也确保了最终结果的可靠性。

研究者们还特别关注了情感应用任务中的几个关键维度,包括个人与社会关系、自我与他人问题,以及个人情感状态。这些维度帮助研究者全面评估LLMs在理解和应用情感知识方面的能力。例如,研究者们会评估LLMs是否能够识别出在特定情境下,采取何种行动能够最大程度地缓解个体的情感困扰,或者如何通过言语回应来促进人际关系的和谐。

通过这些精心设计的情境和问题,EmoBench不仅测试了LLMs在情感识别和理解方面的能力,它还评估了它们在将这些理解应用于实际问题解决中的能力。这些评估结果将有助于推动LLMs在情感智能领域的进一步发展,特别是在情感和心理健康支持等应用场景中。

实验

实验任务以多项选择题(MCQ)的形式进行。在情感理解任务中,首先要求模型识别出个体的情绪,然后选择相应的原因。而在情感应用任务中,模型需要从给定情境中选择最有效的响应或行动。评估模型时,研究者采用了两种设置:零样本提示(Base)和思维链推理(Chain-of-Thought reasoning, CoT)。他们为这些任务设计了提示(论文中附录B)。

在评估过程中,对于每个多项选择题,研究者们会对每个模型进行五次(5-shot)提示,并使用多数投票方法,即最频繁的选择,来确定模型的答案。然后他们利用一系列启发式规则来解析生成的输出。由于模型已显示出对选项排序的偏好,他们还会随机修改选项排序三次(得到4种排列),并对每种新的排列重复上述过程。最终,他们计算并报告四次运行的平均准确率。

研究者们采用了一系列最近广泛使用且在现有基准测试中表现出色的LLMs。这包括通过API可访问的闭源模型,如OpenAI的GPT-4和GPT-3.5,ChatGLM3(66B),以及Baichuan 2(53B)。对于开源模型,他们实验了不同大小的Llama 2、Baichuan 2、Qwen、ChatGLM 3和Yi。他们还包括了随机选择和多数选择作为基线。

对于基于Llama的模型,研究者使用了默认的生成超参数,例如top-p采样,p值为0.9,温度参数为0.6。对于其他模型,他们直接使用了预定义的接口,无论是通过在线API还是通过Transformers库中的CHAT功能。所有的实验都在单个A100 80GB GPU上运行。

研究者们展示了他们通过EmoBench基准测试获得的结果。如表1中不同模型在情感理解任务中的表现,包括复杂情感、个人信念和经历、换位思考和情感线索等类别。结果显示,GPT-4在所有类别中均表现最佳,特别是在英语任务中。其他模型如ChatGLM3-66B、Baichuan2-Chat-53B等也表现良好,但在某些类别中仍有提升空间。例如,较小的模型如Yi-Chat-6B和Llama2-Chat-7B在情感线索和换位思考方面的表现不如预期。

在EmoBench上评估的结果(准确率%)

要求模型逐步推理(Chain-of-Thought reasoning)并没有带来预期的改进,甚至对于较小的模型(特别是小于14B参数的模型)还可能降低其性能。这可能是因为较小的模型在进行复杂推理时更容易出错。另外任务的语言对模型表现的影响并不显著,所有模型(除了Yi和ChatGLM-6B)在英语任务中的表现略优于中文任务。这可能与模型训练时使用的数据分布有关。

在情感理解任务中,所有模型都发现理解复杂情感比应用情感更为困难。这可能是因为与情感应用任务相比,情感理解样本要求模型正确回答两个问题:情绪及其原因。这种设计使得情感理解任务更具挑战性。情感理解问题旨在描绘包含各种含义和常见模式结果的情境,而情感应用样本的设计则更容易一些,主要目标是评估模型在面对情感困境时的意识和管理能力。

人类参与者与LLMs在情感理解和情感应用任务中的对比结果

图5展示了人类参与者与LLMs在情感理解和情感应用任务中的对比结果。人类参与者在两项任务中的表现均优于LLMs,这为LLMs的情感智能发展提供了一个基准。研究者们还发现,模型在情感理解任务中的特定类别,如换位思考,表现尤为困难。这与相关任务(例如心理理论任务)中观察到的结果一致,这些任务需要模型具备心理化能力。

在情感应用任务中,每个模型在不同类型的关系和问题上表现不一。总体而言模型在解决自我社会问题方面表现更为困难。

情感应用的评估结果(准确率)

研究者为了获得人类情感智能的基准线,通过在线调查招募了注释者参与情感智能测试。他们总共招募了48名参与者,并将他们平均分配到每种语言-任务评估对中。对于每组,他们从EmoBench中随机抽取了30个未包含在初始筛选过程中的多项选择题。研究结果显示,人类参与者在情感理解和情感应用两项任务中的表现均优于大型语言模型。尽管GPT-4作为表现最佳的模型接近于平均人类的表现,尤其是在情感应用任务中,但它仍未能超越具有更高情感智能的个体。

不同大型语言模型(LLMs)在情感理解和情感应用任务上的表现,并将它们与人类的表现进行了比较

研究者提供了LLMs在EmoBench基准测试中表现的定性分析,并展示了一些常见错误的示例。在情感理解任务中,LLMs的错误主要归因于错误的假设、对常见模式的依赖以及推理能力的不足。例如,一些模型可能会错误地将某人走进门的行为直接与知道正在发生的事情联系起来,或者错误地将某些情绪与特定情境联系起来,而没有考虑到更复杂的情感状态。在情感应用任务中,LLMs的答案主要表现出对更普遍解决方案的偏好,忽略了个体之间的关系,这可能极大地影响他们引发的情绪和随后的反应。例如,面对朋友的简单戏弄,适当的回应可能是温和的幽默,而不是严肃的自我反省或道歉,这显示了更好的情绪调节和对情境的更深刻理解。

大模型(LLMs)的常见错误

研究结果揭示了最佳表现的LLM与平均人类情感智能之间的显著差距。未来,研究者希望EmoBench能够促进情感智能LLMs的研究,推动模型在理解人类情感和将这种理解应用于许多有前景的任务方面的能力,如情感和心理健康支持。 

论文链接:https://arxiv.org/abs/2402.12071

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1965385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

传知代码-上下位关系自动检测方法(论文复现)

代码以及视频讲解 本文所涉及所有资源均在传知代码平台可获取 概述 本文复现论文 Hearst patterns revisited: Automatic hypernym detection from large text corpora[1] 提出的文本中上位词检测方法。 在自然语言处理中,上下位关系(Is-a Relations…

单链表的应用(附代码)

链表 链表是⼀种物理存储结构上⾮连续、⾮顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。其实链表可以想象为小火车,链表比顺序表具有更好的灵活性,只需要通过指针的改变就可以实现增删查改。 这是逻辑思维下链表的样…

使用TensorRT对YOLOv8模型进行加速推理

这里使用GitHub上shouxieai的 infer框架 对YOLOv8模型进行加速推理,操作过程如下所示: 1.配置环境,依赖项,包括: (1).CUDA: 11.8 (2).cuDNN: 8.7.0 (3).TensorRT: 8.5.3.1 (4).ONNX: 1.16.0 (5).OpenCV: 4.10.0 2.clon…

redis:Linux安装redis,redis常用的数据类型及相关命令

1. 什么是NoSQL nosql[not only sql]不仅仅是sql。所有非关系型数据库的统称。除去关系型数据库之外的都是非关系数据库。 1.1为什么使用NoSQL ​ NoSQL数据库相较于传统关系型数据库具有灵活性、可扩展性和高性能等优势,适合处理非结构化和半结构化数据&#xff0c…

服务运营|摘要:INFORMS 近期收益管理(Revenue Management )相关文章

编者按: 本期涵盖了INFORMS与收益管理相关的文章及其基本信息。 Title: Online Learning for Constrained Assortment Optimization Under Markov Chain Choice Model 基于马尔可夫链选择模型的约束下选品优化的在线学习 Link: https://pubsonline.informs.org/do…

召唤生命,阻止轻生——《生命门外》

本书的目的,就是阻止自杀!拉回那些深陷在这样的思维当中正在挣扎犹豫的人,提醒他们珍爱生命,让更多的人,尤其是年轻人从执迷不悟的犹豫徘徊中幡然醒悟,回归正常的生活。 网络上抱孩子跳桥轻生的母亲&#…

Linux中gdb调试器的使用

Linux调试器:gdb gdb简介基本使用和常见的指令断点相关运行相关命令 gdb简介 我们都知道一个程序一般有两个版本分别是debug,和release版本,后者就是发布给用户的版本,而前者就是我们程序员用来调试用的版本。 他们有什么区别呢&…

Docker搭建Mysql主从复制,最新,最详细

Docker搭建Mysql主从复制,最新,最详细 这次搭建Mysql主从复制的时候,遇到不少问题,所以本次重新记录一下,使用Docker搭建一主三从的Mysql 一、Docker-Compose创建4个Mysql容器 1.1 创建对应的映射文件夹和对应的配置…

GitLab的安装步骤与代码拉取上传操作

一、GitLab的安装 详情见如下博客链接:gitlab安装 二、GitLab配置ssh key (1)打开Git Bash终端生成SSH和添加步骤 1、全局配置git用户名 git config --global user.name "xxx"注意:xxx为你自己gitlab的名字 2、全局…

JavaScript递归菜单栏

HTML就一个div大框架 <div class"treemenu"></div> 重中之重的JavaScript部分他来啦&#xff01; 注释也很清楚哟家人们&#xff01; let data; let arr []; let cons;let xhr new XMLHttpRequest(); // 设置请求方式和请求地址 xhr.open(get, ./js…

Linux上如何分析进程内存分配,优化进程内存占用大小

云计算场景下,服务器上内存宝贵,只有尽可能让服务器上服务进程占用更少的内存,方才可以提供更多的内存给虚拟机,卖给云客户。 虚拟化三大件:libvirt、qemu、kvm内存开销不小,可以优化占用更少的内存。如何找到进程内存开销的地方直观重要,以qemu为例说明。 一、查看进…

别让不专业的HR逼走你的人才!人力资源管理应该遵循哪些原则?

优秀的HR能够带领整个人力资源部门为企业招揽人才、培养人才和留住人才&#xff0c;促使人才为企业的业务增长提供支持。而不专业的HR&#xff0c;不仅无法做到这些&#xff0c;还会把企业原有的人才逼走&#xff0c;因为不合适的人力管理也是导致人才离职的原因。所以&#xf…

【C++】前缀和算法专题

目录 介绍 【模版】一维前缀和 算法思路&#xff1a; 代码实现 【模版】二维前缀和 算法思路 代码实现 寻找数组中心的下标 算法思路 代码实现 总结 除自身以外数组的乘积 算法思路 代码实现 和为K的子数组 算法思路 代码实现 和可被整除的K的子数组 算法思…

C++ 操作Git仓库

代码 #include "common.h" #include "args.c" #include "common.c"enum index_mode {INDEX_NONE,INDEX_ADD };struct index_options {int dry_run;int verbose;git_repository* repo;enum index_mode mode;int add_update; };/* Forward declar…

Python零基础详细入门教程

Python零基础详细入门教程可以从以下几个方面展开&#xff0c;帮助初学者系统地学习Python编程&#xff1a; 一、Python基础入门 1. Python简介 Python的由来与发展&#xff1a;Python是一种广泛使用的高级编程语言&#xff0c;以其简洁的语法和强大的功能而受到开发者的喜爱…

2024第二十届中国国际粮油产品及设备技术展示交易会

2024第二十届中国国际粮油产品及设备技术展示交易会 时间&#xff1a;2024年11月15-17日 地点&#xff1a; 南昌绿地国际博览中心 展会介绍&#xff1a; 随着国家逐年加大对农业的投入&#xff0c;调整农业产业结构&#xff0c;提高农产品附加值&#xff0c;促进农民增收。…

CRMEB-众邦科技 使用笔记

1.启动项目报错 Unable to load authentication plugin ‘caching_sha2_password’. 参考&#xff1a;http://t.csdnimg.cn/5EqaE 解决办法&#xff1a;升级mysql驱动 <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</ar…

超级弱口令检查工具

一、背景 弱口令问题主要源于用户和管理员的安全意识不足&#xff0c;以及为了方便记忆而采用简单易记的密码。这些密码往往仅包含简单的数字和字母&#xff0c;缺乏复杂性和多样性&#xff0c;因此极易被破解。弱口令的存在严重威胁到系统和用户的数据安全&#xff0c;使得攻击…

在局域网中的另一台主机如何访问windows10WSL中的服务

文章目录 1&#xff0c;开启win10 路由功能2&#xff0c;配置转发规则 1&#xff0c;开启win10 路由功能 2&#xff0c;配置转发规则 netsh advfirewall firewall add rule name"Allowing LAN connections" dirin actionallow protocolTCP localport80 netsh interf…

计算机体系结构:缓存一致性ESI

集中式缓存处理器结构&#xff08;SMP&#xff09; 不同核访问存储器时间相同。 分布式缓存处理器结构&#xff08;NUMA&#xff09; 共享存储器按模块分散在各处理器附近&#xff0c;处理器访问本地存储器和远程存储器的延迟不同&#xff0c;共享数据可进入处理器私有高速缓存…