EmoBench：评估大模型的情感智能

人工智能咨询培训老师叶梓转载标明出处

情感智能是识别、理解和管理自己和他人的情感的能力，对于塑造人际关系、改善决策和影响整体福祉至关重要。尽管情感智能系统被认为具有相似的好处，但现有研究主要集中于情绪识别，忽视了情绪调节和通过情绪理解促进思考等关键EI能力。现有基准测试多基于现有数据集构建，这些数据集包含频繁模式、显式信息和注释错误，导致评估不可靠。针对这些问题，清华大学、密西根大学和香港大学的研究团队提出了EmoBench，这是一个基于成熟心理学理论的全面EI基准测试，包含情感理解和情感应用的400个精心设计的问题，旨在通过更全面和具有挑战性的基准测试，推动LLMs在理解、推理和导航个体心理状态方面的能力。

EMOBENCH

EmoBench的设计超越了传统设计，通过创建情感复杂的情景，要求模型不仅识别情绪和原因，还要在情感困境中找到最有效的解决方案。例如，与传统数据集通常包含的“失去”与“悲伤”的常见模式不同，EmoBench通过增加对象的感知价值，要求模型从上下文中推断个体的情绪状态，从而识别相应的情绪和推断其原因。

图2展示了EmoBench基准测试的总体框架和设计理念。该图概述的主要内容为：

情感理解（Emotional Understanding, EU）：这是EmoBench的两个核心维度之一，重点评估LLMs对情感的识别和理解能力。它包括识别个体在特定情境中的情绪，以及理解引发这些情绪的原因。
情感应用（Emotional Application, EA）：这是EmoBench的另一个核心维度，评估LLMs如何将对情感的理解应用于实际情境中，以促进思考和情绪管理。这涉及到在情感困境中选择最有效的行动或回应。
多面评估：EmoBench通过多方面的评估来测试LLMs的情感智能，不仅包括传统的情绪识别和原因识别，还扩展到更复杂的情感理解任务，如理解复杂情感、情感线索、个人信念和经历，以及换位思考。
情感复杂性：EmoBench设计了情感复杂性高的场景，这些场景涉及多种情感状态和情绪变化，要求LLMs能够理解情感的多样性和复杂性。
情感困境：EmoBench包含了需要LLMs在情感困境中做出决策的场景。这些场景模拟了现实生活中可能遇到的复杂情感问题，测试LLMs是否能够识别出最有效的解决方案。
多标签注释：每个设计的场景都经过精心的多标签注释，确保了评估的全面性和准确性。这些注释不仅包括情绪标签，还包括情感原因和可能的解决方案。
心理学理论基础：EmoBench的设计基于多个心理学理论，如Salovey和Mayer的情感智能理论，确保了评估的科学性和理论基础。
数据公开：研究者计划公开EmoBench的代码和数据，以便其他研究者可以利用这一基准测试进行进一步的研究和开发。

情感理解（Emotional Understanding）着重于评估大模型（LLMs）在识别和理解情感方面的能力。情感智能不仅包括识别情绪，还涉及理解情绪背后的原因和情境。

为了深入评估LLMs的这一能力，研究者设计了一系列复杂的场景，这些场景要求模型不仅要识别出人物的情绪，还要推断出导致这些情绪的原因。这种方法超越了简单的模式识别，要求模型能够进行更深层次的推理和理解。

在数据收集和注释过程中，研究者采用了Plutchik情绪轮作为情绪分类的基础，这是一种广泛认可的情绪理论模型。他们将基本情绪按照不同的强度进行分类，并混合这些基本情绪来形成更复杂的情绪。例如，将愤怒和厌恶混合，可能会产生“憎恶”这种情绪。这种方法不仅使得情绪分类更加细致，也为未来的扩展和新情绪标签的添加提供了灵活性。

研究者们还特别关注了情感理解中的几个关键类别，包括复杂情感、情感线索、个人信念和经历，以及换位思考。这些类别涵盖了情感理解的多个方面，如情感的转变、混合情感、文化价值、情感价值、个人特质（如性格）等。通过这些类别，研究者能够全面评估LLMs在理解情感复杂性方面的能力。例如，在情感转变的情境中，一个人可能因为一开始的事件感到恼怒，但随后的情况变化可能会使他们感到高兴。研究者通过这样的情境，测试LLMs是否能够理解情感随情境变化的能力。在混合情感的情境中，一个人可能同时体验到快乐和失望，研究者通过这些情境评估LLMs是否能够识别并理解这种复杂情感状态。

研究者还设计了情感线索的情境，测试LLMs是否能够从文本中识别出情感的暗示，如面部表情或语气。换位思考的情境则要求LLMs从他人的角度理解情感，这涉及到理解他人的信念和知识状态。

研究者们进一步探讨了大模型（LLMs）如何将对情感的理解应用于实际情境中，以促进思考和情绪管理。这一部分的核心在于评估LLMs在面对情感复杂的问题时，是否能够识别出最有效的行动方案或回应。

研究者们设计了一系列基于不同人际关系和问题的场景，这些场景模拟了人们在日常生活中可能遇到的各种情感困境。例如，一个家庭成员在经济困难时请求经济援助，或者一个朋友在社交场合中不慎失言。在这些情境中，LLMs需要根据对个体情感状态的理解，提出最合适的解决方案或回应。

在数据收集和注释的过程中，研究者们首先根据生成的示例和分配的类别设计场景，并为每个困境创造出多种可能的解决方案。他们鼓励增加问题的难度，通过在场景中引入隐含的含义，并为所有选项增加合理性。例如，一个场景可能涉及朋友之间的误会，研究者们会设计不同的解决方案，如直接道歉、用幽默化解尴尬或选择沉默，每个选项都有其潜在的情感影响。

为了确保评估的准确性，研究者们采用了多轮注释和审查。首先，一个工作者会设计场景和解决方案，然后另一个工作者会对其进行修订和翻译。接着，其他工作者会根据他们对情感困境的理解，为每个多项选择题（MCQ）分配分数，以评估每个选项的有效性。这种方法不仅增加了评估的客观性，也确保了最终结果的可靠性。

研究者们还特别关注了情感应用任务中的几个关键维度，包括个人与社会关系、自我与他人问题，以及个人情感状态。这些维度帮助研究者全面评估LLMs在理解和应用情感知识方面的能力。例如，研究者们会评估LLMs是否能够识别出在特定情境下，采取何种行动能够最大程度地缓解个体的情感困扰，或者如何通过言语回应来促进人际关系的和谐。

通过这些精心设计的情境和问题，EmoBench不仅测试了LLMs在情感识别和理解方面的能力，它还评估了它们在将这些理解应用于实际问题解决中的能力。这些评估结果将有助于推动LLMs在情感智能领域的进一步发展，特别是在情感和心理健康支持等应用场景中。

实验

实验任务以多项选择题（MCQ）的形式进行。在情感理解任务中，首先要求模型识别出个体的情绪，然后选择相应的原因。而在情感应用任务中，模型需要从给定情境中选择最有效的响应或行动。评估模型时，研究者采用了两种设置：零样本提示（Base）和思维链推理（Chain-of-Thought reasoning, CoT）。他们为这些任务设计了提示（论文中附录B）。

在评估过程中，对于每个多项选择题，研究者们会对每个模型进行五次（5-shot）提示，并使用多数投票方法，即最频繁的选择，来确定模型的答案。然后他们利用一系列启发式规则来解析生成的输出。由于模型已显示出对选项排序的偏好，他们还会随机修改选项排序三次（得到4种排列），并对每种新的排列重复上述过程。最终，他们计算并报告四次运行的平均准确率。

研究者们采用了一系列最近广泛使用且在现有基准测试中表现出色的LLMs。这包括通过API可访问的闭源模型，如OpenAI的GPT-4和GPT-3.5，ChatGLM3（66B），以及Baichuan 2（53B）。对于开源模型，他们实验了不同大小的Llama 2、Baichuan 2、Qwen、ChatGLM 3和Yi。他们还包括了随机选择和多数选择作为基线。

对于基于Llama的模型，研究者使用了默认的生成超参数，例如top-p采样，p值为0.9，温度参数为0.6。对于其他模型，他们直接使用了预定义的接口，无论是通过在线API还是通过Transformers库中的CHAT功能。所有的实验都在单个A100 80GB GPU上运行。

研究者们展示了他们通过EmoBench基准测试获得的结果。如表1中不同模型在情感理解任务中的表现，包括复杂情感、个人信念和经历、换位思考和情感线索等类别。结果显示，GPT-4在所有类别中均表现最佳，特别是在英语任务中。其他模型如ChatGLM3-66B、Baichuan2-Chat-53B等也表现良好，但在某些类别中仍有提升空间。例如，较小的模型如Yi-Chat-6B和Llama2-Chat-7B在情感线索和换位思考方面的表现不如预期。

要求模型逐步推理（Chain-of-Thought reasoning）并没有带来预期的改进，甚至对于较小的模型（特别是小于14B参数的模型）还可能降低其性能。这可能是因为较小的模型在进行复杂推理时更容易出错。另外任务的语言对模型表现的影响并不显著，所有模型（除了Yi和ChatGLM-6B）在英语任务中的表现略优于中文任务。这可能与模型训练时使用的数据分布有关。

在情感理解任务中，所有模型都发现理解复杂情感比应用情感更为困难。这可能是因为与情感应用任务相比，情感理解样本要求模型正确回答两个问题：情绪及其原因。这种设计使得情感理解任务更具挑战性。情感理解问题旨在描绘包含各种含义和常见模式结果的情境，而情感应用样本的设计则更容易一些，主要目标是评估模型在面对情感困境时的意识和管理能力。

图5展示了人类参与者与LLMs在情感理解和情感应用任务中的对比结果。人类参与者在两项任务中的表现均优于LLMs，这为LLMs的情感智能发展提供了一个基准。研究者们还发现，模型在情感理解任务中的特定类别，如换位思考，表现尤为困难。这与相关任务（例如心理理论任务）中观察到的结果一致，这些任务需要模型具备心理化能力。

在情感应用任务中，每个模型在不同类型的关系和问题上表现不一。总体而言模型在解决自我社会问题方面表现更为困难。

研究者为了获得人类情感智能的基准线，通过在线调查招募了注释者参与情感智能测试。他们总共招募了48名参与者，并将他们平均分配到每种语言-任务评估对中。对于每组，他们从EmoBench中随机抽取了30个未包含在初始筛选过程中的多项选择题。研究结果显示，人类参与者在情感理解和情感应用两项任务中的表现均优于大型语言模型。尽管GPT-4作为表现最佳的模型接近于平均人类的表现，尤其是在情感应用任务中，但它仍未能超越具有更高情感智能的个体。

不同大型语言模型（LLMs）在情感理解和情感应用任务上的表现，并将它们与人类的表现进行了比较

研究者提供了LLMs在EmoBench基准测试中表现的定性分析，并展示了一些常见错误的示例。在情感理解任务中，LLMs的错误主要归因于错误的假设、对常见模式的依赖以及推理能力的不足。例如，一些模型可能会错误地将某人走进门的行为直接与知道正在发生的事情联系起来，或者错误地将某些情绪与特定情境联系起来，而没有考虑到更复杂的情感状态。在情感应用任务中，LLMs的答案主要表现出对更普遍解决方案的偏好，忽略了个体之间的关系，这可能极大地影响他们引发的情绪和随后的反应。例如，面对朋友的简单戏弄，适当的回应可能是温和的幽默，而不是严肃的自我反省或道歉，这显示了更好的情绪调节和对情境的更深刻理解。