探索大模型的“心理理论”能力:TMBENCH基准测试

news2024/12/28 3:48:58

人工智能咨询培训老师叶梓 转载标明出处

心理理论是理解他人信念、意图、情感等心理状态的能力,对人类社会交往至关重要。近期研究引发了关于LLMs是否展现出ToM的辩论。然而,现有的评估方法受限于范围狭窄、主观判断和潜在的数据污染等问题,无法提供充分的评估。为了填补这一空白,清华大学的研究团队及其合作者们提出了TMBENCH,这是一个包含8个任务和31种能力的系统化评估框架,采用多项选择问题格式,支持自动化和无偏见的评估,并构建了全新的双语库存,严格避免数据泄露。

TMBENCH框架

TMBENCH的三个关键特性:系统化评估框架、多项选择问题格式以及从头构建的双语库存。这个框架包括8个任务和31种社交认知能力,并且有2,860个测试样本,涵盖了多样化的真实世界社交场景
TMBENCH的三大特点
  • 系统化评估框架: TMBENCH基于广泛的心理学文献,定义了8个评估ToM能力的社会认知任务,并基于ATOMS(Abilities in the Theory-of-Mind Space)框架,扩展到31种核心ToM能力。
  • 多项选择问题格式: 每个测试样本都是一个故事,后面跟着一个问题和几个可能的选项,其中只有一个正确答案,其他都是高质量的误导性错误答案。
  • 从头开始构建的库存: 为了避免潜在的数据污染,研究者从头开始创建了2860个原始测试样本,并实施了严格的注释和验证程序。
8个心理理论任务

TMBENCH框架的核心是对大型语言模型(LLMs)在心理理论(ToM)方面的能力进行评估。为此,研究者首先从心理学文献中识别出8个广泛用于评估ToM能力的社交认知任务。这些任务包括:

  • Unexpected Outcome Test(意外结果测试):评估参与者推断角色在情绪激发情境与实际激发情绪之间明显差异时的心理状态。
  • Scalar Implicature Task(量词含义任务):涉及不完全信息情况下,说话者使用术语如“一些”来暗示“不是全部”。
  • Persuasion Story Task(说服故事任务):评估参与者理解和选择有效说服策略的能力,反映他们如何影响他人的心理状态和态度。
  • False Belief Task(错误信念任务):检验参与者是否能够区分自己的信念(真实信念)和他人的信念(错误信念)。
  • Ambiguous Story Task(模糊故事任务):提供不明确的社交小插曲,随后的问题评估参与者对他人在不确定情境下的心理状态的理解。
  • Hinting Test(暗示测试):评估参与者从社交互动中的间接暗示推断心理状态的能力。
  • Strange Story Task(奇异故事任务):要求参与者推断包含复杂社交交流的故事中的角色的心理状态。
  • Faux-pas Recognition Test(失礼行为识别测试):测试参与者识别社交故事中角色失礼行为的能力。

这些任务是根据原始心理学文献中的定义、描述和例子构建的测试样本。

8个任务与31个ATOMS(Abilities in the Theory-of-Mind Space)能力之间的映射关系。每个能力后缀表示其在特定任务中的出现,而带有“#”的是未被任务覆盖的能力,将通过额外的测试样本进行评估
31个心理理论能力

TMBENCH框架进一步利用心理学专业知识,认识到任务是手段,而能力是核心。因此研究者参考了一个定义良好的心理学框架“Abilities in the Theory-of-Mind Space (ATOMS)”,它概述了7个不同的能力维度:情感、欲望、意图、感知、知识、信念和非字面沟通,涵盖了39种特定的ToM能力。

在TMBENCH中,由于视觉线索的需要,移除了感知维度和一些混合能力,保留了6个维度和31种能力。这8个任务只涵盖了ATOMS中的19/31能力,因此,为了覆盖剩余的12种能力,研究者参考原始文献补充了额外的能力特定测试样本,从而将TMBENCH的评估范围扩展到完整的31种能力。

这些能力维度包括:

  1. 情感(Emotion):涉及理解情境因素如何影响人的情绪状态,人们可以体验复杂情绪,以及人们可以调节情绪表达的能力。
  2. 欲望(Desire):涉及理解人的主观欲望、偏好和想要影响他们的情绪和行为的能力。
  3. 意图(Intention):涉及理解人们为了追求目标和意图而采取行动的能力。
  4. 知识(Knowledge):涉及理解他人基于他们的感知、接收到的信息或对事物的熟悉程度拥有不同知识的能力。
  5. 信念(Belief):涉及理解人们可以持有与现实不同或与自己信念不同的信念的能力。
  6. 非字面沟通(Non-literal Communication):涉及理解沟通可以传达超出字面所说意义的能力。

TMBENCH框架通过这些任务和能力,为评估LLMs的ToM能力提供了一个全面和系统化的平台,有助于推动LLMs在社会智能领域的进一步发展。

TMBENCH构建

TMBENCH的构建遵循了从零开始的原则。为了避免数据污染和测试样本数量有限的风险,研究者没有使用心理学文献中现有的任何库存。所有参与构建的工作者都经过了心理学专家的培训,对ToM有了深入的理解,并且严格遵循了任务和能力的具体定义、描述和例子。

研究者首先为8个任务制作样本,每个任务至少由一个工作者负责,总共覆盖19种能力。由于任务和能力的自然难度,确保每个任务至少有100个样本,每个任务内的能力至少有20个样本。这一步骤产生了2470个样本。随后,为之前未覆盖的剩余12种能力添加额外的样本,每种能力至少20个样本,使得样本总数达到2860个。

在表1中,展示了TMBENCH的数据统计信息。表18提供了TMBENCH评估框架中31种心理理论能力的详细统计数据。

TMBENCH的数据统计信息,包括故事数量、问题数量、英文和中文的平均故事长度(ASL),以及最终的一致性同意率
31种能力的详细统计数据

如图3所示,TMBENCH包含了多样化的日常主题,如学校、工作场所、家庭、社区等。这些现实生活社交场景对于有效的ToM评估至关重要。

TMBENCH中社交场景的话题分布,包括9个主要话题和每个话题下的5个子话题。这些真实生活社交场景对于有效的ToM评估至关重要

TMBENCH构建为多项选择题形式,以避免手动评分的高成本,并确保评估的公正性和一致性。每个样本定义为一个故事、一个问题和几个选项的组合。

故事:描述来自日常生活的情境,包括角色的行动和互动,为评估设置上下文。故事的灵感主要来自Reddit、Twitter、知乎和微博等社交平台上的帖子。

问题:要求受试者理解故事的特定方面,严格遵循ToM任务和能力的心理定义。每个问题都被设计为人类可以回答的。一个故事可以对应多个问题,每个问题探索社交情境的不同方面,以评估全面的理解。

选项:包括一个正确答案和几个误导性的错误答案。错误选项被设计为看似合理,避免了容易被排除的离群值。选项通常有两种类型:对于是非问题,如“PersonA说的是真的吗?”选项仅为是/否。对于解释性问题,如“PersonB为什么这么说?”则提供四个选项。

在数据收集后,进行两轮验证以确保数据质量。第一轮中,工作者A首先完成工作者B创建的所有样本。对于故事、问题和选项存在分歧的地方,工作者A和B会讨论并修改它们,尽可能达成共识。第二轮中,对于仍未达成共识的样本,另一名工作者C将与A和B讨论,以确定最终答案。两轮讨论后,最终平均一致性达到了99.4%。

最初以中文制作的库存。然后,研究者仔细使用GPT-4-0613将其翻译成英文,并手动检查所有翻译样本,以支持双语ToM评估。注意,在翻译中没有提供正确答案,因此没有数据泄露。翻译提示可以在附录E中找到。

在TMBENCH中,测试样本从两个角度组织:任务视图将它们分为8个理论心智任务,能力视图将它们归类为31种特定的理论心智能力。前者更通用,通常用于心理学研究;后者更全面,允许检查每种特定能力的表现。相应地,通过平均与特定任务或能力相关的样本来报告任务导向和能力导向的结果。对于评估,向LLMs展示一个故事、一个问题和几个选项,然后要求它们选择正确答案。

这个构建过程确保了TMBENCH的评估既全面又具有深度,能够从多个角度考察LLMs的ToM能力,并通过严格的验证和翻译流程保证了评估的质量和公正性。

实验

实验设置

实验评估了共10种流行的大型语言模型(LLMs),包括GPT-4的不同版本以及其他几种模型,例如ChatGLM3-6B、LLaMA2-13B-Chat、Baichuan2-13B-Chat等。对于GPT*和其他开放的LLMs,研究者通过官方API和模型权重严格遵循其条款进行访问。

实验采用了两种提示方法:直接询问LLMs进行选择的“vanilla prompting”(普通提示),以及通过逐步推理来引导答案的“CoT prompting”(链式推理提示)。

为了避免选项ID带来的偏差,对于所有模型(GPT-4-*除外),研究者将选项顺序随机打乱五次,并选择最常被选择的选项作为最终答案。对于e GPT-4-*模型,由于初步实验显示不同选项顺序下的答案非常一致,因此只使用一轮回答的结果。准确性被用作评估指标。

为了建立人类基线,研究者招募了20名母语为中文的研究生完成中文TMBENCH。没有提供额外的教程或示例以确保公平比较。

主要结果

人类与LLMs的比较:所有LLMs的平均ToM表现显著低于人类,最小的差距在任务视图中为10.1%(人类85.4%对GPT-4-1106 75.3%),在能力视图中为10.8%(人类86.1%对GPT-4-0613 + CoT 75.3%)。有趣的是,在错误信念任务(FBT)中,像GPT-4-1106这样的LLMs甚至超过了人类,这被认为是可以解释的。现有的ToM库存中有相对丰富的FBT样本,例如Sally-Anne测试和Smarties测试。另外FBT中使用的故事严格遵守模板,这进一步有利于LLMs在现有样本上训练后的泛化。

任务导向的ToM性能,列出了人类与不同LLMs在8个任务上的表现对比

任务和能力的表现差异:在表2中,展示了LLMs在8个任务(UOT、SIT、PST、FBT、AST、HT、SST、FRT)上的表现,并在表3中展示了6个能力类别的表现。表3可以看到,表现最好的能力维度是非字面沟通(与FRT重叠)和情感,这与任务导向的结果一致。表现最弱的类别是知识(与SIT重叠),这并不指LLMs自身的知识,而是测试它们是否理解故事中角色之间的信息传播,这通常是LLMs的弱项。

基于能力的ToM性能宏观平均值
深入分析

更难的连贯性测试:在评估任务导向的ToM表现时,研究者使用所有相关问题的简单平均准确率。然而,对于一个故事,如果参与者要展示完整的理解,他们需要正确回答所有相关问题,而不仅仅是做出有根据的猜测。因此研究者进一步设计了一个更具挑战性的故事级连贯性测试,如果LLM在与该故事相关的任何问题上回答错误,则被认为测试失败。

在连贯性测试下所有LLMs的性能变化。在这个测试中,如果LLM在与某个故事相关的任何问题上回答错误,则认为它未能理解该故事

LLMs在简单ToM问题上的失败:研究者深入探讨了LLMs表现特别差的一个能力——知识/知识-假装链接。这个任务直观而直接,对人类来说(准确率达到93.3%)很简单,但对LLMs来说却很困难。GPT-4-1106和GPT-4-0613在英文样本上的准确率分别只有26.7%和3.3%,这几乎等同于甚至比随机猜测还要差。为了理解这种糟糕表现背后的原因,研究者在图5中可视化了一个开放的LLM,ChatGLM3-6B的决策过程,当它生成了错误的选项A时,研究者平均了20层注意力头的注意力分数,并确定了ChatGLM3-6B在回答问题时关注的前10个关键词。显然,LLMs仍然依赖于语义关联来回答问题,这与之前关于LLMs虚幻ToM的研究一致。

人类与LLM(以ChatGLM3-6B为例)在处理ToM问题时的注意力差异。图中通过颜色强度表示注意力权重,揭示了LLMs依赖于语义关联来回答问题,而不是像人类那样的认知过程

通过这些实验,研究者能够更全面地评估和理解LLMs在社会认知任务中的能力,并为未来的研究提供了有价值的见解和数据。尽管TMBENCH在评估LLMs的ToM能力方面迈出了重要一步,但仍存在一些局限性,如评估协议的广泛性、库存规模、语言覆盖范围以及LLMs的ToM理解和应用差异。未来的研究可以扩大ToM评估的范围,包括更多的任务和能力,以及探索更复杂的人机交互场景。

论文链接:https://arxiv.org/abs/2402.15052

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962945.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

万能DIY预约小程序源码系统 自由DIY 适合任何行业的在线预约小程序 带源代码包以及搭建部署教程

系统概述 随着移动互联网的发展,小程序作为一种轻量级应用,因其便捷性和易用性而受到广大用户的喜爱。各行各业都在积极探索如何利用小程序提升服务体验。小编给大家分享一款万能DIY预约小程序的源码系统,该系统支持自由定制,适用…

S3GCL Spectral, Swift, Spatial Graph Contrastive Learning

发表于:PMLR24 推荐指数: #paper/⭐⭐⭐ 总结做了什么: 利用gcn对比学习训练mlp来提取特征嵌入,使得训练完毕使用的时候,可以更快的得到嵌入(类似于师生蒸馏的加速).其中,结合了异配图的chebnet2,以及高通低通过滤,和非对称对比学习等 看图解释:作者将全通的MLP训练得到的嵌入…

PostgreSQL入门与进阶学习,体系化的SQL知识,完成终极目标高可用与容灾,性能优化与架构设计,以及安全策略

​专栏内容: postgresql使用入门基础手写数据库toadb并发编程 个人主页:我的主页 管理社区:开源数据库 座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物. 文章目录 概述基础篇初级篇进阶篇…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 7月31日,星期三

每天一分钟,知晓天下事! 2024年7月31日 星期三 农历六月廿六 1、 海关总署:我国关税总水平目前已经降至7.3%,接近发达国家平均水平。 2、 网络身份证要来了:两部门征求意见,拟为社会公众统一签发网号、网证…

HighConcurrencyCommFramework c++通讯服务器框架 :网路通迅实战

数据总在两端进行,一个客户端,一个服务器端 连接建立起来,数据双向流动,这叫双工,你可以发给我我也可以发给你 既然服务器端是被动的接受的,那么客户端必须得知道服务器的地址 我浏览器要访问的淘宝网&a…

基于Spring boot + Vue的加油站系统

项目名称:加油站系统 作者的B站地址:程序员云翼的个人空间-程序员云翼个人主页-哔哩哔哩视频 csdn地址:程序员云翼-CSDN博客 1.项目技术栈: 前后端分离的项目 后端:Springboot MybatisPlus 前端:Vue…

Jetbrains Idea插件开发教程

背景介绍 痛点:在idea开发过程中,希望按需驼峰选中文本。现在默认是一整个单词选中,只有在设置–>智能按键 中开启了使用"CamelHumps单词"时能够驼峰选中。但是这种情况比较粗暴,直接全局开启了。但是在日常开发中&…

论文《Few-Shot Object Detection with Model Calibration》的解读

《Few-Shot Object Detection with Model Calibration》论文的解读 作者:Qi Fan1, Chi-Keung Tang1 , and Yu-Wing Tai1,2 单位:1 The Hong Kong University of Science and Technology, 2 Kuaishou Technology 邮箱:fanqicsgmail.com, ckta…

Unity | Shader基础知识(第二十一集:应用-怪兽膨胀、顶点着色器和表面着色器合并)

目录 一、前言 二、资源介绍 三、顶点着色器和表面着色器一起使用基础 1.使用表面着色器代码 2.光照选择 3.加入顶点着色器 4.补充表面着色器 四、在顶点着色器中完成怪兽膨胀功能 1.膨胀原理解释 2.完成膨胀代码 1).写出需要的结构体 2&#xff09…

修改所属用户/用户组——chown

目录 (1)修改所属用户 (2)修改所属用户组 (3)修改所属用户和用户组 (4) 选项 -R 使用 chown 可以修改文件/文件夹的所属用户,所属用户组; 当然与 chmod …

7thonline第七在线出席中服协时尚科技峰会 探讨AI商品管理落地

7月25-26日,中国服装协会2024中国时尚科技创新峰会在杭州隆重举行,本次大会以“新质焕能,革故鼎新”为主题,为持续推动服装产业鼎力创新,以新质生产力的新特征为引领,布局高质量发展新赛道,充分…

MySQL基础练习题15-进店却未进行交易过的顾客

题目:有一些顾客可能光顾了购物中心但没有进行交易。来查找这些顾客的 ID ,以及他们只光顾不交易的次数。 准备数据 分析数据 题目:有一些顾客可能光顾了购物中心但没有进行交易。来查找这些顾客的 ID ,以及他们只光顾不交易的次…

c++迭代器的介绍

迭代器主要的作用就是为了可以像数组那样实现指针向后移动到下一个数据。同时迭代器统一了所有容器,让所有容器可以通过迭代器互通数据。 那么下面我们来看看迭代器 数组的优势 我们数组的优势就是内存连续,那么我们将首地址的地址进行加减就可以访问…

【多线程】补充内容 {线程池;线程安全的单例模式;STL容器、智能指针的线程安全;其他常见的各种锁:自旋锁、读写锁}

一、线程池 1.1 概念 线程池一种线程使用模式: 线程过多会带来调度开销,进而影响缓存局部性和整体性能。 而线程池维护着多个线程,等待着监督管理者分配可并发执行的任务:(线程池的优点) 这避免了在处…

将真实世界带入实验室—如何使用ALPS进行网络损伤仿真测试

不完美的真实世界网络 不同于稳定、可控的传统网络实验室的网络环境,真实世界的网络环境面临着许多挑战和风险,这些挑战在很大程度上增加了网络的脆弱性和复杂性: (1)物理损伤:真实世界的网络基础设施&am…

Java扫码点餐系统奶茶店类型堂食配送小程序源码

🥤【奶茶新风尚!扫码点餐系统,堂食配送两不误】🥤 🏠【堂食新体验:一键下单,即享美味】🏠 踏入心仪的奶茶店,不再需要排队等候点单,只需拿起手机&#xff0…

TongHttpServer 简介

1. 概述 随着网络技术的飞速发展,高并发大用户场景越来越普遍,单一应用服务节点已经不能满足并发需求,为了提高整个系统可靠性,扩展性,吞吐率,通常将多个应用服务器通过硬负载/软负载组成集群,负载均衡器根据不同负载算法将请求分发到各个应用服务器节点。 Tong…

飞书打卡 快捷指令

使用快捷指令定时飞书打卡 在网上找了一圈,只有钉钉打卡的快捷指令,但是公司换飞书,哪个打工人不怕忘记打卡呢,所以自己研究了一下,其实也很简单。 找url 问题的最关键是打开飞书的打卡界面 如果只是打开飞书APP 很…

手动上电电路(电路收藏)

SW1按下 V1栅极对地 V1通 Vout给Mcu工作 GPIO2 高电平 V2通 SW1松开 V1栅极依然通过V2对地 维持V1通 Vout。再次按下SW1 GPIO1 对地 使Mcu收到中断 将GPIO2 输出低电平 V2关 松开SW1 V1栅极悬空 V1断开 Vout被截断

大数据基础:Spark重要知识汇总

文章目录 Spark重要知识汇总 一、Spark 是什么 二、Spark 四大特点 三、Spark框架模块介绍 3.1、Spark Core的RDD详解 3.1.1、什么是RDD 3.1.2、RDD是怎么理解的 四、Spark 运行模式 4.1、Spark本地模式介绍 4.2、Spark集群模式 Standalone 4.3、Spark集群模式 Stan…