生成人工智能体：人类行为的交互式模拟论文与源码架构解析（5）—

生成人工智能体：人类行为的交互式模拟论文与源码架构解析（5）——可控评估端到端评估

news2024/9/23 21:26:09

最后完结篇，文末有测试中发现的有趣现象，并附上了相关资料链接~

5.可控评估

分两个阶段评估生成代理。我们从一个更加严格控制的评估开始，单独评估代理的响应，以了解它们是否在狭义上定义的上下文中产生可信的行为。然后，在我们对代理社区进行为期两天的端到端分析中，我们调查它们作为整体的新兴行为以及出现的错误和边界条件。

5.1.评估过程

为了评估Smallville中的生成NPC，我们利用生成NPC将响应自然语言问题的事实。因此，我们“采访”NPC来探究它们记住过去经历、基于经验规划未来行动、适当地应对意外事件、反思表现以改进未来行动的能力。为了正确回答这些问题，NPC必须成功检索和综合信息。我们的依赖变量是行为的可信度，这是以前关于NPC的工作中的一个中心依赖变量。

该采访包括五个问题类别，每个类别旨在评估五个关键领域之一：维护自我认识、检索记忆、生成计划、反应和反思。对于每一个问题类别，我们提出了五个问题，以挑战NPC在该领域表现出他们的能力：

自我认识：我们提出要求NPC维护其核心特征理解的问题，例如“介绍一下你自己”或“概述你的典型工作日时间表”。
记忆：我们提出问题，提示NPC从记忆中检索特定事件或对话以正确回答，例如“[姓名]是谁？”或“谁在竞选市长？”
计划：我们提出需要NPC检索其长期计划的问题，例如“明天上午10点你要做什么？”
反应：作为可信行为的基线，我们提出假设情况，NPC需要正确回答：“你的早餐正在烧！你会做什么？”
反思：我们提出问题，要求NPC利用通过更高级别推断获得的更深刻的对他人和自己的理解，例如“如果你和你最近认识的一个人一起度过时间

5.2.条件

所有条件都用于独立回答每个采访问题。我们将生成NPC体系结构与禁用NPC在其记忆流中的某些或全部三种类型的记忆（观察、反思和规划）的抽象进行比较，并将其与人工生成条件进行比较。有三种抽象架构：

没有观察、没有反思、没有规划架构，没有任何在记忆流中的观察、计划和反思等任何信息；
没有反思、没有规划架构，在记忆流中具有观察信息，但没有访问计划或反思；
没有反思架构，具有观察和计划的访问权限，但没有反思的访问权限。

没有观察、没有反思、没有规划的情况有效地表示通过大型语言模型创建NPC的先前技术水平。架构被给予等效的访问访问NPC在采访时刻之前获得的所有记忆，所以这里观察到的差异很可能代表真实差异的保守估计：事实上，抽象架构不会像全架构那样通过两天的模拟时走同一条路线。我们选择以这种方式设计实验，因为为每个体系结构重新模拟将使模拟分散为不同的状态，使比较具有挑战性。

除了抽象条件之外，我们还添加了一个人类众包角色扮演条件，旨在提供人类基线。我们并不打算将此基线捕捉为最大的人类专家表现：相反，我们的目标是使用此条件来确定体系结构是否通过基本的行为胜任水平，这样我们就不仅仅是将抽象相互比较而没有行为基础。我们为每个NPC招募了一位独特的工作者，并让他们观看NPC的模拟生活重播并检查其记忆流。然后，我们要求工人在所观看的NPC的声音中担任角色扮演和作者，回答采访问题。为确保人工撰写的答案至少符合基本质量要求，第一作者手动检查了工人对问题“概述你的典型工作日时间表”所写的回答，以确认回答是连贯的句子，并且是NPC的声音。有四组人工生成的回答不符合这些标准，并由其他工作者重新生成。

5.3.人类评估员

我们要求我们的评估者在美国境内，精通英语且年满18岁以上。他们以每小时15.00美元的价格支付，通过同意我们机构的IRB批准的同意书同意参与。我们从Prolific招募了100名评估者，这是一个用于招募研究参与者的在线平台，他们的参与时间约为30分钟。他们参与者的平均年龄分数为4.86（标准偏差=1.11；3=“18-24岁”，4=“25-34岁”），其中25人自认为女性，73人自认为男性，2人自认为非二元性别。42位参与者拥有学士学位，5位拥有更高学位，13位拥有副学士学位，其余的拥有高中学历或一些高中水平的教育。73.0%的参与者自认为是白人，7.0%的参与者自认为是西班牙裔，6.0%的参与者自认为是亚洲人，10.0%的参与者自认为是非裔美国人，4.0%的参与者则自认为是其他族裔。

5.4.分析

我们的实验产生了100组排名数据，每个参与者对五种条件进行了可信度排名。为了将这些排名数据转换为可解释的区间数据进行比较，我们使用排名计算了每种条件的TrueSkill评分。TrueSkill是Elo棋类评级系统在多人环境中的一种泛化，被XBox Live用于根据竞争性游戏表现的玩家排名。给定一组排名结果，TrueSkill会输出每个条件的平均评级值μ和方差σ。具有相同评级的条件应该大致是平局，每一个条件在两个条件之间获胜的比例为一半；更高的评分表示击败排名较低的条件。此外，为了研究这一结果的统计学意义，我们对原始排名数据应用了Kruskal-Wallis测试，这是一种一元ANOVA的非参数替代方法。然后，我们执行Dunn事后检验来确定条件之间的任何两两差异。最后，我们使用Holm-Bonferroni方法对Dunn检验中的多个比较的p值进行了调整。

此外，第一作者进行了归纳分析，以研究在每种条件下产生的回答之间的质性差异。我们采用了两个阶段的定性开放编码。在第一阶段，我们生成了贴近句子层面的生成式回答的代码。在第二阶段，我们综合了第一阶段得出的代码，提取出更高层次的主题。我们利用这些主题来比较我们研究中产生的响应类型。