生成人工智能体:人类行为的交互式模拟论文与源码架构解析(5)——可控评估端到端评估

news2024/9/23 21:26:09

最后完结篇,文末有测试中发现的有趣现象,并附上了相关资料链接~

5.可控评估

分两个阶段评估生成代理。我们从一个更加严格控制的评估开始,单独评估代理的响应,以了解它们是否在狭义上定义的上下文中产生可信的行为。然后,在我们对代理社区进行为期两天的端到端分析中,我们调查它们作为整体的新兴行为以及出现的错误和边界条件。

5.1.评估过程

为了评估Smallville中的生成NPC,我们利用生成NPC将响应自然语言问题的事实。因此,我们“采访”NPC来探究它们记住过去经历、基于经验规划未来行动、适当地应对意外事件、反思表现以改进未来行动的能力。为了正确回答这些问题,NPC必须成功检索和综合信息。我们的依赖变量是行为的可信度,这是以前关于NPC的工作中的一个中心依赖变量。

该采访包括五个问题类别,每个类别旨在评估五个关键领域之一:维护自我认识、检索记忆、生成计划、反应和反思。对于每一个问题类别,我们提出了五个问题,以挑战NPC在该领域表现出他们的能力:

  • 自我认识:我们提出要求NPC维护其核心特征理解的问题,例如“介绍一下你自己”或“概述你的典型工作日时间表”。

  • 记忆:我们提出问题,提示NPC从记忆中检索特定事件或对话以正确回答,例如“[姓名]是谁?”或“谁在竞选市长?”

  • 计划:我们提出需要NPC检索其长期计划的问题,例如“明天上午10点你要做什么?”

  • 反应:作为可信行为的基线,我们提出假设情况,NPC需要正确回答:“你的早餐正在烧!你会做什么?”

  • 反思:我们提出问题,要求NPC利用通过更高级别推断获得的更深刻的对他人和自己的理解,例如“如果你和你最近认识的一个人一起度过时间

5.2.条件

所有条件都用于独立回答每个采访问题。我们将生成NPC体系结构与禁用NPC在其记忆流中的某些或全部三种类型的记忆(观察、反思和规划)的抽象进行比较,并将其与人工生成条件进行比较。有三种抽象架构:

  • 没有观察、没有反思、没有规划架构,没有任何在记忆流中的观察、计划和反思等任何信息;

  • 没有反思、没有规划架构,在记忆流中具有观察信息,但没有访问计划或反思;

  • 没有反思架构,具有观察和计划的访问权限,但没有反思的访问权限。

没有观察、没有反思、没有规划的情况有效地表示通过大型语言模型创建NPC的先前技术水平。架构被给予等效的访问访问NPC在采访时刻之前获得的所有记忆,所以这里观察到的差异很可能代表真实差异的保守估计:事实上,抽象架构不会像全架构那样通过两天的模拟时走同一条路线。我们选择以这种方式设计实验,因为为每个体系结构重新模拟将使模拟分散为不同的状态,使比较具有挑战性。

除了抽象条件之外,我们还添加了一个人类众包角色扮演条件,旨在提供人类基线。我们并不打算将此基线捕捉为最大的人类专家表现:相反,我们的目标是使用此条件来确定体系结构是否通过基本的行为胜任水平,这样我们就不仅仅是将抽象相互比较而没有行为基础。我们为每个NPC招募了一位独特的工作者,并让他们观看NPC的模拟生活重播并检查其记忆流。然后,我们要求工人在所观看的NPC的声音中担任角色扮演和作者,回答采访问题。为确保人工撰写的答案至少符合基本质量要求,第一作者手动检查了工人对问题“概述你的典型工作日时间表”所写的回答,以确认回答是连贯的句子,并且是NPC的声音。有四组人工生成的回答不符合这些标准,并由其他工作者重新生成。

5.3.人类评估员

我们要求我们的评估者在美国境内,精通英语且年满18岁以上。他们以每小时15.00美元的价格支付,通过同意我们机构的IRB批准的同意书同意参与。我们从Prolific招募了100名评估者,这是一个用于招募研究参与者的在线平台,他们的参与时间约为30分钟。他们参与者的平均年龄分数为4.86(标准偏差=1.11;3=“18-24岁”,4=“25-34岁”),其中25人自认为女性,73人自认为男性,2人自认为非二元性别。42位参与者拥有学士学位,5位拥有更高学位,13位拥有副学士学位,其余的拥有高中学历或一些高中水平的教育。73.0%的参与者自认为是白人,7.0%的参与者自认为是西班牙裔,6.0%的参与者自认为是亚洲人,10.0%的参与者自认为是非裔美国人,4.0%的参与者则自认为是其他族裔。

5.4.分析

我们的实验产生了100组排名数据,每个参与者对五种条件进行了可信度排名。为了将这些排名数据转换为可解释的区间数据进行比较,我们使用排名计算了每种条件的TrueSkill评分。TrueSkill是Elo棋类评级系统在多人环境中的一种泛化,被XBox Live用于根据竞争性游戏表现的玩家排名。给定一组排名结果,TrueSkill会输出每个条件的平均评级值μ和方差σ。具有相同评级的条件应该大致是平局,每一个条件在两个条件之间获胜的比例为一半;更高的评分表示击败排名较低的条件。此外,为了研究这一结果的统计学意义,我们对原始排名数据应用了Kruskal-Wallis测试,这是一种一元ANOVA的非参数替代方法。然后,我们执行Dunn事后检验来确定条件之间的任何两两差异。最后,我们使用Holm-Bonferroni方法对Dunn检验中的多个比较的p值进行了调整。

此外,第一作者进行了归纳分析,以研究在每种条件下产生的回答之间的质性差异。我们采用了两个阶段的定性开放编码。在第一阶段,我们生成了贴近句子层面的生成式回答的代码。在第二阶段,我们综合了第一阶段得出的代码,提取出更高层次的主题。我们利用这些主题来比较我们研究中产生的响应类型。

5.5.结果

我们的研究结果表明,生成NPC的完整架构在所有研究条件中产生了最可信的行为。我们下面对全架构的响应与其他条件进行了对比。然而,我们也报告了全架构并不是没有缺陷的,并阐明了其失效模式。

5.5.1.完整的架构优于其他条件

完整的生成代理架构产生了最可信的行为(𝜇 = 29.89; 𝜎 = 0.72)。随着每个部分在消融条件下的去除,性能逐渐退化:没有反思能力的消融架构是第二好的(𝜇 = 26.88; 𝜎 = 0.69)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1606551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

决策树分类器(保姆级教学) 定义+特性+原理及公式+鸢尾花分类经典问题示例(完整Python代码带详细注释、保姆级分部代码解释及结果说明、决策树可视化及解释)

文章目录 引言定义特性基本原理和公式理解信息增益(ID3算法)熵的定义条件熵信息增益的计算 基尼不纯度(CART算法)基尼不纯度的定义基尼不纯度的计算例子 实现步骤解决鸢尾花分类问题(机器学习入门中的经典案例Python代…

传感器融合 | 适用于自动驾驶场景的激光雷达传感器融合项目_将激光雷达的高分辨率成像+测量物体速度的能力相结合

项目应用场景 面向自动驾驶场景的激光雷达传感器融合,将激光雷达的高分辨率成像测量物体速度的能力相结合,项目是一个从多个传感器获取数据并将其组合起来的过程,可以更加好地进行环境感知。项目支持 ubuntu、mac 和 windows 平台。 项目效果…

在系统中设定延迟任务和定时任务

useradd easylee //设置名为easylee的新用户 passwd easylee //更改密码为easylee,输入两次即可 将root和easylee加入白名单,使系统中只有root用户和easylee用户可以执行延迟任务的设置。 建立任务并给权限 定时任务

vue 实现实时搜索文档关键字并高亮显示

最近接到的一个新需求:实时搜索文档关键字并高亮显示,听起来好难的样子,仔细分析起来其实也蛮简单的。 实现思路 通过 input 实现关键字的输入,监听关键字的变化,用正则表达式来匹配关键字,然后给关键字添…

视觉信息保真度VIF算法详细介绍

来源 算法核心思想来源该篇论文A VISUAL INFORMATION FIDELITY APPROACH TO VIDEO QUALITY ASSESSMENT;是2005年的一篇高引用文章; 是一种全参考的视频图像评价算法;在奈飞开源的视频质量评价工具vmaf中将其作为一个判断维度,具体关于vmaf介绍可以参考视频质量评价工具vmaf…

一文学会时序约束

主时钟约束命令/生成时钟约束命令IO输入输出延迟约束命令及效果最大最小延迟命令及作用多周期路径怎么约束什么情况设置伪路径时钟组设置的三个选项 如果不了解时序分析可以先看下下面这篇文章: 数字IC/FPGA——时序分析 目录 1.时钟约束(1)…

SRIO系列-仿真测试

一、前言 前两篇已经讲述了SRIO协议的概况,以及xilinx SRIO IP核的使用方式,已经在搭建工程的过程中时钟和复位的注意事项。 二、设计框图 整个框图也是按照之前的工程进行搭建,首先时SRIO_Channel,由SRIO IP核和时钟、复位模块…

【C++题解】1607. 两位数运算

问题:1607. 两位数运算 类型:基本运算、拆位求解 题目描述: 小丽在编程课上学会了拆位运算,她已经可以拆出一个两位整数的十位和个位了,她想知道这个整数的十位 / 个位的结果是多少,请编程帮她实现&#…

异地网络如何在线共享文件夹?

信息的传输和共享变得异常便利。而对于拥有异地办公或分布式团队的公司或组织来说,跨地域的文件共享变得尤为重要。在这个背景下,“异地网络在线共享文件夹”应运而生。 异地网络在线共享文件夹的意义 对于异地办公的团队来说,共享文件夹是一…

《Super Simple Skybox》天空盒 -- 创造绝美天空的神奇工具!限时免费!

《Super Simple Skybox》天空盒 -- 创造绝美天空的神奇工具!限时免费! 前言内容介绍资源特色动态,美丽的天空在几秒钟内即插即用 功能列表领取兑换码 前言 ^^在这个充满创意与想象的世界里,Unity 免费资源犹如一颗璀璨的明珠&…

信息系统项目管理师0055:优化和持续改进(4信息系统管理—4.1管理方法—4.1.5优化和持续改进)

点击查看专栏目录 文章目录 4.1.5优化和持续改进1.定义阶段2.度量阶段3.分析阶段4.改进/设计阶段5.控制/验证阶段4.1.5优化和持续改进 优化和持续改进是信息系统管理活动中的一个环节,良好的优化和持续改进管理活动能够有效保障信息系统的性能和可用性等,延长整体系统的有效使…

redis的数据结构报错

文章目录 redis的数据结构报错Redis使用LocalDateTime报错问题 redis的数据结构报错 Redis使用LocalDateTime报错问题 SpringBoot整合Redis时,使用LocalDate以下报错 org.springframework.data.redis.serializer.SerializationException: Could not read JSON: C…

统一SQL-支持cast函数

统一SQL介绍 https://www.light-pg.com/docs/LTSQL/current/index.html 源和目标 源数据库:Oracle 目标数据库:Postgresql,TDSQL-MySQL,达梦8,LightDB-Oracle 操作目标 在Oracle中,cast函数允许将一种…

CSS:filter(滤镜)属性

用途 可以用于img标签,div标签等 图像,背景,边框的调整 常用属性 1. 灰度 grayscale(),默认是0,100%就是黑白 2. blux 给图像设置高斯模糊的程度,radius值设定高斯模糊的程序,表示像素点…

android studio gradle 下载不下来的问题

有时候由于网络问题,会发现 android-studio 或 idea 下载不懂 gradle,可以修改 gradle-wrapper.properties 配置文件中的 distributionUrl 选项来解决这个问题。 distributionUrlhttps\://mirrors.cloud.tencent.com/gradle/gradle-5.1.1-all.zip 这个选…

遥感图像分割 | 基于一种类似UNet的Transformer算法实现遥感城市场景图像的语义分割_适用于卫星图像+航空图像+无人机图像

项目应用场景 面向遥感城市场景图像语义分割场景,项目采用类似 UNet 的 Transformer 深度学习算法来实现,项目适用于卫星图像、航空图像、无人机图像等。 项目效果 项目细节 > 具体参见项目 README.md (1) 安装依赖 conda create -n airs python3.8…

常用的7个免费ChatGPT网站

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

OpenCV从入门到精通实战(六)——多目标追踪

基于原生的追踪 使用OpenCV库实现基于视频的对象追踪。通过以下步骤和Python代码,您将能够选择不同的追踪器,并对视频中的对象进行实时追踪。 步骤 1: 导入必要的库 首先,我们需要导入一些必要的Python库,包括argparse、time、…

Debian12 中重新安装MSSQL 并指定服务器、数据库、数据表字段的字符排序规则和默认语言等参数

在 Linux 上配置 SQL Server 设置 - SQL Server | Microsoft Learn 零、查看sql server 服务器支持的字符排序规则 SELECT Name from sys.fn_helpcollations() where name Like Chinese% go------ Chinese_PRC_CI_AI Chinese_PRC_CI_AI_WS Chinese_PRC_CI_AI_KS Chinese_PRC_…

读所罗门的密码笔记21_读后总结与感想兼导读

1. 基本信息 所罗门的密码:AI时代的价值、权力与信任 Solomons Code 奥拉夫格罗思 马克尼兹伯格 著 中信出版社,2022年5月出版 1.1. 读薄率 书籍总字数257千字,笔记总字数37780字。 读薄率37780257000≈14.7% 1.2. 读厚方向 千脑智能 脑机穿越 …