ANDROIDWORLD: A Dynamic Benchmarking Environment for Autonomous Agents论文学习

news2024/11/25 7:09:36

这个任务是基于androidenv的。这个环境之前学过,是一个用来进行强化学习的线上环境。而这篇文章的工作就是要给一些任务加上中间的奖励信号。这种训练环境的优点就是动态,与静态的数据集(比如说我自己的工作)不同,因此可以在更大更真实的任务上训练。

“我们改编了一个流行的桌面web代理来在Android上工作,我们发现它在移动设备上的效率较低,这表明未来的研究需要实现通用的,跨平台的代理。最后,我们还进行了鲁棒性分析,表明任务变化会显著影响代理性能,表明如果没有这样的测试,代理性能指标可能无法完全反映实际挑战。”

可以看到这篇工作的核心就是“评估”,如何去评估代理在实际工作中的表现。如果没有这个评估的话,强化学习就难以进行下去。现有的评估方法基本上就是拿人类范例比较,而且经常就只给一个标准答案。androidworld闪亮登场,为的就是解决这些问题。

之前有一些用人类品测或者LLM评测来作为中间奖励,但这样扩展性不太行。

“与现有的测试环境不同(miniwob++[48]是一个明显的例外),ANDROIDWORLD中的每个任务都是使用随机生成的参数动态实例化的,具有数百万个独特任务目标和条件的代理。MiniWob++由简单的合成网站组成,而ANDROIDWORLD利用了实际的Android应用程序。ANDROIDWORLD必须解决的一个主要挑战是,如何确保在使用现实世界的应用程序和动态变化的任务参数时,奖励信号是持久的。ANDROIDWORLD的关键见解是利用Android操作系统的广泛和一致的状态管理功能,使用与应用程序本身使用相同的机制来存储和更新数据。”

androidworld只需要2GB内存和8GB硬盘。除了116个Android任务外,我们还通过集成miniwob++[48,34]基准将ANDROIDWORLD扩展为web任务。

miniwob是啥?

MiniWoB(Miniature World of Bits)是一个微型的基准测试环境集合,用于在网页环境下研究和测试强化学习(Reinforcement Learning,RL)算法。MiniWoB 提供了一系列简单的网页任务,主要用于研究智能体(agent)在网页操作、任务完成和用户界面交互中的表现。这些任务通常基于一些典型的网页活动,如点击按钮、输入文本、选择下拉菜单等。”

简单来说就是一个在网页环境下的类似于androidenv的东西。

“为了证明ANDROIDWORLD作为基准的实用性,我们构建并发布了一个多模态代理M3A (Android的多模态自治代理),并在ANDROIDWORLD上建立了最先进的结果。我们使用多模态和纯文本输入分析了M3A(Multimodal Autonomous Agent for Android)的性能,我们观察到,虽然多模态感知在某些情况下可以提高性能,但它通常不会优于纯文本方法。”

纯文本目前还是效果更好的办法,多模态战未来。

“总的来说,我们做出了以下贡献:(i)创建了一个新的,高度多样化和逼真的移动UI控制代理环境;(ii)用最先进的多模态智能体建立基准性能,(iii)仔细分析表明,由于模型和环境中固有的随机性,需要在不同的任务参数和条件下评估智能体。”

首先介绍一下androidworld怎么和android设备交互。

“ANDROIDWORLD为代理提供了一个接口来接收观察并在Android上执行操作。它使用AndroidEnv[58]和Android Device Bridge来促进Android和代理之间的交互。观察空间由全分辨率屏幕截图和为可访问性目的开发的UI树表示组成。操作空间类似于人类使用的空间,由手势(如轻敲、长按和滑动)、输入和导航按钮(如回家和返回)组成。除了这些自然的动作之外,ANDROIDWORLD还公开了一组有限的调用api的函数,比如发送文本消息,以帮助代理完成目标。”

下面是一些例子:

可以看到,这样子就可以通过不断地修改一些细节的方法排列组合出海量的任务了。

“除了管理应用程序和操作系统的状态,ANDROIDWORLD精确地定义和控制任务执行期间的状态。每个任务都有自己独特的设置、奖励决定逻辑和拆除程序(详见附录C.2和C.3),以确保完全可复制的任务套件。”

这种方法提供了对代理适应性的更细粒度的分析——这是实际部署的一个重要属性。除了测试智能体鲁棒性之外,任务的动态构建支持在线学习方法的使用,特别是强化学习[48,34,23,18]。它还简化了不同训练/测试数据集的生成,便于监督学习实验[23,47,15]。

”可以用来生成数据集,完美。

“ANDROIDWORLD通过使用Android调试桥(adb)管理应用程序状态来提供奖励信号。通过adb工具,ANDROIDWORLD可以完全访问系统资源,包括文件系统、应用程序数据库和系统设置。从系统状态确定奖励信号有几个好处。它是高度精确的,因为应用程序的状态可以使用与应用程序本身相同的机制来快速检查和操作。使用底层系统状态比匹配表面的UI更改要持久得多。”

归根结底还是要用adb,不可能不用的啦。

同时本片工作还结合了miniwob,并将其命名为mobileminiwo++。每个mobileminiwo++任务使用标准ANDROIDWORLD接口实例化,继承自TaskEval基类,并包含initialize state和is successful等方法。由于miniwo++利用JavaScript进行任务配置和成功检测,文章构建了一个WebView应用程序来在Python和应用程序之间进行通信。例如,每个任务的is_success()函数通过Android意图从WebView应用程序中检索奖励值。

下面介绍一下本文使用的模型:

我们为Android开发了一个多模式自主代理M3A。它是zero-shot,集成了ReActstyle[72]和reflection style[49]的提示,以消费用户指令和屏幕内容,推理,采取行动,并根据其行动的结果更新其决策

在第一阶段,M3A生成一个以JSON表示的操作,并对该操作进行解释(当然模型有收到截图,边界标记和UI结构树)。文章还做了一个纯文本版本的。代理每做一个动作或者是观察了当下成功或失败的情况都要做出解释。

(好家伙,都用的付费模型,没用过自己的)

“我们观察到,在应用筛选启发式删除不可交互元素后,大多数屏幕包含的候选元素少于50个。”

agent目前暴露出的问题:

“代理很难理解移动ui,通常无法检测到完成任务所必需的视觉线索(参见图6a)。此外,智能体与特定的UI模式和功能支持作斗争,当它们犯推理错误时(参见图6b),它们通常缺乏像人类一样探索和适应的能力(参见图6c)。此外,智能体有时难以处理仅仅涉及确认系统状态的任务,例如确认WiFi是否打开,这表明在任务和屏幕理解方面都存在挑战。”

而且模型定位能力堪忧,记性也不好。大模型动作还很慢。

后续实验发现修改任务的参数对模型的性能有很大影响。可见模型有不确定性,模型自己的鲁棒性不强。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237973.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VBA10-处理Excel的动态数据区域

一、end获取数据边界 1、基本语法 1-1、示例: 2、配合row和column使用 2-1、示例1 2-2、示例2 此时,不管这个有数值的区域,怎么增加边界,对应的统计数据也会跟着变的! 二、end的缺陷 若是数据区域不连贯,则…

【FFmpeg】FFmpeg 函数简介 ③ ( 编解码相关函数 | FFmpeg 源码地址 | FFmpeg 解码器相关 结构体 和 函数 )

文章目录 一、FFmpeg 解码器简介1、解码流程分析2、FFmpeg 编解码器 本质3、FFmpeg 编解码器 ID 和 名称 二、FFmpeg 解码器相关 结构体 / 函数1、AVFormatContext 结构体2、avcodec_find_decoder 函数 - 根据 ID 查找 解码器3、avcodec_find_decoder_by_name 函数 - 根据 名称…

Linux完结

学习视频笔记均来自B站UP主" 泷羽sec",如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 【linux基础之病毒编写(完结)】 https://www.bilibili.com/video…

分享三个python爬虫案例

一、爬取豆瓣电影排行榜Top250存储到Excel文件 近年来,Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程序,用于抓取豆瓣电影Top250的相关信息,并将其保存为Excel文件。 获取网页数据的函数,包括以…

【计网】数据链路层笔记

【计网】数据链路层 数据链路层概述 数据链路层在网络体系结构中所处的地位 链路、数据链路和帧 链路(Link)是指从一个节点到相邻节点的一段物理线路(有线或无线),而中间没有任何其他的交换节点。 数据链路(Data Link)是基于链路的。当在一条链路上传送数据时&a…

docker 拉取MySQL8.0镜像以及安装

目录 一、docker安装MySQL镜像 搜索images 拉取MySQL镜像 二、数据挂载 在/root/mysql/conf中创建 *.cnf 文件 创建容器,将数据,日志,配置文件映射到本机 检查MySQL是否启动成功: 三、DBeaver数据库连接 问题一、Public Key Retrieval is not allowed 问题…

【c++篇】:栈、队列、优先队列:容器世界里的秩序魔法 - stack,queue与priority_queue探秘

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:c篇–CSDN博客 文章目录 前言一.容器stack1.介绍2.成员函数3.模拟实现4.注意事项 二.容器qu…

实现uniapp-微信小程序 搜索框+上拉加载+下拉刷新

pages.json 中的配置 { "path": "pages/message", "style": { "navigationBarTitleText": "消息", "enablePullDownRefresh": true, "onReachBottomDistance": 50 } }, <template><view class…

无人机培训机型有哪些?CAAC考证选3类还是4类

无人机培训是一个涵盖多个方面的综合性过程&#xff0c;旨在培养具备无人机操作技能和相关知识的人才。 无人机培训机型 无人机培训通常涵盖多种机型&#xff0c;以满足不同领域和应用场景的需求。常见的无人机培训机型包括&#xff1a; 1. 多旋翼无人机&#xff1a;也称为多…

95.【C语言】数据结构之双向链表的头插,头删,查找,中间插入,中间删除和销毁函数

目录 1.双向链表的头插 方法一 方法二 2.双向链表的头删 3.双向链表的销毁 4.双向链表的某个节点的数据查找 5.双向链表的中间插入 5.双向链表的中间删除 6.对比顺序表和链表 承接94.【C语言】数据结构之双向链表的初始化,尾插,打印和尾删文章 1.双向链表的头插 方法…

[极客大挑战 2019]PHP 1

[极客大挑战 2019]PHP 1 审题 猜测备份在www.zip中&#xff0c;输入下载文件。 知识点 反序列化 解题 查看代码 看到index.php中包含了class.php,直接看class.php中的代码 查看条件 当usernameadmin&#xff0c;password100时输出flag 构造反序列化 输入select中&#…

C++面试基础知识:排序算法 C++实现

上周实习面试&#xff0c;手撕代码快排没写出来&#xff0c;非常丢人&#xff0c;把面试官都给逗笑了。 基础不牢&#xff0c;地动山摇&#xff0c;基础的算法还是要牢记于心的。 插入排序 分为有序区和无序区&#xff0c;每次从无序区中选出一个&#xff0c;放到有序区域中。…

yarn报错`warning ..\..\package.json: No license field`:已解决

出现这个报错有两个原因 1、项目中没有配置许可证 在项目根目录package.json添加 {"name": "next-starter","version": "1.0.0",# 添加这一行"license": "MIT", }或者配置私有防止发布到外部仓库 {"priv…

批量缓存模版

批量缓存模版 缓存通常有两种使用方式&#xff0c;一种是Cache-Aside&#xff0c;一种是cache-through。也就是旁路缓存和缓存即数据源。 一般一种用于读&#xff0c;另一种用于读写。参考后台服务架构高性能设计之道。 最典型的Cache-Aside的样例&#xff1a; //读操作 da…

亚信安全并购亚信科技交易正式完成

亚信安全与亚信科技联合宣布&#xff0c;亚信安全正式完成对亚信科技的控股权收购&#xff0c;由此&#xff0c;规模近百亿的中国最大的软件企业之一诞生&#xff01;双方将全面实现公司发展战略&#xff0c;以及优势能力与资源的深度融合&#xff0c;形成业界独有的“懂网、懂…

MybatisPlus入门(十)MybatisPlus-逻辑删除和多记录操作

一、Mybatis-Plus 多记录操作 按照主键删除多条记录 List<Long> ids Arrays.asList(new Long[]{2,3}) userDao.deleteBatchIds(ids); 示例代码如下: Testvoid testDelete(){//删除指定多条数据List<Long> list new ArrayList<>();list.add(14025513424818…

【css】overflow: hidden效果

1. 不添加overflow: hidden 1.1 效果 上面无圆角 1.2 代码 <template><view class"parent"><view class"child1">child1</view><view class"child2">child2</view></view></template><…

「QT」几何数据类 之 QPolygonF 浮点型多边形类

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「QT」QT5程序设计&#x1f4da;全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…

架构篇(04理解架构的演进)

目录 学习前言 一、架构演进 1. 初始阶段的网站架构 2. 应用服务和数据服务分离 3. 使用缓存改善网站性能 4. 使用应用服务器集群改善网站的并发处理能力 5. 数据库读写分离 6. 使用反向代理和CDN加上网站相应 7. 使用分布式文件系统和分布式数据库系统 8. 使用NoSQL和…

OpenCV基础05_GUI和PyMsql

目录 一、PySimpleGUI 1、布局和窗口 2、文本框组件 3、视频处理 4、图片处理 二、pymsql 1、数据库操作 2、数据采集 3、人脸识别 一、PySimpleGUI PySimpleGUI 是一个用于简化 GUI 编程的 Python 包&#xff0c;它封装了多种底层 GUI 框架&#xff08;如 tkinter、…