论文阅读:华为的LiMAC

news2024/11/24 16:47:53

《LIGHTWEIGHT NEURAL APP CONTROL》
用于app控制的轻量级神经网络

摘要

输入是一个文本目标和一系列过去的移动感知,比如截图和相应的UI树,来生成精确的动作。

针对智能手机固有的计算限制,我们在LiMAC中引入了一个小型Action Transformer(AcT),它与微调的视觉-语言模型(VLM)相结合,用于实时决策和任务执行。

我们在两个开源移动控制数据集上评估了LiMAC,展示了我们的小型形态因数方法相对于Florence2和Qwen2-VL等开源VLM的微调版本的优越性能。

具体来说,与微调后的VLM相比,LiMAC将整体动作准确度提高了多达19%,与prompt-engineering基线相比提高了多达42%。

前言

手机代理:这些智能体可以让用户轻松完成各种任务,包括安排约会、发送信息、购买物品和预订航班。
基本上,应用助手通过观察用户指令并逐步与智能手机的用户界面交互——例如,点击、滚动、输入文本等——来完成任务。
然而,由于智能手机的计算资源有限,这些代理人必须优化效率,使用内存占用小、处理速度快的轻量级模型。

(1)最近的进展已经利用基础模型开发出了应用程序代理,这些代理能够理解自然语言指令,并在智能手机界面内执行复杂的用户命令。

(2)为了解决这些限制,我们提出了一种门控架构,它结合了一个轻量级的变压器网络和一个小型的微调VLM。任务描述和智能手机状态首先由一个紧凑的模型(约5亿个参数、0.5B)处理,该模型有效地处理了大多数操作。对于需要自然语言理解的动作,比如编写短信或查询搜索引擎,会调用VLM来生成所需的文字。平均每个任务只需要3秒钟——并且提高了准确性。

(3)在提出的架构(轻量级多模态应用控制,或LiMAC)中,初始处理阶段由动作变换器(AcT)管理,主要负责确定满足用户命令所需的动作类型。 AcT首先根据智能手机界面的当前状态和任务描述预测动作类型,如点击、输入文本或滚动。对于大多数动作类型,如点击和滚动,AcT会自主执行任务。为了预测点击操作的目标,我们使用AcT输出和每个用户界面(UI)元素嵌入之间的对比目标。关于预测动作类型的具体方法以及处理点击动作的处理方式,分别在第3.3节和第3.5节中详细说明。

(4)然而,当AcT预测的动作类型为input-text或open-app,需要更深入的先验知识和对自然语言细微差别的理解时,LiMAC会将选择的动作类型和用户的目标传递给微调过的VLM,以生成合适的文本内容。这种分工使得AcT能够处理简单的交互,同时利用VLM的高级功能来处理更复杂的文本生成任务,确保系统保持资源效率的同时,能够提供复杂响应。在第3.4节中详细描述了在应用代理领域集成和微调VLM的过程。

论文的4个主要贡献:

(1)我们提出了LiMAC,这是一种应用程序代理的架构,它通过将轻量级变压器与微调的VLM相结合,来平衡效率和自然语言理解。

(2)我们还引入了AcT,这是LiMAC的一个子模块,旨在高效预测动作类型和UI元素交互,其特点是具有新颖的点击预测对比目标。

(3)我们对两个开源的视觉-语言模型(VLMs)进行了微调和评估,这些模型专门用于处理基于文本的操作。我们微调后的VLM在性能上可与GPT-4o方法相媲美,甚至超越它,而参数数量却少于20亿(2B)。

(4)我们展示了实验结果,证明与基于GPT-4o的和微调的VLM应用代理相比,LiMAC可以提升任务执行速度和精度——速度最高快30倍,准确度提高40%。

结论

总之,我们提出了LiMAC,一个轻量级的框架,旨在处理应用程序控制任务。

LiMAC从每个手机屏幕截图中提取UI元素,并使用专门的视觉和文本模块对其进行编码。

然后,这些UI元素编码作为嵌入向量传递给AcT,AcT预测下一个动作的类型和规格。

AcT关注动作的两个关键方面:预测动作是点击时的动作类型和目标元素。对于需要文本生成的动作,LiMAC使用微调的VLM来确保成功完成。

我们对比LiMAC与六个基于最新基础模型的基线方法,并在两个开源数据集上进行评估。结果表明,LiMAC在训练和推理所需计算时间显著减少的情况下,性能仍能超过这些基线。这证明LiMAC能够在计算能力有限的设备上完成任务处理。

所提出方法的主要限制之一是有限的训练数据。LiMAC分别只在13K和18K个场景上进行了AndroidControl和AitW的训练。缺乏预训练进一步阻碍了模型在更复杂任务上提高性能的能力。

未来,我们打算通过引入在线学习技术,如强化学习,来提升模型的性能。在本工作中展示的初始训练阶段后,LiMAC 可以与 Android 模拟器互动来生成更多数据。

通过使用合适的奖励函数,甚至利用GPT-4来评估生成的轨迹并分配奖励(Bai et al., 2024),我们可以微调LiMAC以提高任务完成率。

重要图

图1

图中红框中 t表示timestep, j表示 j-th UI元素(就是widget、或者某个控件)、o表示这个状态的观测结果,img指的是 与UI元素相对应的图像、 txt指的是 与UI元素相对应的文本、 attr指的是 UI元素的相关属性,如是否可点击

next action predict中的 a_t 指的是 第t步的动作,type 对应 动作类型、 spec 对应 动作的规格说明(规格根据操作类型有所不同:对于点击操作,规格可能表示目标UI元素;对于输入操作,它将包含要输入的文本。)
在这里插入图片描述

重要表

表3

在AitW和AndroidControl数据集上,不同模块组合的动作类型、点击目标和文本的准确性。LiMAC在两个数据集中都获得了最佳的动作类型准确性,在AitW中也获得了最佳的点击目标准确性,而我们微调过的Florence2则在文本预测方面表现出色。

未完待续

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2223799.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【安全解决方案】深入解析:如何通过CDN获取用户真实IP地址

一、业务场景 某大型互联网以及电商公司为了防止客户端获取到真实的ip地址,以及达到保护后端业务服务器不被网站攻击,同时又可以让公安要求留存网站日志和排查违法行为,以及打击犯罪的时候,获取不到真实的ip地址,发现…

元数据 - ​媒体管理

媒体管理 Media Management元数据遵循 XMP(可扩展元数据平台)规范,特别是 xmpMM(XMP Media Management)命名空间。通过理解和利用这些元数据,可以更好地管理媒体文件的版本、历史记录、派生关系和管理信息&…

Flutter Image和Text图文组件实战案例

In this section, we’ll go through the process of building a user interface that showcases a product using the Text and Image widgets. We’ll follow Flutter’s best practices to ensure a clean and effective UI structure. 在本节中,我们将使用“Te…

ue5实现数字滚动增长

方法1 https://www.bilibili.com/video/BV1h14y197D1/?spm_id_from333.999.0.0 b站教程 重写loop节点 方法二 写在eventtick里

合并数组的两种常用方法比较

在 JavaScript 中,合并数组的两种常用方法是使用扩展运算符 (...) 和使用 push 方法。 使用扩展运算符 this.items [...this.items, ...data.items]; 优点: 易于理解:使用扩展运算符的语法非常直观,表达了“将两个数组合并成一个…

最新版本jdbcutils集成log4j做详细sql日志、自动释放连接...等

maven坐标 <!-- MySQL 8 --><dependency><groupId>com.mysql</groupId><artifactId>mysql-connector-j</artifactId><version>8.0.33</version></dependency><!-- Druid连接池 --><dependency><groupId&…

记一次AWS服务器扩容

1、首先通过下列命令列出设备详情&#xff0c;可以看到红色框起来的部分有160G&#xff0c;需要把新增的20G扩容到根目录(139.9)上 lsblk查看文件系统 df -h2.执行sudo growpart /dev/xvda 1即可把20G的空间扩容到根目录上 扩容成功 但是可以看到并未生效 3.列出文件系统格…

菜叶子芯酸笔记2:服务器、互联技术和AI芯片参数解读

服务器相关知识 服务器是一种高性能计算机&#xff0c;作为网络的节点&#xff0c;存储、处理网络上80%的数据、信息&#xff0c;因此也被称为网络的灵魂。 服务器的分类 种类 描述 塔式服务器(tower server) 正面似PC机&#xff0c;但侧面长度长很多&#xff0c;无统一标准…

pair类型应用举例

在main.cpp里输入程序如下&#xff1a; #include <iostream> //使能cin(),cout(); #include <utility> //使能pair数据类型; #include <string> //使能string字符串; #include <stdlib.h> //使能exit(); //pair类型可以将两个相同的或不同类…

2024年10月-2025年5月 Oracle 19c OCM 考试安排

2024年10月-2025年5月 Oracle 19c OCM 考试安排&#xff1a; 北京考场&#xff1a; 上海考场&#xff1a; 更新时间&#xff1a;2024年10月25日 Oracle 19c OCM往期学员成绩展示&#xff1a; Oracle 19c OCM认证证书&#xff08;电子版&#xff09;

数理统计(第3章第1节:假设检验的基本概念)

目录 假设检验&#xff1a;对母体的分布或者母体分布中的未知参数提出某种假设&#xff0c;由子样推断是否接受该种假设 假设检验的基本概念&#xff08;概率性质的反证法&#xff09; 假设检验&#xff1a;对母体的分布或者母体分布中的未知参数提出某种假设&#xff0c;由子…

云计算欲上九天,AI大模型能否推波助澜?

大数据产业创新服务媒体 ——聚焦数据 改变商业 时代洪流滚滚朝前&#xff0c;千禧年的“世界末日”并未如期而至&#xff0c;但信息大爆炸了&#xff0c;有人开始探索那80%常规生活以外的“20%世界”。谁都未曾想到恰恰这20%成为了如今赛博世界的“种子”&#xff0c;数据不再…

考研读研生存指南,注意事项

本视频&#xff0c;涉及考研读研的方方面面&#xff0c;从考研初试→复试面试→研究生生活→导师相处→论文专利写作混毕业&#xff0c;应有尽有。有了他&#xff0c;你的研究生生涯稳了。 读研考研注意事项&#xff0c;研究生生存指南。_哔哩哔哩_bilibili 一、考研初试注意事…

C# SM2 加签、验签工具

目录 效果 项目 代码 下载 效果 项目 代码 using Org.BouncyCastle.Crypto.Parameters; using Org.BouncyCastle.Crypto.Signers; using Org.BouncyCastle.Asn1.GM; using System; using System.Text; using System.Windows.Forms; using Org.BouncyCastle.Asn1.X9; using…

二分查找_在排序数组中查找元素的第一个和最后一个位置

1.朴素二分查找 .二分查找 二分查找思路&#xff1a; 1.left0,rightnums.size()-1&#xff08;最后一个元素下标&#xff09;&#xff0c;取中间元素下标 midleft(right-left)/2 &#xff08;防溢出&#xff09; 2.nums[mid]>target &#xff0c;说明mid右边的元素都大于ta…

软考:缓存和数据库数据一致性问题

参考&#xff1a;CSDN博客&#xff0c;8种方案 前言 为什么要一致 如果数据不一致&#xff0c;那么业务应用从缓存中读取的数据就不是最新的数据&#xff0c;这会导致严重的错误 数据一致性是什么 缓存中有数据&#xff0c;那么&#xff0c;缓存的数据需要和数据库中的值相同 …

vue图片加载失败的图片

1.vue图片加载失败的图片 这个问题发生在测试环境和开发本地&#xff0c;线上环境是可以的&#xff0c;测试环境估计被第三方屏蔽了 2.图片有&#xff0c;却加载不出来 <template v-slot:imageUrlsSlots"{ row }"><div class"flexRow rowCenter"&…

重生之“我打数据结构,真的假的?”--3.栈和队列(无习题)

栈和队列 C语言中的栈和队列总结 在C语言中&#xff0c;**栈&#xff08;Stack&#xff09;和队列&#xff08;Queue&#xff09;**是两种非常重要的数据结构。它们广泛用于各种应用中&#xff0c;比如内存管理、任务调度、表达式求值等。本文将对这两种数据结构进行详细的介…

element ui中el-image组件查看图片的坑

比如说上传组件使用el-image-viewer组件去看&#xff0c;如果用错了&#xff0c;你会发现&#xff0c;你每次只能看一张图片 <template><div><el-upload action"#" list-type"picture-card" :auto-upload"false" :file-list"…

LTSC版本没有微软应用商店怎么办?一招装上

前言 这几天小白在办公电脑上安装了Windows 11 24H2 LTSC版本&#xff0c;哦豁&#xff0c;界面真的清爽。默认桌面上只有一个垃圾桶和EDGE浏览器&#xff0c;就再也没有其他图标了。 &#xff08;吐槽1️⃣&#xff1a;原版系统镜像开机之后不都是这样的吗&#xff1f;这也能…