太强了!腾讯开源!多模态AppAgent自主操作智能手机应用程序!

news2025/1/11 20:44:18

AppAgent是一款基于大型语言模型(LLMs)的新型多模态智能代理框架,专为操作智能手机应用而设计。它结合了GPT-4V的先进视觉理解能力,通过“眼睛”观察手机界面,模仿人类的点击和滑动交互方式来学习操作应用程序。这种方法避免了直接访问系统后端的需求,使其适用于多种应用程序。AppAgent的学习方式类似于人类,需要首先理解各个按钮的功能,然后进行尝试,遇到困难时会寻求帮助或观察示范。这种自主探索或观察人类操作的学习方法不仅提高了学习效率和准确性,也使其能够在执行任务时参考所生成的知识库。

为验证AppAgent的实用性,研究团队对其在10种不同应用中执行的50个任务进行了测试,包括在谷歌地图上输入目的地并设置导航路线、编写和发送电子邮件,以及在Lightroom上进行自动修图等任务。测试结果证明了AppAgent在处理多样化的高级任务,如社交媒体、电子邮件、地图、购物和图像编辑工具等领域的高效能力。

项目地址:https://github.com/mnotgod96/AppAgent
论文地址:https://arxiv.org/abs/2312.13771
在这里插入图片描述
AppAgent具备两种关键的学习模式,旨在增强其学习和适应能力,这也是其核心功能的一部分。

自主探索模式:在这种模式下,AppAgent与应用程序进行直接交互,执行各种操作,如点击按钮、滑动屏幕等。通过这种交互,AppAgent能够观察到不同的反馈和结果,并从中学习如何正确操作应用程序。这种学习方式使得代理能够逐渐积累知识和经验,并建立起关于应用操作的详尽知识库。这种自主探索使AppAgent能够在没有直接指导的情况下独立学习和适应。

观察人类示范模式:在这个模式中,AppAgent专注于观察人类用户操作应用程序的具体方式。通过分析和理解这些示范行为,AppAgent可以学习到正确的操作方法。这种观察人类示范的方法使代理能够迅速学习和适应新的应用程序,因为它可以直接借鉴人类用户的经验和技巧。这一过程类似于大型模型中的人类反馈强化学习(RLHF)。

综合这两种学习模式,AppAgent能够深入理解应用程序的界面结构、功能和操作规则。这样的学习策略不仅提高了代理在不同应用程序间执行复杂任务的能力,还使其在真实世界环境中展现出高效和熟练的操作性能。
在这里插入图片描述
下面是该项目Star趋势图,可以看出关注度一直在上涨。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1376712.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小红书种草类型有哪些,小红书营销攻略

我们都知道小红书是个内容平台。用户来这可以看到各种类型的笔记,从笔记中获取自己想要了解的内容。这也就意味着平台上有着许多种不同的笔记类型。今天我们和大家分享下小红书种草类型有哪些,小红书营销攻略! 1. 明星带货类 顾名思义&#x…

vivado IP Revision Control

2020.2 只需要git 管理 prj.xpr 和 prj.srcs/ https://china.xilinx.com/video/hardware/ip-revision-control.html https://www.xilinx.com/video/hardware/vivado-design-suite-revision-control.html

网络编程的理论基础

文章目录 1 重点知识2 应用层3 再谈 "协议"4 HTTP协议4.1 认识URL4.2 urlencode和urldecode4.3 HTTP协议格式4.4 HTTP的方法4.5 HTTP的状态码4.6 HTTP常见Header4.7 最简单的HTTP服务器 3 传输层4 再谈端口号4.1 端口号范围划分4.2 认识知名端口号(Well-Know Port Nu…

EOCR电机保护器485通讯协议概念

Modbus是由Modicon(现为施耐德电气公司的一个品牌)在1979年发明的,是全球第一个真正用于工业现场的总线协议。为更好地普及和推动Modbus在基于以太网上的分布式应用,目前施耐德公司已将Modbus协议的所有权移交给IDA(In…

IMS中如何区分initial INVITE和re-INVITE?

这里就要先看下Dialog的定义。 dialog是两个UA之间持续一段时间的点对点 SIP关系。dialog通过SIP消息建立,例如对 INVITE request的 2xx response。dialog由Call-ID、local tag和remote tag来区分,也就是Call-ID 、from-tag和to-tag就可以确定一个dialog…

2024年阿里云服务器怎么买便宜?

2024年阿里云服务器租用费用,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年、轻量应用服务器2核2G3M带宽轻量服务器一年61元,2核4G4M带宽轻量服务器一年165元12个月,ECS云服务器e系列2核2G配置99元一年、2核4G服务器30元3个月、2核4G配置…

FineBI实战项目一(17):热门商品Top10分析开发

点击新建组件,创建热门商品Top10组件。 选择柱状图,拖拽cnt(总数)到横轴,拖拽goodName到纵轴。 选择排序规则。 修改横轴和纵轴的标签名称 切换到仪表板,拖拽组件到仪表板 效果如下:

记录汇川:H5U与Fctory IO测试9

主程序: 子程序: IO映射 子程序: 出料程序 子程序: 自动程序 Fctory IO配置: 实际动作如下: Fctory IO测试9

为什么选择CRM系统时,在线演示很重要?

想要知道一款CRM管理系统是否满足企业的需求,操作是否简单,运行是否流畅,最直观的方式就是远程演示。否则,光凭厂商的销售人员介绍一下产品,企业就盲目下单,最后发现功能不匹配,还要赔钱赔时间重…

Sublime Text 3配置 Python 开发环境

Sublime Text 3配置 Python 开发环境 一、引言二、主要内容1. 初识 Sublime Text 32. 初识 Python2. 接入 Python2.1 下载2.2 安装和使用 python2.2 环境变量配置 3. 配置 Python 开发环境4. 编写 Python 代码5. 运行 Python 代码 三、总结 一、引言 Python 是一种简洁但功能强…

2024年主题教育专题民主生活会党员干部个人对照检查六个方面发言材料

每当我们写民主生活会个人发言材料2023六个方面的时候,大部分人脑袋里都是一团乱麻,2023民主生活会个人版的不知道应该写哪些方面的内容,生活会个人发言材料不知道该从哪里开始写,其实遇到这样的情况是很正常的,大家不…

提升测试效率,轻松并行运行测试——探秘Pytest插件pytest-xdist

在软件开发中,测试是确保代码质量的重要一环。然而,随着项目规模的增大,测试用例的数量也随之增多,测试的执行时间可能成为一个瓶颈。为了解决这个问题,Pytest提供了丰富的插件生态系统,其中 pytest-xdist …

用Gradio做一个ai-chat应用

背景 上半年国内的大模型还没遍地开花的时候,笔者花巨资购了两台云服务器及给OpenAI充了20$,给身边的亲友给做了一个可使用的ai-chat。 代码实现 起先笔者 基于openai的api接口文档 API Reference - OpenAI API ,自己编写web后台&#xff0…

低维度向量的 Householder 反射变换 matlab 图示

1, 算法原理 设th 是一个弧度值, 令 Q | cos(th) sin(th) | | sin(th) -cos(th) | S span{ | cos(th/2.0) | } | sin(th/2.0) | x (x1, x2) 是一个平面上的二维向量 计算 y Qx Qx 则,y 是 x 通过有 S 定…

发起人自选-钉钉审批

场景描述 配置一个审批流程,在某些审批节点,不能确定谁具体来审批,所以需要手工选择一个人或者多个人保证流程能得以顺利通过。有些审批流程的做法是,上一个节点来选择指定的人,而钉钉的做法是发起人来指定。 钉钉设…

Find My资讯|AirTag 2或推迟上市,Find My功能十分强大

苹果于 2021 年4月推出了初代 AirTag。苹果已将第二代 AirTag 的推出推迟到 2025 年,目前苹果官方并不急于推出AirTag 2的原因还有AirTag所搭载的搜寻定位功能非常的强大,在市场上几乎没有任何竞争对手可言。 AirTag使用蓝牙和苹果设备的“查找我的”网…

汽车中的ECU、VCU、MCU、HCU

一、ECU是汽车电脑,刷汽车电脑可以提高动力,也可以减低动力,看需求。 简单原理如下。 1.汽车发动机运转由汽车电脑(即ECU)控制。 2.ECU控制发动机的进气量,喷油量,点火时间等,从而…

SQL-DCL-如何用户管理,如何给用户权限?

🎉欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克🍹 ✨博客主页:小小恶斯法克的博客 🎈该系列文章专栏:重拾MySQL 🍹文章作者技术和水平很有限,如果文中出现错误&am…

Leetcode2981. 找出出现至少三次的最长特殊子字符串 I

Every day a Leetcode 题目来源:2981. 找出出现至少三次的最长特殊子字符串 I 解法1:滑动窗口 暴力枚举 滑动窗口枚举窗口内字符相同的字符串,再暴力枚举长度相等的字符串。 代码: /** lc appleetcode.cn id2981 langcpp**…

Redis的实现三:c语言实现平衡二叉树,通过平衡二叉树实现排序集

概况:Redis中的排序集数据结构是相当复杂的独特而有用的东西。它不仅提供了顺序排序数据的能力,而且具有按排名查询有序数据的独特特性。 Redis中的排序集 (Sorted Set)是一种特殊的数据结构,它结合了集合&#xff0…