SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents论文学习

news2024/11/18 9:32:35

首先是惯例强调一下自己的工作是基于视觉的,不是那种拿一个html文件或者UI结构树给模型让他操作的工作。然后提出了一个很有意思的观点,认为Grounding能力(定位能力)对模型表现的影响非常大。

主要novelty就这几个:

我们的主要贡献如下:•我们开发了一个统一的可视化GUI代理SeeClick,它仅依靠界面截图在不同的GUI平台上执行点击和打字操作。

•我们前瞻性地探索了可视化GUI代理的GUI基础,并通过提出的GUI基础预培训策略增强了SeeClick。

•我们创建了一个逼真的GUI基础基准ScreenSpot,包含来自各种GUI平台的1200多条指令。

•ScreenSpot和三个代理任务的实验结果表明,增强代理的接地能力是提高下游代理任务性能的关键。

接下来文章提到了grounding能力的一些细节。文章提到从前的很多工作会把图像分成很多部分然后训练模型识别目标在哪一个块里。本文则要求模型直接用自然语言方式输出目标,然后计算与真实结果的交叉熵。

至于项目中构建的数据集ScreenSpot,作者是网络爬取了web数据,从开源数据集中充足了一部分手机的轨迹数据,还照搬了一部分开源数据(LLAVA的常规数据)。

“Web UI具有跨网站的各种布局和设计风格,是训练LVLM在不同GUI上下文中的一般识别和基础能力的理想选择。我们从最新的Common Crawl存储库中收集了大约30万个网页,作为我们的web UI培训数据。对于每个网页,我们从HTML代码中收集两种类型的元素,如图3所示:(1)显示可见文本内容的元素;以及(2)具有特殊“title”属性的元素,在悬停时显示描述性文本。这种方法确保我们收集一系列可交互的元素y及其相应的指令x,同时包含广泛的文本和图标元素。除了基础任务p(y|s,x)外,我们还包括基于坐标预测文本描述的web OCR任务p(x|s,y)。”

“移动数据。对于移动UI,我们包括三种类型的数据:小部件字幕、移动UI基础和移动UI摘要。小部件字幕数据集为移动UI元素提供语言描述;例如,音乐播放器界面上播放按钮的描述“播放音乐”。”

最后还照搬了一部分开源数据(LLAVA的常规数据)

模型训练方面,文章的基础模型是Qwen-VL,在上面的数据集训练了1个epoch,用了LoRA。

实验部分,首先实验定位能力,与各种模型battle 巴拉巴拉,然后又是在三大件上面进行传统功夫GUI agent实力比拼,结果如下:

接下来是一些训练细节,做ppt的时候再看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2162349.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 解析 html

一、场景分析 假设有如下 html 文档&#xff1a; 写一段 python 脚本&#xff0c;解析出里面的数据&#xff0c;包括经度维度。 <div classstorelist><ul><li lng"100.111111" lat"10.111111"><h4>联盟店1</h4><p>…

单片机带隙电压基准电路

单片机带隙电压基准电路 一、带隙电压基准电路概述 带隙电压基准电路在单片机中占据着至关重要的地位。它能够为各种模拟集成电路提供稳定的参考电压&#xff0c;确保电路的正常运行。例如&#xff0c;在高精度的比较器中&#xff0c;带隙电压基准电路可以提供一个精确的参考…

电源芯片测试系统如何完成欠压关断/欠压关断滞后?

电源芯片欠压关断测试原理&#xff1a; 在测试芯片的欠压关断过程中我们会测试到芯片的启动电压和欠压关断滞后电压&#xff0c;所以这三个指标可以一起进行测量;而测试这些指标我们需要一台电源和数字万用表。 电源芯片欠压关断的测试需要将电源的接入芯片进行供电&#xff…

稳定为恒定功率负载供电的 DC/DC 转换器

恒定功率负载 (CPL) 存在于电动汽车、电信设备、电力电子设备等各种应用中。这些 CPL 是无论施加的电压或电流如何变化都保持恒定功耗的电气负载。与呈现恒定电阻的电阻负载不同&#xff0c;CPL 具有随电压或电流变化而变化的动态阻抗&#xff0c;即&#xff0c;当负载两端的电…

Vue的工程化和element快速入门

vue项目的创建&#xff1a; vue项目的启动方式&#xff1a; vue项目开发流程&#xff1a; 代码示例&#xff1a; <!-- <script>//写数据export default{data(){return{msg: 上海}}} </script> --><script setup>import {ref} from vue;//调用ref函数&…

网页护眼宝——全方位解析 Chrome Dark Reader 插件

网页护眼宝——全方位解析 Chrome Dark Reader 插件 1. 基本介绍&#xff1a;Chrome 插件的力量与 Dark Reader 的独特之处 随着现代浏览器的功能越来越强大&#xff0c;Chrome 插件为用户提供了极大的定制化能力。从广告屏蔽、性能优化到页面翻译&#xff0c;Chrome 插件几乎…

python如何匹配换行符

如下所示&#xff1a; p1 r(?<<div class"ds_cr">)(.*?)(?<div id"pageurl">) #这样采集html时出错&#xff0c;采集不到数据&#xff0c;正则中.是不能匹配 换行符&#xff0c;改成如下&#xff1a; p1 r(?<<div class"d…

Nanite缺失项目设置问题

今天新建虚幻引擎项目时 , 编辑器右下角收到这个提示 , 缺失项目设置&#xff01; 使用Nanite资产需要Shader Model 6&#xff08;SM6&#xff09;。请在此启用&#xff1a; 项目设置-> 平台-> Windows->D3D12目标着色器格式如未启用&#xff0c;Nanite资产将无法正常…

【研赛F题成品论文】24华为杯数学建模研赛F题成品论文+可运行代码丨免费分享

2024华为杯研究生数学建模竞赛F题精品成品论文已出&#xff01; F 题 X射线脉冲星光子到达时间建模 摘要 X射线脉冲星具有高度稳定的自转周期&#xff0c;被广泛应用于深空导航和时间基准的维护。本文针对Crab脉冲星&#xff0c;建立了光子到达时间的数学模型&#xff0c;并模…

初始MYSQL数据库(7)—— 视图

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a; MYSQL 引言 前面我们学习MySQL数据库时&#xff0c;创建表之后&#xff0c;会在表中插入数据&#xff0c;在需要的时候&#xff0c;也会进行…

Qt-QComboBox输入类控件(31)

目录 描述 核心方法 核心信号 使用 代码方式 界面操作方式 动态使用 如何看待输入输出 String与QString互相转化 描述 一个可以下拉的输入框 核心方法 addItem(constQString&)添加⼀个条⽬currentIndex()获取当前条⽬的下标 从0开始计算.如果当前没有条⽬被选中…

MySQL的msi版本9.0在安装过程总结和需要注意的地方

下载 参考文档 [官方包快速下载]&#xff08;https://dev.mysql.com/downloads/mysql/&#xff09; 使用zip文件安装可参考&#xff0c;这种直接把zip安装包解压到想要放的地方&#xff0c;并安装其中的方式一步步修改数据地址等配置即可。 个人使用了msi的安装文件 msi版本…

Vue3:快速生成模板代码

目录 一.模板代码 1.提供基础结构 2.定义组件名称 3.初始化数据和方法 4.应用样式 5.提高开发效率 二.操作 1.点击右下角设置按钮选择代码片段 2.输入vue.json&#xff0c;打开vue.json文件 3.构造模板 4.模板代码 5.使用 6.效果 一.模板代码 Vue3快速生成模板代…

通过document获取节点元素

1.层级节点 <ul><li id"li1">1</li><li>2</li><li id"li3">3</li><li>4</li><li>5</li></ul><script>//获取id名为li1的元素赋值给li1let li1document.getElementById(li…

为什么越来越多的视频监控AI分析做到了摄像头上?

在安防行业&#xff0c;视频监控已经非常广泛&#xff0c;是无可替代的基础信息化设施。早期的视频监控只是简单的通过摄像机对画面进行记录&#xff0c;然后通过记录的画面服务入侵探测和震慑burglars。随着近年来人工智能技术的兴起&#xff0c;人们越来越希望利用AI计算机的…

【Go】Go 环境下载与安装教程(Windows系统)

引言 Go&#xff0c;也被称为Golang&#xff0c;是一种静态类型&#xff0c;编译型的编程语言&#xff0c;由Google设计和开发。Go语言的设计目标是“解决软件开发中的一些问题”&#xff0c;特别是在大规模软件系统的构建和维护方面。 下载安装包 打开官网下载页面&#xff…

排序----基数排序、桶排序(附排序总结)

一、基数排序 从个位开始往高位不断排序&#xff0c;把各个数字按每一位的顺序排起来。 二、桶排序 建立一个指针数组&#xff0c;指针指向一个链表&#xff0c;然后再对链表排序。永远只建立一个筒&#xff0c;只适用于全是两位数或者全是三位数的排序。 三、总结 归并排序当…

如何把pdf转换成word文档?6种转换方法看完就学会

在日常工作和学习中&#xff0c;PDF文件和Word文档可以说是两种非常常见的文件格式了。然而&#xff0c;PDF文件的不可编辑性常常让我们感到困扰&#xff0c;在遇到需要编辑修改内容的PDF文件时&#xff0c;就需要将其转换成Word文档来便于编辑修改&#xff0c;那么该怎么转换呢…

并发编程。

进程 1.什么是进程&#xff1f; 进程是具有独立功能的程序关于某个数据集合上的一次运行活动&#xff0c;是系统进行资源分配和调度的 独立单位。进程是可与其他程序并发执行的程序&#xff0c;在一个数据集合上的运行过程。它是系统进行 资源分配和调度的一个独立单位。 2.进…

vivado sdk 烧写到SD卡

首先在bd文件中使能SD卡 实际根据实际原理图设置 烧写流程和烧写FLASH一样&#xff0c;产生boot.bin文件&#xff0c;只需要将BOOT.bin文件复制到SD卡里&#xff0c;将SD卡插入板卡&#xff0c;然后设置SD卡启动即可 需要注意的是&#xff1a;SD卡文件系统必须格式化为FAT32…