论文阅读：三星-TinyClick

论文阅读：三星-TinyClick

news2025/4/17 6:15:28

《Single-Turn Agent for Empowering GUI Automation》
赋能GUI自动化的单轮代理

摘要

我们介绍了一个用于图形用户界面（GUI）交互任务的单轮代理，使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。

它在Screenspot和OmniAct上表现出强大的性能，同时保持了0.27B参数的紧凑规模和最低的延迟。

相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少，但我们表明，MLLM增强可能产生更好的结果。

在Screenspot和OmniAct平台上，我们的模型超过了专门针对GUI的模型（如SeeClick）和大模型（如GPT-4V）。

模型：hugging-face.co/Samsung/TinyClick.

图

在这里插入图片描述

下游任务的示例命令。TinyClick 接收屏幕截图和用户指令，然后预测 UI 元素的边界框和动作。

训练情况

模型开源： hugging-face.co/Samsung/TinyClick
Florence2：一个定位和检测模型、通过同时使用带注释的图像和自然语言解释，允许适应跨领域。

训练方式

多任务训练

任务类别和目的

我们使用了公开可用的语料库来训练单轮对话智能体，这些语料库主要包含命令和位置（边界框）。
为了准备训练数据，我们使用了现有的MLLM注解或软件元数据，并且也使用我们自己的MLLM管道对数据进行了重新注解。
元素的描述、期望、位置和用途主要基于MLLM注解，而对象检测则使用了Android XML UI元数据。
实验验证了我们的方法的有效性，用更小、更快的模型超越了当前的基线。

任务名称

1.Element captioning
根据屏幕上的位置生成UI元素的描述、目的或操作预期。

2.Element location
根据视觉描述定位UI元素

3.Object detection
检测所有可点击的UI元素

4.Agent action
根据用户指令（command）定位要点击的UI元素或要点击的位置。

5.QA
根据屏幕内容QA

训练数据集

1.WaveUI
2.AMEX
3.Mind2Web
4.GUI Odyssey（not in train）
5.GUI Course
6.AndroidControl
7.ScreenQA
8.WebUI（not use）
9.OmniAct（validation set）

在这里插入图片描述

MLLM注解模型标注的方式

InternVL2-26B 标注数据 GUI Course的例子：

你的任务是生成一个预期 expectation ——与红色方框中的UI元素交互后会发生什么。

也就是说

输入是 image、prompt、包含command和action的input json
输出是 output json

在这里插入图片描述

训练任务示例

同一个UI元素可以有多个不同的任务，类似 grounding和widget caption的意思

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2228416.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Tomcat servlet response关于中文乱码的经验

Tomcat servlet response关于中文乱码的经验

前言最近修改老项目项目，使用zuul网关返回的中文内容乱码了，如果使用GBK或者GB2312编码确正常显示，稍微实验了一下，发现里面很多细节，毕竟Springboot对我们做了很多事情，而且当我们使用不同的模式会出现很…

阅读更多...

服务器的免密登录和文件传输

服务器的免密登录和文件传输

在天文学研究中，通常会采用ssh登录服务器，把复杂的计算交给服务器，但是如果你没有进行额外的配置，那么登录服务器，以及和服务器进行文件传输，每次都要输入账号和密码，比较不方便，Win…

阅读更多...

Windows Server NTFS磁盘变RAM的处理过程

Windows Server NTFS磁盘变RAM的处理过程

问题描述客户服务器的磁盘数据爆满，需要将磁盘进行扩容，因为是虚拟机所以先在虚拟化平台上将原来的磁盘空间改大，再进入系统，在磁盘管理器上将需要扩容的磁盘进行扩展。扩展完后系统报文件系统有问题，扩容的磁盘容量…

阅读更多...

No.23 笔记 | WEB安全 - 任意文件漏洞 part 5

No.23 笔记 | WEB安全 - 任意文件漏洞 part 5

本文全面且深入地探讨了文件上传漏洞相关知识。从基础概念出发，清晰地阐述了文件上传漏洞的定义及其产生的本质原因，同时列出了该漏洞成立的必要条件。详细说明了文件上传漏洞可能对服务器控制权、网站安全以及业务运营带来的严重危害。文中还深入解析了…

阅读更多...

[mysql]子查询的概述和分类及单行子查询

[mysql]子查询的概述和分类及单行子查询

子查询引入查询的基本结构已经给大家了,子查询里面也是有一些新的内容,子查询其实就是在查询中嵌套另一个查询,叫嵌套查询可能大家更容易理解一点..,类似与FOR循环和FOR循环的嵌套,这一章是我们查询的最难的部分,大家难度是查询的顶峰,多表查询和子查询是非常重要,SQL优化里…

阅读更多...

$EDA --软件开发之路$

EDA --软件开发之路

之前一直在一家做数据处理的公司，从事c开发，公司业务稳定，项目有忙有闲，时而看下c，数据库，linux相关书籍，后面跳槽到了家eda公司，开始了一段eda开发之路。 eda 是 electric design …

阅读更多...

【移动应用开发】使用多媒体--通知/播放音频/视频

【移动应用开发】使用多媒体--通知/播放音频/视频

目录一、具体步骤二、运行截图 1. 开启通知权限 2. 播放音乐 3. 播放视频三、源代码 1. activity_main.xml 2. activity_video_player.xml 3. activity_notification.xml 4. 一些配置 5. MainActivity 6. VideoPlayerActivity 7. NotificationActivity 8. And…

阅读更多...

代码备份管理 —— Git实用操作

代码备份管理 —— Git实用操作

目录 Git那些事版本控制系统git环境搭建运行bashbash命令行git账号全局设置本地仓库的存在远程仓库的存在git管理基本流程git仓库的文件夹常用git命令工作区变为git仓库add命令使用branch命令使用checkout命令使用commit命令使用仓库状态查询代码变更后提交删除或恢复文件管理…

阅读更多...

windows下安装及使用labelme

windows下安装及使用labelme

1.进入Anaconda Prompt对话窗口输入：conda create --namelabelme python3.6 # 创建一个叫labelme的环境 conda create --namelabelme python3.6 2.激活新建的环境，进入输入：activate labelme #激活环境 activate labelme 3.安装pyqt5 …

阅读更多...

集群渲染是一台节点输出吗？它是云渲染农场吗

集群渲染是一台节点输出吗？它是云渲染农场吗

集群渲染并非单一节点的输出，而是一种分布式计算技术，它通过多台计算机协同工作来加速3D渲染过程。这种技术常被视作云渲染农场的前身，两者在提高渲染效率方面有着相似之处。接下来，让我们深入了解集群渲染与云渲染农场之间的联系…

阅读更多...

建筑行业内部知识库的重要性与实施策略

建筑行业内部知识库的重要性与实施策略

在当今瞬息万变的建筑行业中，企业面临着前所未有的竞争挑战。为了在市场中保持竞争力，建筑企业不仅需要拥有先进的技术和设备，还必须具备高效的知识管理能力。内部知识库，作为知识管理的核心工具，正逐渐成为建筑企业提…

阅读更多...

【Fastjson反序列化漏洞：深入了解与防范】

【Fastjson反序列化漏洞：深入了解与防范】

一、Fastjson反序列化漏洞概述 Fastjson是一款高性能的Java语言JSON处理库，广泛应用于Web开发、数据交换等领域。然而，由于fastjson在解析JSON数据时存在安全漏洞，攻击者可以利用该漏洞执行任意代码，导致严重的安全威胁。二、F…

阅读更多...

数据结构 —— AVL树

数据结构 —— AVL树

目录 1. AVL的概念 2.AVL树的结构 3.AVL树的插入 3.1 平衡因子更新 4. 旋转 4.1 旋转的原则 4.2 右单旋 4.2.1 右单旋代码实现 4.3 左单旋 4.3.1 左单旋代码实现 4.4 左右双旋 4.4.1 左右双旋代码实现 4.5 右左双旋编辑 4.5.1 右左双旋代码实现 5. AVL树的判断…

阅读更多...

[GXYCTF 2019]Ping Ping Ping 题解(多种解题方式)

[GXYCTF 2019]Ping Ping Ping 题解(多种解题方式)

知识点: 命令执行 linux空格绕过反引号绕过变量绕过 base64编码绕过打开页面提示 "听说php可以执行系统函数？我来康康" 然后输入框内提示输入 bjut.edu.cn 输入之后回显信息,是ping 这个网址的信息输入127.0.0.1 因为提示是命令…

阅读更多...

Python小游戏16——开心消消乐

Python小游戏16——开心消消乐

运行结果显示代码如下 import pygame import random # 初始化pygame pygame. init() # 定义一些常量 WIDTH 600 HEIGHT 600 NUM_GRID8 GRID_SIZE WIDTH // NUM_GRID FPS 30 # 定义颜色 WHITE (255， 255，255) BLACK(0，0，0) COL…

阅读更多...

基于树莓派的安保巡逻机器人--（一、快速人脸录入与精准人脸识别）

基于树莓派的安保巡逻机器人--（一、快速人脸录入与精准人脸识别）

目录零、前言一、人脸检测二、人脸识别 1、采集人脸 2、训练人脸识别模型 3、人脸识别应用零、前言随着智能安防需求的增长，基于人工智能和物联网的安保系统逐渐成为趋势。树莓派因其低成本、高扩展性等特点，成为很多AI项目的理想平台。本文将为大…

阅读更多...

HTB：BoardLight[WriteUP]

HTB：BoardLight[WriteUP]

目录连接至HTB服务器并启动靶机 1.How many TCP ports are listening on BoardLight? 2.What is the domain name used by the box? 3.What is the name of the application running on a virtual host of board.htb? 4.What version of Dolibarr is running on Board…

阅读更多...

react18中redux-saga实战系统登录功能及阻塞与非阻塞的性能优化

react18中redux-saga实战系统登录功能及阻塞与非阻塞的性能优化

redux-saga中的effect常用的几个是有区分出阻塞与非阻塞的，这里主要看下call和fork两者的区别。实现效果非阻塞的task执行，不用等到登录成功后请求的list接口完成，点击退出按钮可以立即退出阻塞task的执行，必须等到登录成功…

阅读更多...

【JavaEE】【多线程】进阶知识

【JavaEE】【多线程】进阶知识

目录一、常见的锁策略1.1 悲观锁 vs 乐观锁1.2 重量级锁 vs 轻量级锁1.3 挂起等待锁 vs 自旋锁1.4 普通互斥锁 vs 读写锁1.5 可重入锁 vs 不可重入锁1.6 不公平锁 vs 公平锁二、synchronized特性2.1 synchronized的锁策略2.2 synchronized加锁过程2.3 其它优化措施三、CAS3.…

阅读更多...

炫酷的登录框!(附源码)

炫酷的登录框!(附源码)

大家想看什么前端效果请留言预览效果源码 <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>登录页…

阅读更多...

推荐文章

最新文章