VLMs之Agent之CogAgent:《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

news2025/1/8 19:59:49

VLMs之Agent之CogAgent:《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

导读:这篇论文介绍了CogAgent,一个专注于图形用户界面 (GUI) 理解导航的视觉语言模型 (VLM)。这篇论文提出了一种新的视觉语言模型 CogAgent,并通过精心设计的数据集和模型架构,有效地解决了 LLM 在 GUI 理解和导航方面的不足,为构建更强大的 AI 智能体提供了新的思路和方法。

>> 背景痛点:当前大型语言模型 (LLM) 擅长处理文本任务,但在理解和交互GUI方面存在不足,限制了其自动化能力。GUI 交互缺乏标准 API,图标、图像、图表和空间关系等重要信息难以用文字直接表达。即使在网页等文本呈现的 GUI 中,canvas 和 iframe 等元素也难以通过 HTML 解析其功能

>> 解决方案:论文提出 CogAgent,一个拥有 180 亿参数的视觉语言模型,专门用于 GUI 理解和导航。它通过结合分辨率和高分辨率图像编码器,支持 1120x1120 分辨率的输入,能够识别微小的页面元素和文本。

>> 核心思路步骤:

● 数据构建:针对 GUI 图像与自然图像分布差异,构建了大规模标注的 GUI 和 OCR 数据集用于持续预训练。数据集包括合成文本渲染、自然图像 OCR 结果和学术文档等,涵盖文本识别、视觉 grounding 和 GUI 图像理解三个方面。特别是,构建了 CCS400K 数据集,包含 40 万个网页截图及其对应的 DOM 元素和渲染框,用于增强模型对 GUI 元素的理解。

● 高分辨率跨注意力模块:为了有效处理高分辨率图像,同时避免计算量过大,设计了一个高分辨率跨注意力模块。该模块采用轻量级的高分辨率图像编码器,并通过跨注意力机制将高分辨率图像特征与 VLM 解码器的每一层融合,在保证效率的同时提升高分辨率图像的理解能力。 这避免了直接使用高分辨率图像导致的计算复杂度呈二次方增长的瓶颈。

● 预训练和微调:CogAgent 首先在构建的数据集上进行预训练,然后在多个 VQA 数据集和 GUI 导航数据集 (Mind2Web 和 AITW) 上进行多任务微调,以提高模型在各种任务上的性能并使其与自由形式的人类指令对齐。

>> 优势:

● 在多个 VQA 基准测试中取得了最先进的性能:包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 等,展现了其强大的视觉理解能力,尤其是在文本丰富的 VQA 任务上。

● 在 GUI 导航任务上超越了基于 LLM 的方法:在 Mind2Web 和 AITW 数据集上,CogAgent 只使用截图作为输入,就超越了使用提取的 HTML 文本的基于 LLM 的方法,证明了 VLM 在 GUI 导航中的优势。

高效处理高分辨率图像:高分辨率跨注意力模块的设计显著降低了处理高分辨率图像的计算成本。

>> 结论和观点:

● CogAgent 是一个强大的 VLM,能够有效地理解和导航 GUI。

● VLM 在构建 GUI 智能体方面具有显著优势,能够超越仅依赖文本信息的 LLM 方法。

● CogAgent 的高分辨率跨注意力模块在处理高分辨率图像方面具有计算效率优势。

● 构建领域特定的预训练数据对于训练 GUI 智能体至关重要。

● 尽管 CogAgent 取得了显著成果,但仍存在一些不足,例如输出坐标精度多图像处理能力等,需要进一步研究。

目录

《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

Abstract

Figure 1:Samples of visual agents generated by CogAgent. More samples are demonstrated in the Appendix.图 1:CogAgent 生成的视觉代理示例。更多示例见附录。

1、Introduction

Conclusion


《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

地址

论文地址:https://arxiv.org/abs/2312.08914

时间

20231214

最新:20241227

作者

清华大学,智谱AI团队

Abstract

People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at this https URL, with a new version of CogAgent-9B-20241220 available at this https URL.

人们在图形用户界面(GUI)上花费了大量时间,例如电脑或智能手机屏幕。像 ChatGPT 这样的大型语言模型(LLM)能够帮助人们完成诸如写邮件之类的任务,但在理解与交互图形用户界面方面却存在困难,这限制了它们提高自动化水平的潜力。在本文中,我们介绍了 CogAgent,这是一个拥有 180 亿参数的视觉语言模型(VLM),专门用于图形用户界面的理解和导航。通过利用低分辨率和高分辨率图像编码器,CogAgent 支持 1120*1120 分辨率的输入,能够识别页面上的微小元素和文本。作为一个通用的视觉语言模型,CogAgent 在五个文本丰富的和四个通用的视觉问答基准测试中达到了最先进的水平,包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE。CogAgent 仅使用截图作为输入,在 PC 和 Android 图形用户界面导航任务——Mind2Web 和 AITW 上的表现优于使用提取的 HTML 文本的基于 LLM 的方法,从而推进了该领域的技术前沿。该模型和代码可在以下 https 网址获取,CogAgent-9B-20241220 的新版本可在以下 https 网址获取。

Figure 1:Samples of visual agents generated by CogAgent. More samples are demonstrated in the Appendix.图 1:CogAgent 生成的视觉代理示例。更多示例见附录

1、Introduction

Autonomous agents in the digital world are ideal assistants that many modern people dream of. Picture this scenario: You type in a task description, then relax and enjoy a cup of coffee while watching tasks like booking tickets online, conducting web searches, managing files, and creating PowerPoint presentations get completed automatically.

Recently, the emergence of agents based on large language models (LLMs) is bringing us closer to this dream. For example, AutoGPT [33], a 150,000-star open-source project, leverages ChatGPT [29] to integrate language understanding with pre-defined actions like Google searches and local file operations. Researchers are also starting to develop agent-oriented LLMs [42, 7]. However, the potential of purely language-based agents is quite limited in real-world scenarios, as most applications interact with humans through Graphical User Interfaces (GUIs), which are characterized by the following perspectives:

>> Standard APIs for interaction are often lacking.

>> Important information including icons, images, diagrams, and spatial relations are difficult to directly convey in words.

>> Even in text-rendered GUIs like web pages, elements like canvas and iframe cannot be parsed to grasp their functionality via HTML.

数字世界中的自主代理是许多现代人梦寐以求的理想助手。想象一下这样的场景:您输入任务描述,然后放松下来,喝杯咖啡,同时看着诸如在线订票、网络搜索、文件管理以及创建 PowerPoint 演示文稿等任务自动完成。

最近,基于大型语言模型(LLM)的代理的出现让我们离这个梦想更近了一步。例如,AutoGPT [33],一个拥有 15 万颗星的开源项目,利用 ChatGPT [29] 将语言理解与诸如谷歌搜索和本地文件操作等预定义动作相结合。研究人员也开始开发面向代理的 LLM [42, 7]。然而,纯语言代理在现实场景中的潜力相当有限,因为大多数应用程序通过图形用户界面(GUI)与人类交互,其特点如下:

>> 通常缺乏标准的交互 API。包括图标、图像、图表和空间关系在内的重要信息很难直接用文字表述清楚。

>> 即使是在像网页这样的文本渲染型图形用户界面(GUI)中,像画布(canvas)和内联框架(iframe)这样的元素也无法通过 HTML 进行解析以理解其功能。

Agents based on visual language models (VLMs) have the potential to overcome these limitations. Instead of relying exclusively on textual inputs such as HTML [28] or OCR results [31], VLM-based agents directly perceive visual GUI signals. Since GUIs are designed for human users, VLM-based agents can perform as effectively as humans, as long as the VLMs match human-level vision understanding. In addition, VLMs are also capable of skills such as extremely fast reading and programming that are usually beyond the reach of most human users, extending the potential of VLM-based agents. A few prior studies utilized visual features merely as auxiliaries in specific scenarios. e.g. WebShop [39] which employs visual features primarily for object recognition purposes. With the rapid development of VLM, can we naturally achieve universality on GUIs by relying solely on visual inputs?

基于视觉语言模型(VLM)的代理有可能克服这些局限性。它们不再仅仅依赖于诸如 HTML [28] 或 OCR 结果 [31] 这样的文本输入,而是直接感知图形用户界面的视觉信号。由于图形用户界面是为人类用户设计的,只要视觉语言模型达到人类级别的视觉理解水平,基于视觉语言模型的代理就能像人类一样有效地工作。此外,视觉语言模型还具备诸如极快的阅读和编程等技能,这些技能通常是大多数人类用户难以企及的,从而进一步拓展了基于视觉语言模型的代理的潜力。此前的一些研究仅在特定场景中将视觉特征作为辅助手段使用,例如 WebShop [39] 主要将视觉特征用于对象识别。随着视觉语言模型的快速发展,我们能否仅依靠视觉输入在图形用户界面中实现普遍适用性呢?

In this work, we present CogAgent, a visual language foundation model specializing in GUI understanding and planning while maintaining a strong ability for general cross-modality tasks. By building upon CogVLM [38]—a recent open-source VLM, CogAgent tackles the following challenges for building GUI agents:

>> Training Data. Most current VLMs are pre-trained on datasets like LAION [32], consisting of natural images on the Web. However, we notice that the GUI images share a different distribution from natural images. We thus construct a large-scale annotated dataset about GUIs and OCR for continual pre-training.

>> High-Resolution vs. Compute. In GUIs, tiny icons and text are ubiquitous, and it is hard to recognize them in commonly-used 224×224 resolution. However, increasing the resolution of input images results in significantly long sequence length in language models. For example, a 1120×1120 image corresponds to a sequence of 6400 tokens if the patch size is 14, demanding excessive training and inference compute. To address this, we design a cross-attention branch that allows for a trade-off between the resolution and the hidden size within a proper computation budget. Specifically, we propose to combine the original large ViT [12] (4.4B parameters) used in CogVLM [38] and a new small high-resolution cross-module (with image encoder of 0.30B parameters) to jointly model visual features.

在这项工作中,我们提出了 CogAgent,这是一种专注于图形用户界面(GUI)理解和规划的视觉语言基础模型,同时在通用跨模态任务方面也具备强大的能力。通过基于最近开源的 CogVLM [38] 构建,CogAgent 解决了构建 GUI 代理时面临的以下挑战:

>> 训练数据。目前大多数视觉语言模型(VLM)都是在诸如 LAION [32] 这样的数据集上进行预训练的,这些数据集包含网络上的自然图像。然而,我们注意到 GUI 图像与自然图像的分布不同。因此,我们构建了一个大规模的关于 GUI 和 OCR 的标注数据集,用于持续预训练。

>> 高分辨率与计算。在 GUI 中,微小的图标和文本随处可见,在常用的 224×224 分辨率下很难识别它们。然而,提高输入图像的分辨率会导致语言模型中的序列长度显著增加。例如,一张 1120×1120 的图像,如果补丁大小为 14,则对应 6400 个标记的序列,这需要大量的训练和推理计算。为了解决这个问题,我们设计了一个交叉注意力分支,能够在适当的计算预算内实现分辨率和隐藏大小之间的权衡。具体而言,我们提议将 CogVLM [38] 中使用的原始大型 ViT [12](44 亿参数)与一个新的小型高分辨率跨模块(图像编码器为 3 亿参数)相结合,以共同建模视觉特征。

Our experiments show that:

>> CogAgent tops popular GUI understanding and decision-making benchmarks, including AITW [31] and Mind2Web [10]. To the best of our knowledge, this is the first time that a generalist VLM can outperform LLM-based methods with extracted structured text.

>> Though CogAgent focuses on GUIs, it achieves state-of-the-art generalist performance on nine visual question-answering benchmarks including VQAv2 [1], OK-VQA [23], TextVQA [34], ST-VQA [4], ChartQA [24], infoVQA [26], DocVQA [25], MM-Vet [41], and POPE [19].

>> The separated design of high- and low-resolution branches in CogAgent significantly lows the compute cost for consuming high-resolution images, e.g., the number of the floating-point operations (FLOPs) for CogAgent-18B with 1120×1120 inputs is less than half that of CogVLM-17B with its default 490×490 inputs.

我们的实验表明:

>> CogAgent 在流行的图形用户界面理解和决策基准测试中名列前茅,包括 AITW [31] 和 Mind2Web [10]。据我们所知,这是首次有通用视觉语言模型在提取结构化文本的情况下超越基于大型语言模型的方法。

>> 尽管 CogAgent 主要关注图形用户界面,但它在包括 VQAv2 [1]、OK-VQA [23]、TextVQA [34]、ST-VQA [4]、ChartQA [24]、infoVQA [26]、DocVQA [25]、MM-Vet [41] 和 POPE [19] 在内的九个视觉问答基准测试中达到了最先进的通用性能。

>> CogAgent 中高分辨率和低分辨率分支的分离设计显著降低了处理高分辨率图像的计算成本,例如,CogAgent-18B 处理 1120×1120 输入的浮点运算次数(FLOPs)不到 CogVLM-17B 处理其默认 490×490 输入的一半。

CogAgent is open-sourced at https://github.com/THUDM/CogVLM, with a new version of CogAgent-9B-20241220 available at https://github.com/THUDM/CogAgent. It represents an effort to promote the future research and application of AI agents, facilitated by advanced VLMs.

CogAgent 已在 https://github.com/THUDM/CogVLM 开源,CogAgent-9B-20241220 的新版本可在 https://github.com/THUDM/CogAgent 获取。它代表了借助先进的视觉语言模型推动未来 AI 代理研究和应用的努力。

Conclusion

We introduce CogAgent, a VLM-based GUI agent with enhanced pre-train data construction and efficient architecture for high-resolution input. CogAgent achieves state-of-the-art performance on a wide range of VQA and GUI benchmarks, and will be open-sourced. CogAgent is an initial exploration of VLM-based GUI agent, and still has some shortcomings, e.g. imprecise output coordinates and incapability of processing multiple images, necessitating further research.

我们推出了 CogAgent,这是一款基于视觉语言模型(VLM)的图形用户界面(GUI)代理,具有增强的预训练数据构建和高效的架构,能够处理高分辨率输入。CogAgent 在广泛的视觉问答(VQA)和 GUI 基准测试中取得了最先进的性能,并将开源。CogAgent 是基于 VLM 的 GUI 代理的初步探索,仍存在一些不足之处,例如输出坐标不够精确以及无法处理多张图片,这需要进一步的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2273400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML+CSS+JS制作中华传统文化主题网站(内附源码,含5个页面)

一、作品介绍 HTMLCSSJS制作一个中华传统文化主题网站,包含首页、文化艺术页、传统工艺页、文化遗产页、关于我们页等5个静态页面。其中每个页面都包含一个导航栏、一个主要区域和一个底部区域。 二、页面结构 1. 顶部导航区 包含网站 Logo、主导航菜单&#xff…

笔记-使用ffmpeg产生rtsp视频流,然后用进行VLC播放

笔记-使用ffmpeg产生rtsp视频流,然后用进行VLC播放 1.软件配置1.1下载安装好**ffmpeg**1.2使用EasyDarwin创建RTSP服务器 2.FFmpeg找本地摄像头名字3.FFmpeg推流命令3.1使用VLC实现拉流 1.软件配置 1.1下载安装好ffmpeg ffmpeg官网 本地下载 1.2使用EasyDarwin创…

【竞技宝】CS2:HLTV2024职业选手排名TOP8-broky

北京时间2025年1月7日,HLTV年度选手排名正在持续公布中,今日凌晨正式公布了今年的TOP8为FAZE战队的broky。 选手简介 broky是一位来自拉脱维亚的职业CS选手,现年23岁。2018年7月,broky获得了FPL资格,连续几季在榜上前5。他的首次赛场留名是跟随拉脱维亚本土战队Wolsung出征BES…

Java到底是值传递还是引用传递????

在搞懂这个问题之前, 我们要首先了解什么是值传递, 什么是引用传递? 值传递: 传递的是数据的副本,修改副本不会影响原始数据。引用传递: 传递的是数据的引用(地址),修改引用会直接影响原始数据. 也就是说,值传递和引…

Vue3国际化多语言的切换

参考链接: link Vue3国际化多语言的切换 一、安装 vue-i18n 和 element-plus vue-i18n 是一个国际化插件,专为 Vue.js 应用程序设计,用于实现多语言支持。它允许你将应用程序的文本、格式和消息转换为用户的首选语言,从而提供本地化体验。…

2024AAAI SCTNet论文阅读笔记

文章目录 SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation摘要背景创新点方法Conv-Former Block卷积注意力机制前馈网络FFN 语义信息对齐模块主干特征对齐共享解码头对齐 总体架构backbone解码器头 对齐损失 实验SOTA效果对比Cit…

xss-labs关卡记录15-20关

十五关 随便传一个参数,然后右击查看源码发现,这里有一个陌生的东西,就是ng-include。这里就是: ng-include指令就是文件包涵的意思,用来包涵外部的html文件,如果包涵的内容是地址,需要加引号。…

计算机网络 (30)多协议标签交换MPLS

前言 多协议标签交换(Multi-Protocol Label Switching,MPLS)是一种在开放的通信网上利用标签引导数据高速、高效传输的新技术。 一、基本概念 MPLS是一种第三代网络架构技术,旨在提供高速、可靠的IP骨干网络交换。它通过将IP地址映…

打造三甲医院人工智能矩阵新引擎(四):医疗趋势预测大模型篇 EpiForecast与DeepHealthNet合成应用

一、引言 1.1 研究背景与意义 在当今数字化时代,医疗领域积累了海量的数据,涵盖电子病历、医学影像、基因序列、临床检验结果等多源异构信息。这些数据蕴含着疾病发生发展、治疗反应、疫情传播等规律,为医疗趋势预测提供了数据基础。准确的医疗趋势预测能辅助医疗机构提前…

小白学Pytorch

小白学Pytorch 发现一个比较好的教程,对于自己来说比较合适,适合从零开始的教程。 1、搭建一个简单的网络 https://www.cnblogs.com/PythonLearner/p/13587092.html 搭建网络这步说的比较清楚: 我们使用nn包中的Sequential搭建网络&#…

基于RedHat9部署WordPress+WooCommerce架设购物网站

系统版本信息:Red Hat Enterprise Linux release 9.2 (Plow) WordPress版本信息:wordpress-6.6.2-zh_CN WooCommerce版本信息:woocommerce.9.5.1 环境架构:LNMP(RedHat9nginx1.20.1PHP 8.0.27MySQL8.0.30) …

Spring源码分析之事件机制——观察者模式(一)

目录 事件基类定义 事件监听器接口 事件发布者接口及实现 事件广播器实现 小小总结 Spring源码分析之事件机制——观察者模式(一)-CSDN博客 Spring源码分析之事件机制——观察者模式(二)-CSDN博客 Spring源码分析之事件机制…

JDK、JRE、JVM三者的关系、JDK8的新特性、JVM内存结构,堆栈的区别

1.JDK、JRE、JVM三者的关系 JDK (Java Development Kit)----Java开发工具包,用于Java程序的开发。 JRE (Java Runtime Environment)----Java运行时环境,只能运行.class文件,不能编译。 JVM (Java Virtual Machine)----Java虚拟…

【Linux】文件的压缩与解压

目录 gzip和 gunzip bzip2 和 bunzip2(特点和gzip相似) xz和unxz(特点和gzip相似) zip 和 unzip tar gzip和 gunzip 特点:只能对单个的普通文件进行压缩 不能进行归档,压缩或解压后的源文件都不存在 压缩后所生成的压缩格式是.gz格式 压缩&…

LInux单机安装Redis

1. 安装gee工具包 由于Redis是基于c语言编写的所以安装的时候需要先安装gee以及gcc的依赖,yum云用不了可以看一下这个 linux 替换yum源镜像_更换yum镜像源-CSDN博客 yum install -y gcc tcl 2. 添加redis的压缩包 3. 上传到Linux 上传到 /usr/local/src 目录、这个目录一般用于…

VSCode 使用鼠标滚轮控制字体

一、 文件 | 首选项 | 设置 二、单击在 settings.json中编辑 "editor.mouseWheelZoom": true 注注注意:保存哦!ctrlS 三、测试 按住ctrl鼠标滚轮,控制字体大小

enzymejest TDD与BDD开发实战

一、前端自动化测试需要测什么 1. 函数的执行逻辑,对于给定的输入,输出是否符合预期。 2. 用户行为的响应逻辑。 - 对于单元测试而言,测试粒度较细,需要测试内部状态的变更与相应函数是否成功被调用。 - 对于集成测试而言&a…

TCP通信原理学习

TCP三次握手和四次挥手以及为什么_哔哩哔哩_bilibili

空间不足导致Oracle集群内存使用率暴增

一、现象 操作系统内存使用率告警,已达到98%,,告警内容如下: 【全景监控:Oracle主机内存使用监控】 【主机名】:XXXXX11 【主机IP】主机IP:*.126.15 【告警内容】当前内存使用率为98.9%,超警…

嵌入式入门Day38

C Day1 第一个C程序C中的输入输出输出操作coutcin练习 命名空间使用方法自定义命名空间冲突问题 C对字符串的扩充C风格字符串的使用定义以及初始化C风格字符串与C风格字符串的转换C风格的字符串的关系运算常用的成员变量输入方法 布尔类型C对堆区空间使用的扩充作业 第一个C程序…