CogAgent：带 Agent 能力的视觉模型来了

CogAgent：带 Agent 能力的视觉模型来了

news2026/2/12 21:54:01

之前我们分享过智谱AI新一代多模态大模型 CogVLM，该模型在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合，其中 CogVLM-17B 在 14 个多模态数据集上取得最好或者第二名的成绩。

12月15日，基于 CogVLM，提出了视觉 GUI Agent，并研发了多模态大模型CogAgent。

其中，视觉 GUI Agent 能够使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而做出规划和决策。

而多模态模型 CogAgent，可接受1120×1120的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent等多种能力，在9个经典的图像理解榜单上（含VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE等）取得了通用能力第一的成绩，并在涵盖电脑、手机的GUI Agent数据集上（含Mind2Web，AITW等），大幅超过基于LLM的Agent，取得第一。

GitHub仓库:

论文：https://arxiv.org/abs/2312.08914
Demo：http://36.103.203.44:7861/
代码：https://github.com/THUDM/CogVLM
模型：
* Huggingface：https://huggingface.co/THUDM/cogagent-chat-hf
* 魔搭社区：https://modelscope.cn/models/ZhipuAI/cogagent-chat

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

建了技术交流群&星球！想要资料、进交流群的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司，即可。然后就可以拉你进群了。

方式①、添加微信号：mlc2060，备注：大模型资料 or 技术交流
方式②、微信搜索公众号：机器学习社区，后台回复：大模型资料 or 技术交流

在这里插入图片描述

在这里插入图片描述

一、视觉 GUI Agent

基于语言预训练模型（LLM）的Agent是当下热门的研究话题，具备良好的应用前景。但是，一个严重的问题是，受限于LLM的模态，它只能接受语言形式的输入。

以网页agent为例，WebAgent [3] 等工作将网页HTML连同用户目标（例如“Can you search for CogAgent on google”）作为LLM的输入，从而获得LLM对下一步动作的预测（例如点击按钮，输入文本）。

然而，一个有趣的观察是，人类是通过视觉与GUI交互的。

比如，面对一个网页，当给定一个操作目标时，人类会先观察他的GUI界面，然后决定下一步做什么；与此同时，GUI天然是为了人机交互设计的，相比于HTML等文本模态的表征，GUI更为直接简洁，易于获取有效信息。

也就是说，在GUI场景下，视觉是一种更为直接、本质的交互模态，能更高效完整提供环境信息；更进一步地，很多GUI界面并没有对应的源码，也难以用语言表示。因此，若能将大模型改进为视觉Agent，将GUI界面以视觉的形式直接输入大模型中用于理解、规划和决策，将是一个更为直接有效、具备极大提升空间的方法。

对此，我们提出了多模态大模型CogAgent，可以实现基于视觉的GUI Agent。下图展现了其工作路径与能力。

CogAgent模型同时接受当前GUI截图（图像形式）和用户操作目标（文本形式，例如“search for the best paper in CVPR 2023”）作为输入，就能预测详细的动作，和对应操作元素的位置坐标。

二、模型结构

CogAgent的模型结构基于CogVLM [2]。

为了使模型具备对高分辨率图片的理解能力，可以看清~720p的GUI屏幕输入，我们将图像输入的分辨率大幅提升至1120×1120（以往的模型通常小于500*500）。

然而，分辨率的提升会导致图像序列急剧增长，带来难以承受的计算和显存开销——这也是现有多模态预训练模型通常采用较小分辨率图像输入的原因之一。

对此，我们设计了轻量级的“高分辨率交叉注意力模块”，在原有低分辨率大图像编码器（4.4 B）的基础上，增加了高分辨率的小图像编码器(0.3 B），并使用交叉注意力机制与原有的VLM交互。在交叉注意力中，我们也使用了较小的hidden size，从而进一步降低显存与计算开销。

结果表明，该方法可以使模型成功理解高分辨率的图片，并有效降低了显存与计算开销。

在消融实验中，我们比较了该结构与CogVLM原始方法的计算量。结果表明，当分辨率提升时，使用文中提出的方案（with cross-module，橙色）将会带来极少量的计算量增加，并与图像序列的增长成线性关系。

特别的，1120×1120分辨率的CogAgent的计算开销（FLOPs），甚至比490×490分辨率的CogVLM的1/2还要小。在INT4单卡推理测试中，1120×1120分辨率的CogAgent模型占用约12.6GB的显存，相较于224×224分辨率的CogVLM仅高出不到2GB。

三、实验

GUI Agent能力

在电脑、手机等GUI Agent的数据集上，CogAgent具有较大的优势，大幅超过所有基于LLM的Agent。

1、在网页Agent数据集Mind2Web上的性能

2、在手机Agent数据集AITW上的性能

图像理解综合能力

CogAgent在图像理解的综合能力也有相当的提升，在9个经典的图像理解榜单上（含VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE等）取得了通用能力第一的成绩。

3、在VQA数据集上的通用性能，涵盖常识、OCR、图表、文档等方面：

4、在多模态大模型通用榜单MM-VET，POPE上的结果：

下面我们展示一个《原神》场景的实例：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1332183.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【小沐学写作】Docsify制作在线电子书、技术文档（Docsify + Markdown + node）

【小沐学写作】Docsify制作在线电子书、技术文档（Docsify + Markdown + node）

文章目录 1、简介2、安装2.1 node2.2 docsify-cli 3、配置3.1 初始化3.2 预览效果3.3 加载对话框3.4 更多页面3.5 侧栏3.6 自定义导航栏结语 1、简介 https://docsify.js.org/#/?iddocsify 一个神奇的文档网站生成器。简单轻巧没有静态构建的 html 文件多个主题 Docsify…

阅读更多...

第11章 GUI Page426~427 步骤七设置直线前景色

第11章 GUI Page426~427 步骤七设置直线前景色

运行效果： 关键代码： 接口类 IItem中新增29,30行两个设置前景色纯虚方法 //item_i.hpp 抽象“图形元素”接口定义 #ifndef ITEM_I_HPP_INCLUDED #define ITEM_I_HPP_INCLUDED#include <wx/gdicmn.h> #include <wx/dc.h>class IItem { publ…

阅读更多...

Matlab论文插图绘制模板第132期—函数等高线填充图

Matlab论文插图绘制模板第132期—函数等高线填充图

在之前的文章中，分享了Matlab函数折线图的绘制模板： 函数三维折线图： 函数网格曲面图： 函数曲面图： 函数等高线图： 进一步，再来分享一下函数等高线填充图。先来看一下成品效果： 特…

阅读更多...

HP笔记本电脑进入BIOS的方法主要有两种，它们使用场合不同

HP笔记本电脑进入BIOS的方法主要有两种，它们使用场合不同

BIOS（基本输入输出系统）是一种实用程序，它在你按下电源按钮后启动并加载操作系统。无论是要更新HP笔记本电脑的BIOS系统，还是清除前一个系统中的错误，第一步都是进入BIOS实用程序。在按键输入BIOS设置并对其进行修改…

阅读更多...

Hadoop入门学习笔记——三、使用HDFS文件系统

Hadoop入门学习笔记——三、使用HDFS文件系统

视频课程地址：https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接：https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记（汇总） 目录三、使用HDFS文件系统3.1. 使用命令操作HDFS文件系统3.1.…

阅读更多...

【5G PHY】NR参考信号功率和小区总传输功率的计算

【5G PHY】NR参考信号功率和小区总传输功率的计算

博主未授权任何人或组织机构转载博主任何原创文章，感谢各位对原创的支持！ 博主链接本人就职于国际知名终端厂商，负责modem芯片研发。在5G早期负责终端数据业务层、核心网相关的开发工作，目前牵头6G算力网络技术标准研究。博客…

阅读更多...

Vue3 性能优化

Vue3 性能优化

代码分析由于我们使用的是vite vite打包是基于rollup 的我们可以使用 rollup 的插件 npm install rollup-plugin-visualizervite.config.ts 配置记得设置open 不然无效 import { visualizer } from rollup-plugin-visualizer; plugins: [vue(), vueJsx(),visualizer({open:…

阅读更多...

【Java探索之旅】我与Java的初相识(完)：注释，标识符，关键字

【Java探索之旅】我与Java的初相识(完)：注释，标识符，关键字

🎥 屿小夏 ： 个人主页 🔥个人专栏 ： Java入门到精通 🌄 莫道桑榆晚，为霞尚满天！ 文章目录 📑前言一. Java的注释方式二. 标识符三. 关键字四. 全篇总结 📑前言在Java编程…

阅读更多...

1856_emacs_calc使用介绍与故事

1856_emacs_calc使用介绍与故事

Grey 全部学习内容汇总： GitHub - GreyZhang/g_org: my learning trip for org-mode 1856_emacs_calc使用介绍与故事 calc是emacs内置的一个计算器，可以提供多种计算表达方式并且可以支持org-mode中的表格功能。主题由来介绍我是因为想要了解org-…

阅读更多...

nodejs微信小程序＋python＋PHP医疗机构药品及耗材信息管理系统-计算机毕业设计推荐

nodejs微信小程序＋python＋PHP医疗机构药品及耗材信息管理系统-计算机毕业设计推荐

目录摘要 I ABSTRACT II 目录 II 第1章绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性：…

阅读更多...

3 个适用于 Mac 电脑操作的 Android 数据恢复最佳工具 [附步骤]

3 个适用于 Mac 电脑操作的 Android 数据恢复最佳工具 [附步骤]

在当今的数字时代，无论是由于意外删除、系统故障还是其他原因，从 Android 设备中丢失数据不仅会带来不便，而且会造成非常严重的后果。特别是对于Mac用户来说，从Android手机恢复数据是一个很大的麻烦。幸运的是，随着许多…

阅读更多...

如何利用PPT绘图并导出清晰图片

如何利用PPT绘图并导出清晰图片

在写论文的过程中，免不了需要绘图，但是visio等软件绘图没有在ppt上绘图比较熟练，尤其流程图结构图. 但是ppt导出的图片也不够清晰，默认分辨率是96dpi，而杂志投稿一般要求至300dpi。解决办法如下： 1.打开注…

阅读更多...

一款超好看流行的HTML随机视频播放背景引导页面源码

一款超好看流行的HTML随机视频播放背景引导页面源码

前言今天宋佳乐博客给大家带来一款2024新版视频背景网址导航引导页面源码带背景动态HTML源码源码介绍 2024新版视频背景网址导航引导页面源码带背景动态HTML源码，非常的炫酷，有需要的自行去体验吧，还是非常不错的演示地址：点…

阅读更多...

【随想】每日两题Day.22

【随想】每日两题Day.22

题目：102. 二叉树的层序遍历给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右访问所有节点）。示例 1： 输入：root [3,9,20,null,null,15,7] 输出：[[3],[…

阅读更多...

Unity PlayerPrefs存储数据在Windows环境中本地存储的位置

Unity PlayerPrefs存储数据在Windows环境中本地存储的位置

Unity PlayerPrefs存储数据在Windows环境中本地存储的位置一、编辑器模式下的PlayerPrefs存储位置1.Win r 输入regedit进入注册表界面2. HKEY_CURRENT_USER/Software/Unity3.CompanyName和ProjectName可以在Unity->Edit->Project Settings->Player中查看和设置二、…

阅读更多...

Leetcode算法系列| 4. 寻找两个正序数组的中位数

Leetcode算法系列| 4. 寻找两个正序数组的中位数

目录 1.题目2.题解C# 解法一：合并List根据长度找中位数C# 解法二：归并排序后根据长度找中位数C# 解法三：方法二的优化，不真实添加到listC# 解法四：第k小数C# 解法五：从中位数的概念定义入手 1.题目给定两个…

阅读更多...

大模型工具_QUIVR

大模型工具_QUIVR

https://github.com/StanGirard/quivr/ 24.5K Star 1 功能整体功能，想解决什么问题实现了前后端结合的 RAG 方案。构建能直接使用的应用。提出了“第二大脑”，具体实现也是RAG，但针对不同用户不同场景支持多个“大脑”并存，每个…

阅读更多...

C语言用两个函数求最大公约数和最小公倍数

C语言用两个函数求最大公约数和最小公倍数

目录 1【c语言】(函数)写两个函数,分别求两个整数的最大公约数和最小公倍数。在主函数中输入两个数，分别调用这两个函数，并输出结果 2代码: 3运行代码: 4总结: 1【c语言】(函数)写两个函数,分别求两个整数的最大公约数和最小公倍数。在主函数中输入两…

阅读更多...

智能优化算法应用：基于金枪鱼群算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于金枪鱼群算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于金枪鱼群算法3D无线传感器网络(WSN)覆盖优化 - 附代码文章目录智能优化算法应用：基于金枪鱼群算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.金枪鱼群算法4.实验参数设定5.算法结果6.…

阅读更多...

十一.约束(二)

十一.约束(二)

约束 5.自增列:AUTO_INCREMENT5.1作用5.2关键字5.3特点和要求5.4如何指定自增约束5.5如何删除自增列5.6MySQL8.0新特性——自增变量的持久化 6.FOREIGN KEY 约束6.1作用6.2关键字6.3主表和从表/父表和子表6.4特点6.5添加外键约束6.6演示问题6.7约束等级6.8删除外键约束6.9开发场…

阅读更多...

推荐文章

最新文章