微软发布Windows Agent Arena 为生成式AI代理提供基准测试

news2024/9/27 19:14:31

使用生成式人工智能和大型语言模型来自动化和简化使用 PC 的人员的任务的情况持续增长。不过,人们也需要了解人工智能在完成任务方面的工作表现。本周微软研究院宣布,它已开发出一种专门用于在 Windows PC 上测试人工智能代理的基准。

在这里插入图片描述
微软在 GitHub 页面上公布的这一基准名为 Windows Agent Arena。该框架旨在测试人工智能代理与人类通常使用的 Windows 应用程序的交互能力和速度。在 Windows Agent Arena 中与 AI 代理进行测试的应用程序列表包括Microsoft Edge 和Google Chrome 浏览器等网页浏览器、文件资源管理器设置等操作系统功能、Visual Studio Code 等编码应用程序、记事本、时钟和画图等简单的预装 Windows 应用程序,甚至还包括使用 VLC 播放器观看视频。

微软表示:

我们对 OSWorld 框架进行了调整,创建了 150 多个不同的 Windows 任务,这些任务跨越了需要代理在规划、屏幕理解和工具使用方面具备能力的代表性领域。我们的基准还具有可扩展性,可在 Azure 中进行无缝并行化,在短短 20 分钟内即可完成完整的基准评估。

在这里插入图片描述
微软研究院也创建了自己的多模式代理,名为 Navi,并在 Windows Agent Arena 基准测试中进行了测试。测试要求它在某些文本提示下执行任务,例如:"你能把我正在浏览的网站转换成 PDF 文件并放到我的主屏幕上吗?"测试发现,Navi 的平均成功率为 19.5%,与人类 74.5% 的成功率相比仍然很低。

有了 Windows Agent Arena 这样的基准,对创建人工智能代理来说将是一个巨大的发展,这样它们就能得到改进,表现得更接近人类的水平。

微软团队还与卡内基梅隆大学和哥伦比亚大学的研究人员合作完成了该项目。您可以在 GitHub 上查看论文全文以及该基准的代码。

https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf

https://github.com/microsoft/WindowsAgentArena

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2137624.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CHARLS数据库系列教程(2)---数据清洗、拼接和整理(1)

写在前面的话,本节内容实在太多了,只能做了一个小合集,分成2章来介绍。 CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维…

Leetcode Hot 100刷题记录 -Day16(旋转图像)

旋转图像 问题描述: 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在原地旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 示例 1 输入:matrix [[1,2,3],[4,5,6]…

JavaScript - 异步编程

1. 前言 在 JavaScript 中,异步编程是一种处理需要等待操作(如网络请求、文件读取或计时器)的编程方式。由于 JavaScript 是单线程的,意味着它一次只能执行一个任务。异步编程允许你在等待某些操作完成时,继续执行其他…

河海大学《2020年+2021年827自动控制原理真题》 (完整版)

本文内容,全部选自自动化考研联盟的:《25届河海大学827自控考研资料》的真题篇。后续会持续更新更多学校,更多年份的真题,记得关注哦~ 目录 2020年复试真题 2021年初试真题 Part1:完整版真题 2020年复试真题 2021年…

Cortex-A7:__disable_irq和GIC_DisableIRQ、__enable_irq和GIC_EnableIRQ的区别(1)API介绍

0 相关资料 ARM Generic Interrupt Controller Architecture version 2.0.pdf 1 API介绍 1.1 __disable_irq __disable_irq函数的作用是失能IRQ,也就是不响应中断。实现代码如下: /**\brief Disable IRQ Interrupts\details Disables IRQ interrupt…

Pikachu靶场之XSS

先来点鸡汤,少就是多,慢就是快。 环境搭建 攻击机kali 192.168.146.140 靶机win7 192.168.146.161 下载zip,pikachu - GitCode 把下载好的pikachu-master,拖进win7,用phpstudy打开网站根目录,.....再用…

Python基础知识学习(2)

一,分支条件判断语句 在python中,分支条件语句如下: 1,判断条件:if exception: 2,接着判断的语句为:elif exception: 3,最后的条件为:else: 4,通过缩进来表示…

建一栋房子会用到哪些资质?

在建筑工程领域,资质是衡量建筑企业实力和能力的重要标准。修建一栋房子,从设计到施工,再到最终的验收和维护,涉及到众多环节和专业领域。每个环节都需要相应的资质作为保障,以确保工程的质量和安全。那么,…

Jsp学习笔记(详解)

千锋教育Java视频 从入门到精通 JSP 4h 一,引言 1.1 现有问题 在之前学习Servlet时,服务端通过Servlet响应客户端页面,有什么不足之处? 开发方式麻烦:继承父类、覆盖方法、配置Web.xml或注解代码修改麻烦:…

移除元素(反向双指针)

题目: 算法分析: 优化关键:题目不需要关注除前k元素以外的部分左指针等于对应值,复制右指针替代,右指针增加(左指针不变可以继续判断复制的右指针元素是否符合条件)否则左指针增加 算法图解&a…

华为项目管理培训产品总监兼首席架构师刘钊受邀为第四届中国项目经理大会演讲嘉宾

全国项目经理专业人士年度盛会 华为项目管理培训产品总监兼首席架构师刘钊先生受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾,演讲议题为“打造项目管理人才队伍——华为项目经理任职资格和专业认证体系”。大会将于10月…

unity3d入门教程五

unity3d入门教程五 13鼠标事件处理13.2鼠标跟随13.3鼠标拖拽(选中对象,拖动对象)13.4几个问题14.1事件函数14.2脚本的执行顺序14.3脚本的参数14.4引用类型的参数(进行图片更换,人物换装) 13鼠标事件处理 需…

PointNet++改进策略 :模块改进 | PointCAT, 使用交叉注意力机制来提升3D点云任务中提升模型精度

论文题目:PointCAT:Cross-Attention Transformer for Point Cloud通讯地址:南京理工大学代码地址:https://github.com/xincheng-yang/PointCAT . PointCAT架构:PointCAT提出了一种基于交叉注意力机制的Transformer网络&#xff0c…

【Python机器学习】序列到序列建模——使用序列到序列网络构建一个聊天机器人

为了寻聊天机器人,下面使用康奈尔电影对话语料库训练一个序列到序列的网络来“适当的”湖大问题或语句。以下聊天机器人示例采用的是Keras blog中的序列到序列的示例。 为训练准备语料库 首先,需要加载语料库并从中生成训练集,训练数据将决…

项目升级必备!TS装饰:简化代码、增加功能的利器 | TypeScript入门指南07

嘿,朋友!听说过TS里的装饰器没?就像给代码加了个‘魔法贴’,轻轻一点,功能升级,结构清晰。这篇文章,咱们聊聊这背后的魔法是怎么一回事! ts 入门指南系列 Ts vs Js 谁适合前端开发&a…

用Inno Setup打包QT程序输出安装包

InnoSetup打包编译好的QT程序 文章目录 InnoSetup打包编译好的QT程序介绍具体步骤自定义脚本更改引入配置文件/动态库路径申请管理员权限设置安装过程界面的图标和图片C程序依赖运行库 介绍 Inno Setup:用于打包安装程序 具体步骤 首先打开inno setup compiler 第…

MES系统:智能工厂与数字化改造的关键引擎

一、概念范畴: 数字化工厂:是一个更广泛的概念,它强调整个制造过程的数字化转型,包括从产品设计、生产准备、制造过程、管理到营销等各个环节的数字化。数字化工厂利用信息技术、自动化技术和智能化技术对传统工厂进行改造和升级…

怎样在备忘录中添加提醒?怎么设置备忘录提醒

备忘录作为我们日常生活中常用的软件,其记录事项的便捷性已经得到了广泛认可。无论是工作计划、购物清单还是个人日记,备忘录都能帮助我们将这些信息快速记录下来。然而,如果备忘录能够进一步提供提醒功能,那么它将变得更加实用&a…

为什么要用docker?

目录 一、为什么会有docker出现 二、docker理念 三、容器与虚拟机的差异 四、开发/运维(DevOps) 五、企业级应用 一、为什么会有docker出现 一款产品从开发到上线,从操作系统,到运行环境,再到应用配置。作为开发…

pytorch快速入门(一)—— 基本工具及平台介绍

前言 该pytorch学习笔记应该配合b站小土堆的《pytorch深度学习快速入门教程》使用 环境配置:Anaconda Python编译器:pycharm、jupyter 两大法宝函数 dir():知道包中有什么东西(函数 / 属性..…