Mind2Web: 首个全面衡量大模型上网能力的数据集

news2024/12/24 8:39:10
夕小瑶科技说 原创
作者 | 智商掉了一地、ZenMoore

在互联网的浩瀚世界中,存在着无数复杂而扑朔迷离的任务等待我们去解决。如果要设计一个解决很多问题的通用智能体(AI agent),无论是关于购物、旅行、学习还是娱乐,要想在这个纷繁复杂的网络中驾驭大部分事物,我们需要一位真正的通才。而幸运的是,Mind2Web 数据集也许有机会成为我们探索互联网的指南,帮助我们开发和评估能够根据语言指令在任何网站上完成复杂任务的通用智能体。Mind2Web 包含来自 31 个领域、137 个网站的 2350 个任务,它具有以下特点:

  • 反映了 Web 上多样化和与生活实际相关的使用案例。
  • 提供具有真实世界网站的具有挑战性但又现实的环境。
  • 测试在不同任务和环境中的泛化能力。

现有的 Web 智能体数据集要么使用模拟网站,要么只涵盖了有限的网站和任务,因此不适用于通用的 Web 智能体。和之前的数据集相比,Mind2Web 在以下几个方面独树一帜:

  1. 覆盖更多领域、网站和任务:包含来自31个不同领域的任务,覆盖了更广泛的主题和领域,使得智能体能够处理更多种类的任务。
  2. 真实世界网站:提供了真实世界的网站作为任务环境,这些网站反映了实际的在线体验,使得智能体可以在真实的网络环境中进行训练和测试。
  3. 广泛的用户互动模式:使得智能体能够适应不同的用户行为和操作方式,从而更好地应对各种任务要求。

咱们一起来看看这个数据集及相关任务的介绍吧~

论文题目:
Mind2Web: Towards a Generalist Agent for the Web

论文链接:
https://arxiv.org/abs/2306.06070

代码地址:
https://github.com/OSU-NLP-Group/Mind2Web

Demo 地址:
https://osu-nlp-group.github.io/Mind2Web/

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

论文速览

任务与领域

图1 Mind2Web 中的示例任务和所有领域

作者使用 SimilarWeb 的排名作为参考来收集这些网站,平衡了任务和网站的分布,以更好地测试不同级别的泛化能力,具体任务如下所示:

  • 跨任务泛化:在相同环境中跨任务的泛化,例如从图 (a) 到 (c )。
  • 跨网站泛化:在相同领域下跨网站的泛化,例如从图 (a) 到 (d)。
  • 跨领域泛化:在不同任务和环境中的泛化,例如从图 (e) 到 (i)。

图(a) 查询从纽约到多伦多的单程航班

图(b) 预订两名成年人7月1日和5日往返孟买和伦敦的航班

图(c) 使用 eTicket 号码 12345678 搜索由 Jason Two 预订的行程收据

图(d) 查找4月20日和23日往返芝加哥和伦敦的航班

图(e) 搜索布洛芬和阿司匹林之间的相互作用

图(f) 作为Verizon的用户,用月付购买一台 256GB 的蓝色 iPhone 13,并附带每月的苹果保护计划

图(g) 查找埃隆·马斯克的资料并关注,开启通知并点赞最新的推文

图(h) 浏览 Netflix 上从 1992 至 2007 年发布的喜剧电影流媒体

图(i) 打开页面以安排车辆知识测试的预约

对于上述的每个任务,作者提供了以下组件信息:

  • 任务描述:用自然语言句子描述任务。
  • 操作序列:描述完成任务所需执行的操作序列。
    • 每个操作是一个(操作类型,目标元素)对,其中目标元素是用户选择与之交互的网页元素,而操作则是要在该元素上执行的操作。
    • 支持四种常见的操作:点击(Click)、悬停(Hover)、输入(Type)和选择(Select)。
  • 网页快照:用作环境的快照,作者还提供了不同格式的快照:
    • MHTML:包含网页的原始HTML代码。
    • DOM快照:包含带有DOM、布局和样式信息的快照。
    • 图像:包含网页的屏幕截图。
    • HAR:包含所有网络流量以供回放。
    • 跟踪:包含完整的交互跟踪以进行注释。

数据

数据通过亚马逊众包平台(Amazon Mechanical Turk)收集,主要分为三个阶段:

  1. 第一阶段-任务提出:首先要求工作者提出可以在给定网站上执行的任务。作者会仔细审核提出的任务,并选择在第二阶段进行注释的可行且有趣的任务。
  2. 第二阶段-任务演示:要求工作者演示如何在网站上执行任务。使用 Playwright 开发了一个注释工具,记录交互跟踪并在每个步骤中对网页进行快照。如图 2 所示,用红色标记的操作将导致转换到新网页。
  3. 第三阶段-任务验证:作者验证所有任务,以确保所有操作都是正确的,任务描述正确地反映了注释的操作。

图2 包含三个组件的数据集的示例数据实例

数据集统计与比较

表1 Mind2Web 与现有数据集的对比统计

MINDACT 框架

作者利用 Mind2Web 的数据引入了一个探索性框架 MINDACT 来利用 LLM 的强大能力。原始的 HTML 文档可能包含数千个元素,直接将其输入 LLM 要么不可行,要么成本过高。

因此如图 3 所示,作者提出了一个两阶段的过程,将小型和大型 LLM 的优势相结合。

图3 MINDACT 的整体框架

第一阶段:使用经过微调的小型 LLM 对网页上存在的元素进行排序,筛选出一小部分候选元素。如图 4 所示,将每个 DOM 元素与任务查询进行配对,并通过交叉编码器结构(Cross-Encoder)将其输入到仅编码器的 LLM 中,得到一个匹配得分。

图4 候选生成模块和构建任务查询和候选表示的模板说明

第二阶段:这些候选元素被整合成网页的代表性片段,然后由 LLM 处理以预测最终的操作,包括预测与交互的元素和相应操作。图 5 展示了一个示例,在每个输入中最多包含5个候选元素,以及一个“None”选项,并将候选集划分为若干组。

图5 使用LLM进行操作预测的示意图

实验

  • 候选元素生成:使用参数为 86M 的基础版本 DeBERTaB 作为小型 LLM,并进行了微调。在 TestCross-Task、TestCross-Website 和 TestCross-Domain 上,其 Recall@50 分别达到了 88.9%、85.3% 和85.7%。
  • 操作预测:如表 2 所示,在使用多选问题回答的形式时,MINDACT 表现出显著的提升。然而,对于所有模型来说,整体任务成功率仍然较低,因为在大多数情况下,智能体至少在一个步骤上出现错误

表2 实验结果

  • 三个层次的泛化能力:如图 6 所示,所有模型在跨任务设置中表现最佳,表明推广到未见环境仍然是一个主要挑战。相反,我们注意到跨网站和跨领域设置的性能非常相似,表明挑战主要源于网站设计和交互逻辑的多样性,而不是特定领域的特定问题。不同领域的任务往往共享相同的操作,预训练语言模型可能已经具备基于常识知识在高层次上分解复杂任务的能力。然而,将这样的知识应用到具体且多样化的环境中仍然是一个重大挑战

图6 按三个分组划分的每个网站的步骤成功率如下所示

  • 使用 LLM 进行上下文学习:两个 LLM 模型,GPT-3.5-turbo 和 GPT-4 在上下文学习中表现相当。尽管 GPT-3.5 的准确率较低,但 GPT-4 在元素选择方面表现出色。然而,GPT-4 的高运行成本仍然是一个问题。因此,未来可以探索开发针对 Web 专门的较小模型方向。

小结

本文的作者们基于 Mind2Web 进行了初步探索,尝试利用大型语言模型(LLM)构建通用 Web 智能体。他们还提出了 MINDACT,一种利用 LLM 的能力来有效应对这一任务的智能体。虽然真实世界网站的原始 HTML 通常太大,无法直接输入到 LLM 中,但他们证明,通过先使用小型语言模型对其进行过滤,可以显著提高 LLM 的效果和效率。

本文的工作工作开辟了广泛的有前途的未来方向,包括整合多模态信息、利用来自真实网站的反馈进行强化学习,以及为 Web 理解和行动采取专门的语言模型。Mind2Web 的提出令人振奋,它不仅是一个普通数据集,更是一场关于智能体进化的探索。它的出现将带来前所未有的机遇和挑战,我们或许能够训练出真正的通才——一位能够在 Web 的广袤世界中独当一面的全能智能体。期待有更多的研究能揭开 Mind2Web 的精彩细节,打破任务的边界,为未来的网络智能体之旅开启全新篇章~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/644829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

张驰咨询:如何评估六西格玛咨询公司的专业水平和实际效果?

六西格玛是一个能够帮助企业改进业务流程,提高质量和效率的方法论和工具,也是一种经营管理思想。在选择六西格玛咨询公司时,就需要考虑以下几个方面。 1、咨询公司的信誉和口碑 首先要查明咨询公司的资质和信誉。可以从市场上那些知名度比较…

微信小程序反编译报SyntaxError: Unexpected token ‘}‘ 不完美的解决方法

文章目录 1.反编译报错2.分析已反编译出来的文件3.错误原因4.没有完美解决的方法5.小笔记6.相关链接 1.反编译报错 最近在搞小程序,参考Csdn博客的微信小程序反编译Blog,一步一步操作,获取到了.wxapkg,在wxappUnpacker目录下执行…

Vue中如何进行分布式错误日志收集与监控

Vue中如何进行分布式错误日志收集与监控 随着前端界面的复杂化,前端错误日志的收集和监控也成为了一个重要的问题。在分布式应用中,需要跨多个前端应用和后端服务收集和监控错误日志。本文将介绍如何在 Vue 中使用 Sentry 进行分布式错误日志收集和监控…

应急响应:系统入侵排查指南

目录 系统基本信息排查 Windows系统排查 Linux系统排查 CPU信息 操作系统信息 载入模块排查 用户排查 Windows系统用户排查 排查所有账户 Linux用户排查 root账户排查 查看所有可登录账户 查看用户错误的登录信息 查看所有用户最后登录信息 排查空口令账户 启…

从开发到部署:一站式指南创建个性化 Slack App 问答机器人

从开发到部署:一站式指南创建个性化 Slack App 问答机器人 01 简介 做这个教程是因为看别人拿免费的割韭菜很不爽,所以准备做个教程来教大家如何搭建一个问答机器人 内核其实就是利用了slack提供的官方api,自己创建app然后获取艾特信息&#…

Python3数据分析与挖掘建模(15)特征选择与特征变换

1 特征选择 1. 1 概述 特征选择是一种剔除与标注不相关或冗余的特征的方法,以减少特征集的维度和复杂性,并提高模型的性能和解释能力。特征选择的目标是选择那些对目标变量有预测能力且与其他特征不冗余的特征。 特征选择的方法可以分为三类&#xff…

【国产虚拟仪器】基于ARM+FPGA+8通道高速AD代替美国国家仪器的电能质量分析仪设计(一)NI方案介绍

一、背景:基于美国国家仪器的采集方案介绍 本文设计的电能质量分析仪数据分析系统以NI公司的National Instruments LabVIEW2018作为软件开发平台,结合硬件平台,实现数据的采集、波形显示和数据 分析。硬件电路的主要作用是对电网信号进行降幅…

聚焦产品研发,极米科技创新能力领跑行业

近年来,在消费升级、线上渠道迅速放量的背景下,家用智能投影已成为中国投影仪的第一大细分市场。有数据显示,2017年以来,中国消费级投影机出货量持续提升。根据第三方机构IDC(国际数据公司)统计&#xff0c…

Matter实战系列-----3.Matter Light和Switch配网和控制实验

专有名词: OT-RCP: Open Thread Radio Co-Processor 。 Thread 无线协处理器 OTBR: Open Thread Board Router 。 Thread 边界路由器 chip-tool: Linux 应用程序。用于 Matter 协议控制 ot-ctl: Thread 网络控…

爬虫一定要用代理ip吗?

使用代理IP可以帮助爬虫隐藏真实IP地址,防止被网站封禁或限制访问。此外,使用代理IP还可以帮助爬虫绕过一些地区或国家的访问限制,获取更多的数据。因此,对于一些需要频繁爬取数据的爬虫,使用代理IP是一个不错的选择。…

2023如何选择适合自己的浪涌保护器

浪涌保护器对许多人来说并不熟悉,但是如果您担心您拥有的电子设备和家用电器的安全性并保护它们免受电涌的影响,那么您必须了解电涌保护器以及它们的工作原理。 在没有电涌保护器的情况下直接使用昂贵的电子家用电器是危险的,即使发生电涌的…

【taro react】---- 解决H5接入uni-app版本的IM

1. 问题 由于项目开发比较紧张,腾讯 IM 的接入就使用了 TUIKit 含UI集成方案,遇到的问题,uni-app的UI本来就是一个单独的项目,需要集成到现有的 Taro React 中,就只能作为一个独立的项目,不跳转时不影响原有…

原型模式(七)

不管怎么样,都要继续充满着希望 上一章简单介绍了抽象工厂模式(六), 如果没有看过,请观看上一章 一. 原型模式 引用 菜鸟教程里面的原型模式介绍: https://www.runoob.com/design-pattern/prototype-pattern.html 原型模式(Prototype Pattern&#xf…

为什么Potplayer是值得一用的视频播放器?

名人说:往者不可谏,来者犹可追。——语出《论语微子篇》 Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) o(‐^▽^‐)o很高兴你打开了这篇博客,跟着步骤一步步尝试安装吧。✧ 目录…

创新指南|企业创新可以3步做对深科技战略

企业在制定科技创新战略时如何采用深科技策略?那些涉及先进计算和科学技术的创新,如人工智能、区块链和量子计算等,企业需要意识到深科技的潜力和影响,通过采取三步法参与深科技创新生态,企业可以保持竞争力&#xff0…

docker 容器安全注意与https

隔离与共享: 虚拟机通过添加hypervisor层(虚拟化中间层),等虚拟出网卡,内存,cpu硬件,再在其上建立虚拟机,每个虚拟机都有自己的系统内核。docer通过隔离的方式,将文件系…

【工具】Ubuntu18非root用户安装CUDAPyTorch

文章目录 CUDA查看GPU驱动支持的最高CUDA版本CUDA download指定路径安装CUDA cuDNN验证cuda是否安装成功以及版本信息 pytorch验证pytorch是否安装成功&GPU是否可用MMDetection3D CUDA 查看GPU驱动支持的最高CUDA版本 运行命令:nvidia-smi CUDA Version: 11.…

延时函数:普通延时,硬件定时器延时,系统定时器延时

一、普通延时函数 此种延时是基于让MCU做一些无意义的循环操作来打发时间,优点是简单易懂,缺点是会占用MCU的处理资源且精度较低,主要用于程序简单、无严格时间要求的场景中。 //微秒级的延时 void delay_us(uint32_t delay_us) { volat…

C语言实战之、<<、>>

1、&(按位与) 按位与运算将两个运算分量的对应位按位遵照以下规则进行计算: 0 & 0 0, 0 & 1 0, 1 & 0 0, 1 & 1 1。 即同为 1 的位,结果为 1,否则结果为 0。 例如,设3的内部表示为…