WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。

news2024/12/24 8:28:19

2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流,为研究人员提供了一个统一的框架来评估和比较不同LLMs的性能。

一、研究背景:

随着大型语言模型在处理复杂任务方面能力的显著提升,将复杂问题分解为可执行的工作流成为了实现实际部署的关键步骤。然而,现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。

目前遇到困难和挑战:

1、现有的评估基准大多只关注功能调用任务,忽视了更复杂的工作流结构,如并行性。

2、LLMs在生成工作流时容易受到幻觉和歧义的影响,导致评估缺乏系统性。

3、当前的工作流评估过于依赖GPT-3.5/4,而这些模型本身在复杂任务规划中的表现并不理想。

数据集地址:WORFBENCH|大型语言模型数据集|工作流生成数据集

二、让我们来一起看一下WORFBENCH

WORFBENCH是一个统一的工作流生成基准,包含多方面的应用场景和复杂的图结构工作流,目的全面提升LLMs的工作流生成能力。涵盖了问题解决、功能调用、具身规划和开放性规划等四种复杂的应用场景,包含了18k训练样本、2146个测试样本和723个用于评估泛化能力的保留任务。

整个构建过程包括任务的收集、节点链的构建、工作流图的生成以及严格的质量控制和数据过滤。通过GPT-4生成节点链和工作流图,并通过拓扑排序算法和人工评估来确保数据集的质量。

WORFBENCH提供了一套系统化的评估协议WORFEVAL,使用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。此外,还支持对不同规模的LLMs进行评估,并可以分析工作流如何增强端到端模型的性能。

基准测试 :

通过在WORFBENCH上的综合评估,研究人员发现即使是GPT-4这样的模型,在图结构化工作流的预测能力上也远远达不到实际要求,性能差距约为15%。此外,通过训练开源模型并评估其在保留任务上的泛化能力,进一步证明了WORFBENCH的有效性和实用性。

概述框架WORFBENCH:第1 扇区是基准构建,我们首先合成节点链,然后是工 作流图。第二部分是我们的数据过滤过程(§。第3部分描述了WORFEVAL中的算法,以评 估LLM代理的预测工作流。第四部分是我们WORFBENCH的详细数据点。请注意,图中的每个 节点都由其颜色唯一标识。

我们使用相同的精心设计指令和两个示例来评估所有模型。我们根据模型是否开源以及它们的规模对模型进行分类。每个类别中的最佳结果用粗体标出,第二好的结果用下划线标出。

三、让我们一起展望 WORFBENCH的应用:

想象一下,你是一个智能家居系统的AI大脑。

你的任务是帮助主人准备一个晚餐。主人家今天回来很多小朋友,所以这个重任就落在了你的肩上。

首先,你得检查一下家里的食材库存。你控制着家里的智能冰箱,查看了里面的蔬菜和肉类,发现冰箱里有新鲜的番茄和牛肉,但是缺少了一些香料和饮料。于是,你生成了一个购物清单,并通过智能家居系统发送给了主人。

主人回来后,根据你的清单采购了所需的物品。现在,你得开始规划晚餐的菜单和烹饪流程了。你决定做一道经典的番茄牛肉意面。你根据冰箱里的食材和主人新买的香料,制定了一个详细的烹饪计划。

烹饪开始了,你首先指导主人把牛肉切成薄片,然后用橄榄油、大蒜和香料腌制。同时,你还控制着智能烤箱预热到合适的温度。牛肉腌制好后,你指导主人将其放入烤箱中烤制。

在牛肉烤制的同时,你也没闲着,开始准备意面和番茄 sauce。你指导主人把意面放入锅中煮熟,同时用智能搅拌机打碎番茄,制作出新鲜的番茄酱。你还控制着智能定时器,确保意面不会煮过头。

最后,当一切准备就绪,你指导主人将烤好的牛肉和热腾腾的番茄酱与意面混合,撒上一些新鲜的芝士,一道美味的番茄牛肉意面就完成了。

在这个过程中,你不仅要处理厨房里的各种智能设备,还要根据实际情况灵活调整计划。比如,当发现烤箱预热不够快时,你得决定是否先准备酱料,或者调整烤箱的温度。这就像是在玩一个实时策略游戏,你得随时做出决策,确保一切都能按时完成。

最后,一盘盘香气扑鼻、味道鲜美、色泽诱人的意面被小吃货们一扫而光。嚷嚷着下次还要来做客。

一个大型语言模型在动态环境中执行动作的能力,它需要理解任务、规划步骤、控制设备,并且能够根据实际情况灵活调整计划。这种能力对于智能家居系统来说是非常有价值的,它可以让家庭生活更加便捷和高效。

来吧,让我们走进:多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2224377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Super-resolved q-space learning of diffusion MRI】

扩散MRI的超分辨q-空间学习 摘要: 背景:扩散磁共振成像 (dMRI) 提供了一种强大的工具,可以无创地研究活人大脑中的神经结构。然而,它对神经结构的重建性能依赖于 q 空间中扩散梯度的数量。高角度(HA)dMRI…

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十七章 Trusted Firmware-A 移植

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…

(二十三)Java反射

1.反射概念 反射允许对成员变量,成员方法和构造方法的信息进行编程访问,通俗理解就是允许从类里面拿东西,用途有提示词等,如下所示都是通过反射实现的 所以,学习反射就是学习从字节码class文件中获取成员信息并且对其…

流媒体协议.之(RTP,RTCP,RTSP,RTMP,HTTP)(一)

闲着没事做,记录一下开发项目用过的协议,项目中,大多是是实时显示播放的,通过私有协议,传输到上位机,实时播放,延时小于200ms,仿照这些协议,定义的数据格式。如果用这些协…

C语言实现Go的defer功能

之前笔者写了一篇博文C实现Go的defer功能,介绍了如何在C语言中实现Go的defer功能,那在C语言中是否也可以实现这样的功能呢?本文就将介绍一下如何在C语言中实现Go的defer功能。 我们还是使用C实现Go的defer功能中的示例: void te…

一文彻底理解 JavaScript 解构赋值

一、基本概念 为什么需要解构呢,先来看一个例子: const student {name: ZhangSan,age: 18,scores: {math: 19,english: 85,chinese: 100} };function displayInfo(student) {console.log(name:, student.name);console.log(math:, student.scores.mat…

排序(二)快速排序的多种实现方法

目录 一.快速排序 1.左右指针法 2.挖坑法 3.前后指针法 4.非递归实现 5.快速排序特性总结 二.整体代码 1.Sort.h 2.Sort.c 3.Stack.h 4.Stack.c 5.test.c 一.快速排序 1.左右指针法 我们找到一个key,begin去找比key大的值,end去找比key小的值,找到了就将begin和end…

从头学PHP之运算符

关于运算符的图片均来自网络,主要是自己写太麻烦了,程序是个简化自己工作量的方式,能复制粘贴就不要手写了(建议初期还是多写写,加深下记忆)在这里我就偷个懒,图片涉及到侵权及时,请…

阻塞队列——Java

一、前言 阻塞队列也是队列的一种,但是带有阻塞性质。但是这种阻塞情况是极端情况,在生产、消费者模型中,当生产者与消费者不协调时,就会出现阻塞情况。 二、特性 线程安全 阻塞特性 若队列为空,当尝试出队列时&am…

深度解析跨境支付之跨境支付与国内支付对比

跨境支付和国内支付的不同点主要体现在5个方面: 1.交易币种不同 这一点其实有两层含义 第一层含义是二者的支付行为的交易币种不同,国内支付基本是人民币但是跨境支付可以是人民币也可以是外币,具体交易币种要取决于收款方要求的交易币种。…

数据结构(8.4_1)——简单选择排序

简单选择排序 每一趟在待排序元素中选取关键字最小的元素加入有序子序列 代码实现 //简单选择排序 void SelectSort(int A[], int n) {for (int i 0; i < n - 1; i) {//一共进行n-1趟int min i;//记录最小元素位置for (int j i 1; j < n; j)//在A[i...n-1中选择最…

RabbitMQ延迟消息插件安装(Docker环境)

背景&#xff1a;当我们需要使用RabbitMQ发送延迟消息的时候&#xff0c;为了简化延迟消息发送的实现&#xff0c;一般都会给RabbitMQ安装延迟插件"rabbitmq_delayed_message_exchange" 如下会说明使用Docker启动的RabbitMQ容器如何安装延迟消息插件。 1. Docker启动…

用接地气的例子趣谈 WWDC 24 全新的 Swift Testing 入门(一)

概述 从 WWDC 24 开始&#xff0c;苹果推出了全新的测试机制&#xff1a;Swift Testing。利用它我们可以大幅度简化之前“老态龙钟”的 XCTest 编码范式&#xff0c;并且使得单元测试更加灵动自由&#xff0c;更符合 Swift 语言的优雅品味。 在这里我们会和大家一起初涉并领略…

docker配置mysql8报错 ERROR 2002 (HY000)

通过docker启动的mysql&#xff0c;发现navicat无法连接&#xff0c;后来进入容器内部也是无法连接&#xff0c;产生以下错误 root9f3b90339a14:/var/run/mysqld# mysql -u root -p Enter password: ERROR 2002 (HY000): Cant connect to local MySQL server through socket …

LINUX1.5.1(vim编辑器)

vim: 1. vim 2.vim /PATTERN vi编辑器与三种常见的模式&#xff1a; 复制 粘贴 剪切 删除 编辑 退出 保存 行间跳转 显示行号 查找替换 命令模式&#xff1a;光标的移动&#xff0c;使用快捷键&#xff0c;复制&#xff0c;粘贴&#xff0c;删除等基础操作 编辑模式&…

【mysql进阶】4-7. 通用表空间

通⽤表空间 - General Tablespace 1 通⽤表空间的作⽤和特性&#xff1f; ✅ 解答问题 通⽤表空间是使⽤ CREATE tablespace 语法创建的共享InnoDB表空间 通⽤表空间能够存储多个表的数据&#xff0c;与系统表空间类似也是共享表空间&#xff1b; 服务器运⾏时会把表空间元数…

【C++】智能指针:解决内存泄漏、悬空指针等问题

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;C 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 前言一、RAII二、智能指针原理三、auto_ptr四、unique_ptr五、shared_ptr第一步&#xff1a;实现出RAII的框架第二步&#xff1a;如何…

信息收集-shodan专题一

shodan介绍 一、shodan简介 1.工作原理解析&#xff1a; 2.优缺点 3.功能 二、安装shodan流程 三、shodan使用方法 1.搜索 1.1.search 搜索 1.2. count 总数 1.3. download 下载与解析 2. 指定查看 2.1 指定IP的详细信息 2.2 hostname: 搜索指定的域名 2.3 port:…

百度智能云推出11.11活动,各大云厂商香港服务器优惠活动汇总

2024年双十一活动就要来了&#xff0c;作为百度集团旗下的云智能服务平台——百度智能云今年率先开始了11.11狂欢购活动&#xff0c;上新促销活动的动作如此之快&#xff0c;难道是百度云要大发力了&#xff1f;感觉今年百度智能云要比阿里云、腾讯云、硅云、华为云等厂商更加卖…

k8s 综合项目笔记

综述 这篇笔记主要是为了记录下自己写 k8s 综合项目的过程。 由于自己之前已经写过简单的开发和运维项目&#xff0c;所以这里就结合一下&#xff0c;在搭建 k8s 集群后安装运维常用服务&#xff0c;比如 ansible 和 prometheus&#xff0c;用 NFS 实现数据存储同步&#xff0c…