WORFBENCH：一个创新的评估基准，目的是全面测试大型语言模型在生成复杂工作流方面的性能。

WORFBENCH：一个创新的评估基准，目的是全面测试大型语言模型在生成复杂工作流方面的性能。

news2026/2/14 21:22:22

2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH，一个用于评估大型语言模型（LLMs）生成工作流能力的基准测试。它包含了一系列的测试和评估协议，用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流，为研究人员提供了一个统一的框架来评估和比较不同LLMs的性能。

一、研究背景：

随着大型语言模型在处理复杂任务方面能力的显著提升，将复杂问题分解为可执行的工作流成为了实现实际部署的关键步骤。然而，现有的工作流评估框架要么只关注整体性能，要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。

目前遇到困难和挑战：

1、现有的评估基准大多只关注功能调用任务，忽视了更复杂的工作流结构，如并行性。

2、LLMs在生成工作流时容易受到幻觉和歧义的影响，导致评估缺乏系统性。

3、当前的工作流评估过于依赖GPT-3.5/4，而这些模型本身在复杂任务规划中的表现并不理想。

数据集地址：WORFBENCH|大型语言模型数据集|工作流生成数据集

二、让我们来一起看一下WORFBENCH

WORFBENCH是一个统一的工作流生成基准，包含多方面的应用场景和复杂的图结构工作流，目的全面提升LLMs的工作流生成能力。涵盖了问题解决、功能调用、具身规划和开放性规划等四种复杂的应用场景，包含了18k训练样本、2146个测试样本和723个用于评估泛化能力的保留任务。

整个构建过程包括任务的收集、节点链的构建、工作流图的生成以及严格的质量控制和数据过滤。通过GPT-4生成节点链和工作流图，并通过拓扑排序算法和人工评估来确保数据集的质量。

WORFBENCH提供了一套系统化的评估协议WORFEVAL，使用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。此外，还支持对不同规模的LLMs进行评估，并可以分析工作流如何增强端到端模型的性能。

基准测试：

通过在WORFBENCH上的综合评估，研究人员发现即使是GPT-4这样的模型，在图结构化工作流的预测能力上也远远达不到实际要求，性能差距约为15%。此外，通过训练开源模型并评估其在保留任务上的泛化能力，进一步证明了WORFBENCH的有效性和实用性。

概述框架WORFBENCH：第1 扇区是基准构建，我们首先合成节点链，然后是工作流图。第二部分是我们的数据过滤过程(§。第3部分描述了WORFEVAL中的算法，以评估LLM代理的预测工作流。第四部分是我们WORFBENCH的详细数据点。请注意，图中的每个节点都由其颜色唯一标识。

我们使用相同的精心设计指令和两个示例来评估所有模型。我们根据模型是否开源以及它们的规模对模型进行分类。每个类别中的最佳结果用粗体标出，第二好的结果用下划线标出。

三、让我们一起展望 WORFBENCH的应用：

想象一下，你是一个智能家居系统的AI大脑。

你的任务是帮助主人准备一个晚餐。主人家今天回来很多小朋友，所以这个重任就落在了你的肩上。

首先，你得检查一下家里的食材库存。你控制着家里的智能冰箱，查看了里面的蔬菜和肉类，发现冰箱里有新鲜的番茄和牛肉，但是缺少了一些香料和饮料。于是，你生成了一个购物清单，并通过智能家居系统发送给了主人。

主人回来后，根据你的清单采购了所需的物品。现在，你得开始规划晚餐的菜单和烹饪流程了。你决定做一道经典的番茄牛肉意面。你根据冰箱里的食材和主人新买的香料，制定了一个详细的烹饪计划。

烹饪开始了，你首先指导主人把牛肉切成薄片，然后用橄榄油、大蒜和香料腌制。同时，你还控制着智能烤箱预热到合适的温度。牛肉腌制好后，你指导主人将其放入烤箱中烤制。

在牛肉烤制的同时，你也没闲着，开始准备意面和番茄 sauce。你指导主人把意面放入锅中煮熟，同时用智能搅拌机打碎番茄，制作出新鲜的番茄酱。你还控制着智能定时器，确保意面不会煮过头。

最后，当一切准备就绪，你指导主人将烤好的牛肉和热腾腾的番茄酱与意面混合，撒上一些新鲜的芝士，一道美味的番茄牛肉意面就完成了。

在这个过程中，你不仅要处理厨房里的各种智能设备，还要根据实际情况灵活调整计划。比如，当发现烤箱预热不够快时，你得决定是否先准备酱料，或者调整烤箱的温度。这就像是在玩一个实时策略游戏，你得随时做出决策，确保一切都能按时完成。

最后，一盘盘香气扑鼻、味道鲜美、色泽诱人的意面被小吃货们一扫而光。嚷嚷着下次还要来做客。

一个大型语言模型在动态环境中执行动作的能力，它需要理解任务、规划步骤、控制设备，并且能够根据实际情况灵活调整计划。这种能力对于智能家居系统来说是非常有价值的，它可以让家庭生活更加便捷和高效。

来吧，让我们走进：多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2224377.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Super-resolved q-space learning of diffusion MRI】

【Super-resolved q-space learning of diffusion MRI】

扩散MRI的超分辨q-空间学习摘要： 背景：扩散磁共振成像 (dMRI) 提供了一种强大的工具，可以无创地研究活人大脑中的神经结构。然而，它对神经结构的重建性能依赖于 q 空间中扩散梯度的数量。高角度（HA）dMRI…

阅读更多...

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十七章 Trusted Firmware-A 移植

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十七章 Trusted Firmware-A 移植

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器，既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构，主频650M、1G内存、8G存储，核心板采用工业级板对板连接器，高可靠，牢固耐…

阅读更多...

（二十三）Java反射

（二十三）Java反射

1.反射概念反射允许对成员变量，成员方法和构造方法的信息进行编程访问，通俗理解就是允许从类里面拿东西，用途有提示词等，如下所示都是通过反射实现的所以，学习反射就是学习从字节码class文件中获取成员信息并且对其…

阅读更多...

流媒体协议.之（RTP，RTCP，RTSP，RTMP，HTTP）（一）

流媒体协议.之（RTP，RTCP，RTSP，RTMP，HTTP）（一）

闲着没事做，记录一下开发项目用过的协议，项目中，大多是是实时显示播放的，通过私有协议，传输到上位机，实时播放，延时小于200ms，仿照这些协议，定义的数据格式。如果用这些协…

阅读更多...

C语言实现Go的defer功能

C语言实现Go的defer功能

之前笔者写了一篇博文C实现Go的defer功能，介绍了如何在C语言中实现Go的defer功能，那在C语言中是否也可以实现这样的功能呢？本文就将介绍一下如何在C语言中实现Go的defer功能。我们还是使用C实现Go的defer功能中的示例： void te…

阅读更多...

一文彻底理解 JavaScript 解构赋值

一文彻底理解 JavaScript 解构赋值

一、基本概念为什么需要解构呢，先来看一个例子： const student {name: ZhangSan,age: 18,scores: {math: 19,english: 85,chinese: 100} };function displayInfo(student) {console.log(name:, student.name);console.log(math:, student.scores.mat…

阅读更多...

排序(二)快速排序的多种实现方法

排序(二)快速排序的多种实现方法

目录一.快速排序 1.左右指针法 2.挖坑法 3.前后指针法 4.非递归实现 5.快速排序特性总结二.整体代码 1.Sort.h 2.Sort.c 3.Stack.h 4.Stack.c 5.test.c 一.快速排序 1.左右指针法我们找到一个key,begin去找比key大的值,end去找比key小的值,找到了就将begin和end…

阅读更多...

从头学PHP之运算符

从头学PHP之运算符

关于运算符的图片均来自网络，主要是自己写太麻烦了，程序是个简化自己工作量的方式，能复制粘贴就不要手写了（建议初期还是多写写，加深下记忆）在这里我就偷个懒，图片涉及到侵权及时，请…

阅读更多...

阻塞队列——Java

阻塞队列——Java

一、前言阻塞队列也是队列的一种，但是带有阻塞性质。但是这种阻塞情况是极端情况，在生产、消费者模型中，当生产者与消费者不协调时，就会出现阻塞情况。二、特性线程安全阻塞特性若队列为空，当尝试出队列时&am…

阅读更多...

深度解析跨境支付之跨境支付与国内支付对比

深度解析跨境支付之跨境支付与国内支付对比

跨境支付和国内支付的不同点主要体现在5个方面： 1.交易币种不同这一点其实有两层含义第一层含义是二者的支付行为的交易币种不同，国内支付基本是人民币但是跨境支付可以是人民币也可以是外币，具体交易币种要取决于收款方要求的交易币种。…

阅读更多...

数据结构(8.4_1)——简单选择排序

数据结构(8.4_1)——简单选择排序

简单选择排序每一趟在待排序元素中选取关键字最小的元素加入有序子序列代码实现 //简单选择排序 void SelectSort(int A[], int n) {for (int i 0; i < n - 1; i) {//一共进行n-1趟int min i;//记录最小元素位置for (int j i 1; j < n; j)//在A[i...n-1中选择最…

阅读更多...

RabbitMQ延迟消息插件安装（Docker环境）

RabbitMQ延迟消息插件安装（Docker环境）

背景：当我们需要使用RabbitMQ发送延迟消息的时候，为了简化延迟消息发送的实现，一般都会给RabbitMQ安装延迟插件"rabbitmq_delayed_message_exchange" 如下会说明使用Docker启动的RabbitMQ容器如何安装延迟消息插件。 1. Docker启动…

阅读更多...

用接地气的例子趣谈 WWDC 24 全新的 Swift Testing 入门（一）

用接地气的例子趣谈 WWDC 24 全新的 Swift Testing 入门（一）

概述从 WWDC 24 开始，苹果推出了全新的测试机制：Swift Testing。利用它我们可以大幅度简化之前“老态龙钟”的 XCTest 编码范式，并且使得单元测试更加灵动自由，更符合 Swift 语言的优雅品味。在这里我们会和大家一起初涉并领略…

阅读更多...

docker配置mysql8报错 ERROR 2002 (HY000)

docker配置mysql8报错 ERROR 2002 (HY000)

通过docker启动的mysql，发现navicat无法连接，后来进入容器内部也是无法连接，产生以下错误 root9f3b90339a14:/var/run/mysqld# mysql -u root -p Enter password: ERROR 2002 (HY000): Cant connect to local MySQL server through socket …

阅读更多...

LINUX1.5.1（vim编辑器）

LINUX1.5.1（vim编辑器）

vim: 1. vim 2.vim /PATTERN vi编辑器与三种常见的模式： 复制粘贴剪切删除编辑退出保存行间跳转显示行号查找替换命令模式：光标的移动，使用快捷键，复制，粘贴，删除等基础操作编辑模式&…

阅读更多...

【mysql进阶】4-7. 通用表空间

【mysql进阶】4-7. 通用表空间

通⽤表空间 - General Tablespace 1 通⽤表空间的作⽤和特性？ ✅ 解答问题通⽤表空间是使⽤ CREATE tablespace 语法创建的共享InnoDB表空间通⽤表空间能够存储多个表的数据，与系统表空间类似也是共享表空间； 服务器运⾏时会把表空间元数…

阅读更多...

【C++】智能指针：解决内存泄漏、悬空指针等问题

【C++】智能指针：解决内存泄漏、悬空指针等问题

⭐️个人主页：小羊 ⭐️所属专栏：C 很荣幸您能阅读我的文章，诚请评论指点，欢迎欢迎 ~ 目录前言一、RAII二、智能指针原理三、auto_ptr四、unique_ptr五、shared_ptr第一步：实现出RAII的框架第二步：如何…

阅读更多...

信息收集-shodan专题一

信息收集-shodan专题一

shodan介绍一、shodan简介 1.工作原理解析： 2.优缺点 3.功能二、安装shodan流程三、shodan使用方法 1.搜索 1.1.search 搜索 1.2. count 总数 1.3. download 下载与解析 2. 指定查看 2.1 指定IP的详细信息 2.2 hostname: 搜索指定的域名 2.3 port:…

阅读更多...

百度智能云推出11.11活动，各大云厂商香港服务器优惠活动汇总

百度智能云推出11.11活动，各大云厂商香港服务器优惠活动汇总

2024年双十一活动就要来了，作为百度集团旗下的云智能服务平台——百度智能云今年率先开始了11.11狂欢购活动，上新促销活动的动作如此之快，难道是百度云要大发力了？感觉今年百度智能云要比阿里云、腾讯云、硅云、华为云等厂商更加卖…

阅读更多...

k8s 综合项目笔记

k8s 综合项目笔记

综述这篇笔记主要是为了记录下自己写 k8s 综合项目的过程。由于自己之前已经写过简单的开发和运维项目，所以这里就结合一下，在搭建 k8s 集群后安装运维常用服务，比如 ansible 和 prometheus，用 NFS 实现数据存储同步&#xff0c…

阅读更多...

推荐文章

最新文章