NeurIPS 2023|AI Agents先行者CAMEL:第一个基于大模型的多智能体框架

news2024/9/21 4:35:49

AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架(“骆驼”),CAMEL框架是最早基于ChatGPT的autonomous agents知名项目,目前已被顶级人工智能会议NeurIPS 2023录用。

1777dbe9073c4bcd8ab59365481bcafc.png

 

论文题目: CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

论文链接: https://ghli.org/camel.pdf
代码链接: GitHub - camel-ai/camel: 🐫 CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society (NeruIPS'2023) https://www.camel-ai.org
项目主页: CAMEL-AI

“什么神奇的技巧让我们变得聪明? 窍门就是没有窍门。智慧的力量源于我们巨大的多样性,而不是任何单一的、完美的原则。”
——人工智能先驱 马文·明斯基(Marvin Minsky)[1]

目前来看,在机器通向高级智能的道路上,以ChatGPT为代表的大模型(LLMs)应该是必须经过的里程碑之一,它们以聊天对话的人机交互方式在多个领域的复杂任务解决方面取得了非常耀眼的成就。随着LLMs的发展,AI Agents(AI智能体)之间的交互框架也逐渐兴起,尤其是在一些复杂的专业领域,以角色扮演等模式预置的智能体完全有能力代替人类用户在任务中扮演的角色,同时,智能体之间通过以协作和竞争形式的动态交互往往能够带来意想不到的效果,这就是被OpenAI人工智能专家Andrej Karpathy等人看作是“下一代提示工程前沿领域”的AI Agents

该领域发展的时间线如下[2]:

  • “CAMEL”(骆驼:大模型心智交互框架)- 发布于2023.3.21

  • “AutoGPT” - 发布于2023.3.30

  • “BabyGPT” - 发布于2023.4.3

  • “Westworld” simulation(斯坦福西部世界小镇) — 发布于2023.4.7

作为最早基于ChatGPT的autonomous agents知名项目,CAMEL重点探索了一种称为角色扮演(role-playing)的新型合作代理框架,该框架可以有效缓解智能体对话过程中出现的错误现象,从而有效引导智能体完成各种复杂的任务,人类用户只需要输入一个初步的想法就可以启动整个过程。目前,CAMEL已经被国际人工智能顶级会议NeurIPS 2023录用

49ac5f0e79824b6fb0efccf9be687e67.png

作者对CAMEL框架设计了灵活的模块化功能,包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等,因此CAMEL可以作为一个基础的Agents后端,支持AI研究者和开发者更加轻松地开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。具体的,作者通过涉及两种角色扮演的合作场景,生成了两个大型的指令数据集AI Society和AI Code,以及两个单轮问答数据集AI Math和AI Science,用于探索LLM涌现能力的研究

01. CAMEL框架

下图展示了CAMEL中的role-playing框架,人类用户需要首先制定一个想要实现的想法或目标,例如:开发一个用于股票市场的交易机器人。这项任务涉及的角色是AI助理智能体(使其扮演Python程序员角色)和AI用户智能体(使其扮演股票交易员角色)

8fae33d32dfc4b09bfccf20cdbc4013f.png

更多技术细节,可以参考我们先前对CAMEL的报道。

02. 实验效果

本文的性能评估主要从三个方面进行,并且采用两个gpt-3.5-turbo作为实验智能体,实验的数据集使用CAMEL框架生成的四个AI数据集,其中AI Society和AI Code侧重于智能体的对话效果,而AI Math和AI Science侧重于智能体的问题解决能力。

2.1 Agent评估

在这一部分,作者从AI Society和AI Code数据集中分别随机选择 100 个任务进行评估,然后使用CAMEL框架和单个gpt-3.5-turbo进行对比实验,结果评估方面分为两部分,一方面由人类受试者对两种方法给出的解决方案给出453份投票数据,来决定哪种方案更加可行。另一方面,作者提示GPT4模型对两种方案直接给出评分,具体的对比数据如下表所示。

aadbbd5162ef4fbea0d82563fa8937e0.png

从上表中可以看出,CAMEL框架给出的解决方案在人类评估和GPT4评估中均大幅优于gpt-3.5-turbo给出的解决方案,其中人类评估和GPT4评估的总体趋势高度一致

2.2 使用GPT-4对ChatBot评估

在这一部分,作者在CAMEL生成的四个数据集上对LLaMA-7B模型进行了逐步的微调,通过向LLM中不断注入来自社会、代码、数学和科学等不同领域的知识,来观察模型对知识发现的接受效果。作者首先从AI Society数据集开始,让模型了解人类的互动常识和社会动态,随后AI Code和其他数据集的注入,模型获得了编程逻辑和语法的知识,同时拓宽了模型对科学理论、经验观察和实验方法的理解

b3ff76f0086e45dcb957cf4945bc6516.png

上表展示了模型在20个Society任务、20个代码编写任务、20个数学任务和60个科学任务上的测试效果,可以看到在每次添加数据集时,模型在已训练过的任务域上都会表现得更好。

2.3 HumanEval

为了进一步评估CAMEL框架的代码编写任务解决能力,作者在HumanEval和HumanEval+两个评估基准上进行了实验,实验结果如下表所示。

49fd4c645a9d498ebd0afdf37cba37fe.png

上表中清楚地证明了CAMEL框架的卓越性能,它不仅远远超过了LLaMA-7B模型,而且还大大超过了Vicuna-7B模型,这表明使用CAMEL生成的数据集在增强LLM处理编码相关任务方面有独特的效果。

3.CAMEL AI开源社区

值得一提的是,CAMEL作者团队正在构建了一个非常完善的CAMEL AI开源社区,社区Github仓库已经得到了3600+的star数,社区中涵盖了CAMEL中各种智能体的实现、数据生成pipeline、数据分析工具和已生成的数据集,以支持AI Agents及其他方面的研究,社区目前已吸引了诸多开源爱好者贡献代码。

距离 CAMEL 项目编写第一行代码到现在已有 9 个月,http://CAMEL-AI.org开源研究技术社区已经吸引超过 20 名来自KAUST/剑桥/索邦大学/NUS/CMU/芝加哥大学/斯坦福/杜克大学/北大/上交/哈工大/西电/东北大学/成信大以及工业界等独立代码贡献者。社区正在寻找全职/兼职/实习贡献者、工程师和研究人员加入一起学习和探索如何推动构建智能体社会的边界,杰出贡献者有机会参与框架和其他研究项目论文的撰写投稿。

如果感兴趣加入http://CAMEL-AI.org的社区,可以将简历发送至camel.ai.team@gmail.com或者添加微信号CamelAIOrg进行咨询!

微信图片_20231114145113.png

 

参考

[1] Minsky M. Society of mind[M]. Simon and Schuster, 1988.

[2] https://towardsdatascience.com/4-autonomous-ai-agents-you-need-to-know-d612a643fa92


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1249858.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈安科瑞无线测温设备在挪威某项目的应用

摘要:安科瑞无线温度设备装置通过无线温度收发器和各无线温度传感器直接进行温度值的传输,并采用液晶显示各无线温度传感器所测温度。 Absrtact:Acre wireless temperature device directly transmits the temperature value through the wireless temp…

Nginx安装与配置、使用Nginx负载均衡及动静分离、后台服务部署、环境准备、系统拓扑图

目录 1. 系统拓扑图 2. 环境准备 3. 服务器安装 3.1 mysql,tomcat 3.2 Nginx的安装 4. 部署 4.1 后台服务部署 4.2 Nginx配置负载均衡及静态资源部署 1. 系统拓扑图 说明: 用户请求达到Nginx若请求资源为静态资源,则将请求转发至静态…

【蓝桥杯省赛真题47】Scratch小猫踩球 蓝桥杯scratch图形化编程 中小学生蓝桥杯省赛真题讲解

目录 scratch小猫踩球 一、题目要求 编程实现 二、案例分析 1、角色分析

vue3.0使用leaflet

1、获取天地图密钥; 访问:https://www.tianditu.gov.cn/ 注册并登录,访问开发资源 》地图API 》 地图服务》申请key 应用管理》创建新应用》获取到对应天地图key 2、引入leaflet组件 参考资料:https://leafletjs.com/reference.html#pa…

一盏茶的时间,入门 Node.js

一、.什么是 Node.js? Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时,用于构建高性能、可伸缩的网络应用。 它采用事件驱动、非阻塞 I/O 模型,使其在处理并发请求时表现出色。 二、安装 Node.js 首先,让我们从 Node.…

CSS3新特性(2-1)

CSS3新特性 前言border:radius标签属性选择器box-sizing透明度 前言 本文主要讲解CSS3有哪些新的特性和内容,那么好,本文正式开始. border:radius 新增了圆角边框概念,可以通过具体数值或者百分比,来让边…

互联网上门洗鞋店小程序

上门洗鞋店小程序门店版是基于原平台版进行增强的,结合洗鞋行业的线下实际运营经验和需求,专为洗鞋人和洗鞋店打造的高效、实用、有价值的管理软件系统。 它能够帮助洗鞋人建立自己的私域流量,实现会员用户管理,实现用户与商家的点…

电源控制系统架构(PCSA)之电源控制框架概览

目录 6 电源控制框架 6.1 电源控制框架概述 6.1.1 电源控制框架低功耗接口 6.1.2 电源控制框架基础设施组件 6 电源控制框架 电源控制框架是标准基础设施组件、接口和相关方法的集合,可用于构建SoC电源管理所需的基础设施。 本章介绍框架的主要组件和低功耗接…

FFmpeg零基础学习(一)——初步介绍与环境搭建

目录 前言正文一、开发环境二、搭建环境二、测试代码 参考 前言 FFmpeg是一个开源的跨平台多媒体处理框架,它包含了一组用于处理音频、视频、字幕等多媒体数据的库和工具。FFmpeg提供了强大的功能和灵活性,被广泛用于多媒体应用开发、视频编辑、流媒体传…

每日OJ题_算法_双指针_力扣11. 盛最多水的容器

力扣11. 盛最多水的容器 11. 盛最多水的容器 - 力扣(LeetCode) 难度 中等 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成…

Windows核心编程 跨进程操作

目录 进程A拿到进程B句柄是否能用 句柄的权限 关于句柄表 跨进程使用句柄-继承 CreateProcess:bInheritHandles OpenProcess FindWinodw GetCurrentProcess 跨进程使用句柄-拷贝 跨进程操作内存 WriteProcessMemory VirtualProtectEx ReadProcessMemo…

<蓝桥杯软件赛>零基础备赛20周--第7周--栈和二叉树

报名明年4月蓝桥杯软件赛的同学们,如果你是大一零基础,目前懵懂中,不知该怎么办,可以看看本博客系列:备赛20周合集 20周的完整安排请点击:20周计划 每周发1个博客,共20周(读者可以按…

AI人工智能对话系统网页版源码系统 附带完整的搭建教程

AI人工智能对话系统网页版源码系统的开发背景主要是基于自然语言处理技术和机器学习算法的不断发展。自然语言处理技术使得计算机能够理解和分析人类语言,而机器学习算法则能够让计算机自我学习和改进,不断提高对话系统的智能化水平。 此外,…

有序表的详解

目录 有序表的介绍 树的左旋和右旋操作 AVL树的详解 SB树的详解 红黑树的介绍 SkipList的详解 有序表的介绍 有序表是除具备哈希表所具备的功能外,有序表中的内容都是按照key有序排列的,并且增删改查等操作的时间复杂度都是,红黑树&…

单片非晶磁性测量系统非晶测量方法

非晶测量方法 单片法是国际主流的非晶测量方法之一,如美标 A932 和日标 H7152 均早已提出了该方法;2014 年 IEC 起草的标准,和我国 2015 年重新修订的 GB/T 19345.1 标准中均明确提出了单片法测量非晶磁性能。单片法与环样法相比&#xff0c…

表单考勤签到作业周期打卡打分评价评分小程序开源版开发

表单考勤签到作业周期打卡打分评价评分小程序开源版开发 表单打卡评分 表单签到功能:学生可以通过扫描二维码或输入签到码进行签到,方便教师进行考勤管理。 考勤功能:可以记录学生的出勤情况,并自动生成出勤率和缺勤次数等统计数…

SpringBoot项目连接,有Kerberos认证的Kafka

在连接Kerberos认证kafka之前,需要了解Kerberos协议 二、什么是Kerberos协议 Kerberos是一种计算机网络认证协议 ,其设计目标是通过密钥系统为网络中通信的客户机(Client)/服务器(Server)应用程序提供严格的身份验证服务,确保通信双方身份的真…

​LeetCode解法汇总2304. 网格中的最小路径代价

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: 给你一个下…

AMESim与MATLAB联合仿真demo

本文是AMESim与MATLAB联合仿真的demo,记录一下如何进行联合仿真。 AMESim与MATLAB联合仿真可以大幅度提高工作效率。 author:xiao黄 缓慢而坚定的生长 csdn:https://blog.csdn.net/Python_Matlab?typeblog主页传送门 博主的联合仿真环境如下&#xff…

用友BIP与用友BIP对接集成销售出库列表查询连通销售出库单个保存((红字)销售出库审核-v)

用友BIP与用友BIP对接集成销售出库列表查询连通销售出库单个保存((红字)销售出库审核-v) 源系统:用友BIP 面向数智化市场,用友倾力打造了全球领先的数智商业创新平台——用友BIP,定位为数智商业的应用级基础设施、企业服务产业的共…