今日arXiv最热NLP大模型论文:微软重磅:AgentAI,下一代人工智能的关键

news2024/12/23 15:17:55

人工智能的发展已从简单算法进化到复杂的大型基础模型,尤其在理解开放世界环境中的感官信息方面取得显著进步。然而,关键转折点在于从过度简化方法转向强调整体运作的系统,催生了Agent AI的兴起。Agent AI将大型基础模型整合到代理行动中的具体系统,涉及机器人学、游戏和医疗保健等多领域。本文提出新的代理基础模型,展现其在多个任务和领域中的非凡能力,挑战传统学习和认知观念。同时,从跨学科角度探讨Agent AI潜力,强调AI认知和意识的重要性。这些讨论为未来研究奠定基础,促进社会广泛参与。

本文深入探讨了Agent AI的基础,强调了智能代理在物理、虚拟或混合现实环境中,根据感官输入自主执行情境相关行动的能力。这种新范式突出了具身智能的重要性,强调整合复杂动态交互代理方法的必要性。我们坚信,智能源于学习、记忆、行动、感知、规划和认知间的复杂互动。Agent AI框架(下图)的构建将促进AI社区对从被动、结构化任务模型向复杂环境中动态交互角色模型的转变所需见解和知识的积累。这是迈向人工通用智能(AGI)的关键一步。

分享几个自用的Claude 3和GPT-4的镜像站给大家吧,均为国内可用:


hujiaoai.cn(最牛的Claude 3 Opus,注册即用,测评下来完全吊打了GPT4)

higpt4.cn(稳定使用一年的chatgpt-4研究测试站,非商业目的,而且用的是最牛的128k窗口的版本)

图片

论文标题:
Position Paper: Agent AI Towards a Holistic Intelligence

论文链接:
https://arxiv.org/pdf/2403.00833.pdf

Agent AI的定义与重要性

1. Agent AI的概念和目标

Agent AI,或称为代理人工智能,是一种智能体,能够基于感官输入自主执行适当且与上下文相关的行动,无论是在物理、虚拟还是混合现实环境中。Agent AI代表了一种新的范式,强调了整合智能体在复杂动态中的互动方式的重要性。这种方法的动力来自于认为智能源自于学习、记忆、行动、感知、规划和认知之间错综复杂的相互作用(下图)。

图片

2. Agent AI在多模态交互中的应用

Agent AI在多模态交互中的应用广泛,包括机器人学、游戏和医疗保健系统等。例如,在机器人学中,Agent AI能够解析人类的指令并执行高级任务;在游戏中,它能够根据玩家的行动和自然语言指令进行交互;在医疗保健中,Agent AI可以帮助诊断和患者护理。这些应用展示了Agent AI跨领域和任务的显著能力,挑战了我们对学习和认知的理解。

Agent基础模型的构建

1. Agent Transformer的多模态编码器

Agent Transformer是一种基于变换器的多模态编码器(下图),它允许交互式代理基于多模态信息采取行动。这个模型由三个预训练的子模块初始化:视觉模块、代理行动模块和语言模块。这种设计使得代理能够预测完成机器人、游戏和交互式医疗任务所需的行动(或行动标记)。

图片

2. Agent学习策略:强化学习与模仿学习

Agent学习策略包括强化学习(RL)和模仿学习(IL)。RL是一种基于奖励(或惩罚)来学习状态和行动之间最佳关系的框架,已被广泛应用于机器人学等领域。IL则利用示范数据来模仿人类专家的行动,例如在机器人学中,通过行为克隆(BC)方法,机器人被训练来模仿专家在特定任务中的行动。

3. Agent系统中的优化问题

Agent系统的优化问题可以分为空间和时间两个方面。空间优化考虑代理在物理空间中执行任务的方式,包括机器人之间的协调、资源分配和保持有序的空间。时间优化则关注代理随时间执行任务的方式,涉及任务调度、序列化和时间线效率。

4. 自我改进的Transformer模型

当前基于基础模型的AI代理能够从多种不同的数据源中学习,这允许更灵活的数据来源用于训练。自我改进的代理可以通过环境交互持续学习和改进,例如在机器人教学中,Agent AI根据人类提供的多模态指令理解其需要做什么,然后在虚拟世界中生成图像或场景,并利用用户反馈进行迭代改进,逐渐适应环境。

Agent AI的分类与研究

Agent AI根据环境和动作内容两个维度可划分成四个类别(下图)。环境分物理世界还是虚拟世界,而动作内容涉及低级别精细动作操控的,我们称之为“操控动作”(Manipulation action);代理的动作可能主要旨在为机器人或人类的意图指令进行高级信息传递,我们称之为“意图动作”(Intentional action)。

图片

1. 物理环境中的操控动作

物理环境中的操控动作主要指在实体环境中进行物理互动的智能体,如机器人技术。这类Agent的研究重点在于如何使机器人能够理解高层次的指令并将其分解为一系列的物理操控动作。例如,Brohan等人提出的RT-1[1]和RT-2[2]模型,就是通过将一系列图像和语言输入转化为机器人基座和手臂的动作序列,展现了在机器人领域的高泛化性能(下图是RT-2模型示意图)。

图片

2. 虚拟环境中的操控动作

虚拟环境中的操控动作在模拟环境中进行学习和任务执行,如视频游戏中的智能体。这些Agent的学习目标通常是在模拟环境内进行,而不是过渡到物理世界。研究表明,基于大规模文本、图像和视频数据训练的通用视觉语言模型可以作为多模态Agent的基础,使其能够在不同环境中行动。

3. 物理环境中的意图动作

物理环境中的意图动作是在实体环境中进行非物理互动,如在医疗保健领域的应用。这些Agent能够理解用户的意图,检索临床知识,并在人与人的互动中发挥作用。例如,Lee等人研究的医疗聊天机器人[3],展示了利用大型语言模型进行病人诊断的潜力。

4. 虚拟环境中的意图动作

虚拟环境中的意图动作在游戏、虚拟现实(VR)和扩展现实(XR)中创建互动内容。这类Agent能够遵循指令进行导航,并在特定游戏中展现超人的表现。例如,Meta Fundamental AI Research等人的研究表明,Agent AI在特定游戏中的表现超越了人类[4]。

5. 非实体化的多模态Agent分类

非实体化的多模态Agent强调使用多模态信息进行有益的非实体化动作。这类Agent需要具备高度的语言和视觉识别能力,利用大型基础模型来执行任务规划和逻辑推理等。

Agent AI的应用领域

1. 机器人技术中的应用

机器人作为典型的Agent,需要与环境有效互动。例如,使用大型基础模型作为输入信息的编码器,指导机器人基于语言指令和视觉线索进行动作。此外,LLMs的高级语言处理能力有助于推进任务规划技术[5](下图是GRID模型示意图,利用指令、场景图和机器人图作为机器人任务规划的输入)。

图片

2. 游戏领域的创新

游戏提供了一个独特的沙盒环境,测试大型基础模型的合作和决策能力。Agent AI在游戏中的应用,如NPC行为、人与NPC的互动以及游戏分析,都在推动游戏体验的革新。

3. 交互式医疗保健的潜力

Agent AI在医疗保健中的应用,如诊断Agent和知识检索Agent,能够帮助患者和医生,通过理解用户意图、检索临床知识和把握正在进行的人际互动,提高医疗服务的可及性和质量。

4. 交云互动多模态任务的挑战

Agent AI在多模态任务中的应用,包括图像和语言理解与生成、视频语言理解与生成等,这些任务对于开发能够与世界以更类似于人类的方式互动的AI代理至关重要。

部署Agent AI的未来方向

1. 探索新范式

Agent AI的未来发展需要探索新的范式,这意味着要超越现有的模型和算法,寻找更加综合和全面的方法来理解和处理信息。这可能包括将不同模态的数据(如视觉、语言和传感器输入)整合到一个统一的框架中,以解决大规模模型中常见的幻觉和偏见问题,从而提高识别和响应能力。

2. 通用端到端系统

未来的Agent AI系统将朝向构建通用的端到端模型发展,这些模型能够利用大规模数据进行训练,以适应多样化的应用场景。这样的系统能够灵活地适应不同的任务和环境,从而推动AI解决方案的多功能性和适应性。

3. 模态间的接地方法

通过跨模态信息的整合,我们可以提高数据处理的连贯性和效率。例如,结合视觉和语言信息来理解和描述图像内容,或者利用历史行为数据来预测未来的动作。这种方法有助于提高Agent AI系统的理解和响应能力。

4. 直观的人机界面

开发直观的人机界面对于促进人与Agent AI之间的有效和有意义的互动至关重要。这包括创建能够理解自然语言指令的系统,以及设计能够根据用户意图和环境反馈进行适应性响应的界面。

5. 控制LLM/VLM的偏见和幻觉

为了控制大型语言模型(LLM)和视觉语言模型(VLM)的偏见和幻觉,研究人员正在探索新的方法,如使用检索增强的生成技术或其他外部知识检索机制。这些方法旨在通过检索额外的源材料并提供机制来检查生成响应与源材料之间的矛盾,从而减少幻觉发生率。

6. 模拟与现实之间的桥梁

所谓的"模拟到现实"问题强调了将在模拟环境中训练的AI代理部署到现实世界中的挑战。为了解决这些问题,策略包括域随机化、域适应和改进模拟[6]的方法,以更好地准备模型应对现实世界的不可预测性。下图就是文献提出的任务序列模拟器可为机器人操纵的学习和执行提供场景组合。

图片

7. 多Agent互动的复杂性

Agent AI交互目前仍然是一个复杂的过程,需要结合多种技能。当前的人机交互系统在多代理环境中主要是基于规则的。它们确实在一定程度上具有智能行为,并且具有一些网络知识。在代理系统设计中实现特定行为的多代理互动非常重要。

8. Agent基础设施与系统的建设

Agent AI的快速发展需要强大的基础设施来支持它们的训练、评估和部署。在娱乐、研究和工业领域内,Agent AI社区正在迅速扩大。构建高质量的代理基础设施对于使用先进硬件、多样化的数据来源和强大的软件库来开发多模态代理副驾驶员具有重要影响。

面向Agent AI的挑战

1. 未结构化环境的适应性

Agent AI需要能够适应未结构化的环境,这意味着它们必须能够处理视觉输入对于高级意图和低级动作的影响,即使在给定相同目标指令的情况下也是如此。

2. Agent的共情能力

Agent AI需要具备共情能力,以便在开放式对象集中做出决策,这些对象集要求代理的决策模块使用难以手动编码的常识知识。

3. 多Agent互动与协作

Agent AI需要能够理解和操作超出基于模板的命令,还要能够理解日常语言中表达的目标、约束和部分计划的上下文,以实现多代理互动和协作。

4. 大型Agent基础模型的新能力

随着Agent AI领域的发展,我们需要开发出能够在新领域中进行微调/预训练的模型,以便它们能够处理在未见过的环境或情景中的泛化性能挑战。这可能涉及到利用通用基础模型的知识-记忆来处理新颖场景,特别是在生成人类与代理之间的协作空间方面。

新兴能力与混合现实

1. 交互式Agent的跨模态协作

在混合现实的背景下,交互式Agent的跨模态协作是实现有效人机交互的关键。这种协作涉及到Agent能够理解和响应来自不同感官模态的信息,比如视觉、听觉和触觉。例如,一个机器人可能需要通过视觉模块识别物体,通过听觉模块理解人类的语音指令,再通过触觉模块与物理环境互动。这种跨模态的信息处理能力,不仅要求Agent具备强大的感知能力,还要求其能够在不同模态之间进行有效的信息整合和决策。

2. 跨现实环境的适应性

Agent在跨现实环境中的适应性是指其能够在物理世界和虚拟世界之间无缝切换并执行任务的能力。这要求Agent不仅要能够理解和适应现实世界的物理规律,还要能够在虚拟环境中根据预设的规则行动。例如,在虚拟现实游戏中,Agent需要根据游戏规则和玩家的互动来做出响应;而在现实世界中,同样的Agent可能需要根据物理定律和环境变化来操作机械臂完成任务。这种能力的提升,不仅能够增强Agent的灵活性和适用范围,还能够为人类提供更加丰富和沉浸式的交互体验。

结论与展望

1. Agent AI的未来发展

Agent AI是个有前景的新兴领域,能在多领域发挥重要作用。它具有整合性和适应性,能理解和执行自然语言指令,处理视听输入,在复杂环境中规划执行任务。未来,它可能发展出类似“意识”的特性,更好地理解和预测环境变化,与人类用户深度交互。同时,其在模拟环境中的自我改进能力提升后,能更好地适应现实世界,实现从模拟到现实的无缝过渡。

2. 对人工智能全面理解的贡献

Agent AI的发展对全面理解人工智能有显著贡献。它促进了跨学科研究,有助于探索智能体的认知和意识,为未来研究提供基础,鼓励广泛的社会参与。随着技术发展,我们有望看到AI代理在复杂环境中扮演更动态、互动的角色,这是迈向AGI的关键一步。Agent AI的进步有助于理解学习和认知过程,为实现全面智能体系提供新视角。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1543675.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何实现无公网IP及服务器实现公网环境企业微信网页应用开发调试

文章目录 1. Windows安装Cpolar2. 创建Cpolar域名3. 创建企业微信应用4. 定义回调本地接口5. 回调和可信域名接口校验6. 设置固定Cpolar域名7. 使用固定域名校验 企业微信开发者在应用的开发测试阶段,应用服务通常是部署在开发环境,在有数据回调的开发场…

❤ leetCode简易题1-两数之和、简易2--回文数判断、简易14-最长公共前缀

❤ leetCode简易题1-两数之和、简易题14- 最长公共前缀 1、简易1-两数之和 ① 题目要求 数字A B target,以target为求和结果,找出数组中符合的A、B数字下标。 第一次做的时候完全脑子一片蒙,随后认真看了看题目发现是发现找符合target和…

rust中字符串String常用方法和注意事项

Rust 中通常说的字符串指的是&#xff1a;String 和 &str(字符串字面值、或者叫字符串切片)这两种类型。str是rust中基础字符串类型&#xff0c;String是标准库里面的类型。Rust 中的字符串本质上是&#xff1a;Byte的集合&#xff08;Vec<u8>&#xff09; 基础类型…

职场口才提升之道

职场口才提升之道 在职场中&#xff0c;口才的重要性不言而喻。无论是与同事沟通协作&#xff0c;还是向上级汇报工作&#xff0c;亦或是与客户洽谈业务&#xff0c;都需要具备良好的口才能力。一个出色的职场人&#xff0c;除了拥有扎实的专业技能外&#xff0c;还应具备出色…

gsxt cookie:__jsl_clearance_s 参数研究获取

gsxt cookie&#xff1a;__jsl_clearance_s 参数研究获取 今天尝试了一下 gsxt 网站中 cookie __jsl_clearance_s 参数解密 抓包 打开 fiddler 抓包工具&#xff0c;新建无痕浏览器页面刷新后得到抓包数据 发现后续的所有的请求都会携带这两个加密参数 __jsl_clearance_s17…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之六 简单图像倾斜校正处理效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之六 简单图像倾斜校正处理效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之六 简单图像倾斜校正处理效果 一、简单介绍 二、简单图像倾斜校正处理效果实现原理 三、简单图像倾斜校正…

2024年升级_python风控建模实战lendingClub_新增2020年数据(14万条)

作者Toby&#xff0c;来源公众号&#xff1a;python风控模型《python风控建模实战lendingClub_新增2020年数据&#xff08;14万条&#xff09;》 公告通知&#xff0c;我方重庆未来之智信息技术咨询服务有限公司自研课程《python风控建模实战lendingClub》2024年升级&#xff…

20240325数据驱动的机器学习预测单层二维材料力学性能

本论文使用模型主要有Mo,W,S,Se原子组成的单层二维材料。大小为30nmx30nm&#xff0c;中间有切口&#xff0c;切口大小从无切口以1nm增长到5nm&#xff0c;加载方向垂直于切口方向&#xff0c;并且分锯齿型和扶手椅型方向。 使用MD对模型进行拉伸&#xff0c;一共288个模型。 …

题目42—接雨水

题目来源于LeetCode 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 方法&#xff1a;使用单调栈。找到中间凹槽位置&#xff0c;并利用单调栈找出其左边的第一个最高柱子&#xff0c;右边的第一个最高柱…

NKCTF 2024(三月周报比赛一)

web My first cms 扫目录找到管理员界面登陆&#xff0c;账号Admin&#xff0c;密码Admin123,账号可以根据forget来进行查询是否存在&#xff0c;然后进行弱密码攻击&#xff0c;这里网上有两种rce&#xff0c;一种sstl一种代码执行 我用的是第二种 EXtension>use defined…

上班几周了,

过年回来后&#xff0c;时间变得飞快&#xff0c;很多事情都是马上要去干&#xff0c;而且又是很着急的事&#xff0c;呵呵&#xff0c;真的要干趴了 然后——经历了第一次年后的周末连续加班出版本保量产&#xff0c;经历了加班到凌晨3点调试问题&#xff0c;经历我们在疯狂的…

人物百度百科怎么做?需要什么资料?

在互联网时代&#xff0c;百度百科作为国内最具权威性的知识分享平台&#xff0c;吸引了大量用户关注和参与。究竟哪些人适合创建和编辑人物百度百科呢&#xff1f;本文伯乐网络传媒将为您揭秘人物百度百科的适用人群&#xff0c;并详细介绍如何注册、登录、创建及维护人物百度…

Python爬虫学习完整版

一、什么是爬虫 网络爬虫&#xff0c;是一种按照一定规则&#xff0c;自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性&#xff0c;根据用户需求定向抓取相关网页并分析也成为如今主流的爬取策略。 1 爬虫可以做什么 你可以爬取网络上的的图片&#…

小孔平板应力集中问题matlab有限元编程【源码+PPT讲义】|三节点三角形单元|平面单元|稀疏矩阵 |Comsol网格

专栏导读 作者简介&#xff1a;工学博士&#xff0c;高级工程师&#xff0c;专注于工业软件算法研究本文已收录于专栏&#xff1a;《有限元编程从入门到精通》本专栏旨在提供 1.以案例的形式讲解各类有限元问题的程序实现&#xff0c;并提供所有案例完整源码&#xff1b;2.单元…

python中类的导入与使用

1、类的介绍 与C中面向对象思想类似&#xff0c;有时候为了方便&#xff0c;需要专门创建一个类&#xff0c;将相关的函数全部写入到该类中&#xff0c;方便后续创建对象&#xff0c;再使用类中函数。那么如何创建完类&#xff0c;在其他文件中使用类中函数&#xff0c;这是这篇…

FreeRtos学习笔记(12)systemView 分析任务调度情况

FreeRtos学习笔记&#xff08;12&#xff09;systemView 分析任务调度情况 使用stm32f429 freertosV10.5.1 systemView 3.5 keil AC5 systemView 移植 从官网下载 systemView 软件 将下面文件添加到工程中 freertos 修改 systemView 需要 FreeRTOSConfig.h 开启如下宏, …

NSS [SWPUCTF 2022 新生赛]Power!

NSS [SWPUCTF 2022 新生赛]Power! 开题。 随便传一个111&#xff0c;后端进行了一个文件包含操作。 输入index.php&#xff0c;回显了一个不可显示图片。 有点小蒙蔽的&#xff0c;一般这种情况就源码&#xff0c;抓包&#xff0c;扫描。源码里面果然有货。 base解码后是index…

城市繁荣需要交通枢纽,企业发展需要营销枢纽

交通、运输、贸易 流量&#xff0c;人流、信流 单词都是&#xff1a;TRAFFIC 大城市都需要铁路、机场等交通枢纽&#xff0c;来承接人流、信息流的inbound“到达、着陆”&#xff0c;城市经济才能得以持续繁荣。 在数字营销技术领域有个非常著名的营销模式叫“inblound marke…

《C++ Primer 第五版 中文版》第12章 动态内存【阅读笔记 + 个人思考】

《C Primer 第五版 中文版》第12章 动态内存【阅读笔记 个人思考】 12.1 动态内存与智能指针12.1.1 shared_ptr类 静态内存包括&#xff1a;初始化只读数据段&#xff0c;初始化读写数据段&#xff0c;未初始化数据和常量数据段。 详细在下面博客总结&#xff1a; Linux系统下…

linux系统编程 socket part2

报式套接字 1.动态报式套接字2.报式套接字的广播3.报式套接字的多播4.UDP协议分析4.1.丢包原因4.2.停等式流量控制 接linux系统编程 socket part1 1.动态报式套接字 在之前的例子上&#xff0c;发送的结构体中的名字由定长改变长。可以用变长结构体。 变长结构体是由gcc扩展的…