随着ChatGPT推出插件和函数调用功能,构建以LLM(大语言模型)为核心控制器的AI Agent愈发成为一个拥有无限可能的概念。
AI Agent是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,具有自主理解、感知、规划、记忆和使用工具的能力,能自动化执行复杂任务的系统,具有独立思考和行动能力的AI程序。在人工智能中,AI Agent是以智能方式决策的代理,它感知环境,自主采取行动以实现目标,并可以通过学习或获取知识来提高其性能。
AI Agent本质上是一个构建在LLM(大模型)之上的智能应用,也就是说AI Agent是大模型的上层应用。用公式表示为:Agent = LLM(大模型) +记忆+感知与反思+规划+工具使用
由上图可见,AI Agent由记忆、规划、工具使用和行动四个主要模块组成。
记忆模块:记忆就类似于人类大脑的记忆功能,记录了智能体内部日志以及和用户交互历史,记忆又分为短期记忆和长期记忆。短期记忆,是指在执行任务的过程中的上下文,长期记忆提供保留和召回长期信息的能力,通常是一个外部的向量库。
规划模块:主要由两部分组成,其一是思维链,其二就是目标分解,为了某一目标任务而作出的决策过程。
工具使用:大模型本身只有思想,在处理不同的事情时,需要不同的工具,同样地,智能体能够利用外部资源或工具来执行任务,比如:计算器、搜索工具、代码执行器等。
行动模块:智能体实际执行决定或响应的部分。