博主原文链接:https://www.yourmetaverse.cn/nlp/514/
Langchain的Agents介绍
一、核心概念:
Langchain的Agents核心理念是使用语言模型来选择一系列的动作。与硬编码的动作链不同,Agents利用语言模型作为推理引擎,确定采取哪些动作以及顺序。
二、主要组成部分:
- Agent: 负责决定下一步采取的动作,由语言模型和提示驱动。输入包括:可用工具的描述、用户高层目标和为达到用户目标而执行的任何动作和工具输出对。
- Tools: Agents可以调用的函数。关键在于提供适当的工具并以对Agent有帮助的方式描述这些工具。LangChain提供了一系列内置工具,并简化了自定义工具的定义。
- Toolkits: 针对常见任务,Agent可能需要一组相关工具。LangChain提供了诸如GitHub toolkit之类的工具集,以实现特定目标。
- AgentExecutor: Agent的运行时,负责调用Agent,执行它选择的动作,并将动作输出反馈给Agent。此过程涵盖处理Agent选择不存在的工具、工具错误以及无法解析为工具调用的输出等复杂情况。
三、构建Agent:
- 使用LangChain表达式语言(LCEL)从头开始构建Agent,定义自定义工具,并在自定义循环中运行Agent和工具。
- 设置LangSmith,以便在构建时自动跟踪内置或自定义Agent的所有步骤和工具输入输出。
- 定义Agent:例如,使用OpenAI Function Calling创建能够计算单词长度的自定义工具。这是创建Agent的可靠方式。
- 使用Agent:通过传递简单的问题和空白的中间步骤,来测试Agent的反应。
- 使用AgentExecutor类简化过程,它整合了错误处理、提前停止、跟踪等质量提升措施。
- 添加记忆:为了使Agent能够记住之前的交互并轻松处理后续问题,需要向Agent中添加记忆功能。
以上是Langchain的Agents模块的概览,涵盖了其核心概念、组成部分、以及如何构建和使用Agent。这些功能为开发者提供了强大且灵活的工具,以实现更复杂的自动化任务和流程。
四、Agent类型介绍:
Langchain提供多种类型的Agents,每种都有其独特的应用和特点:
-
Zero-shot ReAct: 使用ReAct框架根据工具的描述来决定使用哪个工具。需要为每个工具提供描述。这是最通用的动作代理。
-
Structured input ReAct: 能够使用多输入工具的代理。与旧代理不同,它可以使用工具的参数模式创建结构化的动作输入。这对于复杂工具的使用(如精确导航浏览器)非常有用。
-
OpenAI Functions: 专为与特定OpenAI模型(如gpt-3.5-turbo-0613和gpt-4-0613)协作而设计。这些模型已被明确地微调,以便在需要调用函数时检测并响应应传递给函数的输入。
-
Conversational: 用于对话设置的代理。其提示旨在使代理有助于对话。它使用ReAct框架来决定使用哪个工具,并使用记忆功能来记住之前的对话互动。
-
Self-ask with search: 使用名为
Intermediate Answer
的单一工具来查找问题的事实答案。这种代理类似于原始的自问自答搜索论文,其中提供了Google搜索API作为工具。 -
ReAct document store: 使用ReAct框架与文档存储进行互动。必须提供两种工具:
Search
和Lookup
。Search
工具用于搜索文档,而Lookup
工具用于在最近找到的文档中查找术语。此代理与原始ReAct论文中的Wikipedia示例相当。
这些Agents类型展示了Langchain在实现复杂自动化任务和流程方面的灵活性和强大功能。