探索大型多模态智能代理的前沿进展

人工智能咨询培训老师叶梓转载标明出处

在人工智能领域，代理被定义为能够感知环境并基于这些感知做出决策以实现特定目标的系统。尽管早期的代理在特定领域表现出了专业性，但它们通常缺乏适应性和泛化能力，现实世界的场景往往涉及超出文本的多种信息模态，特别是视觉信息。为了使这些代理能够处理更复杂和微妙的任务，研究者们开始将这些基于LLM的代理扩展到多模态领域。香港中文大学（深圳）、深圳市大数据研究院和中山大学的研究团队综述了由LLM驱动的多模态代理，简称为大型多模态代理（LMAs），并探讨了它们的关键组件、研究进展、评估方法和未来研究方向。

论文链接：https://arxiv.org/abs/2402.15116

LMAs的核心组件

LMAs的核心组件包括感知、规划、行动和记忆。它们相互协作：感知组件收集信息，规划组件制定策略，行动组件执行任务，记忆组件存储和检索经验，共同提升LMA的决策和任务执行能力。

所有大型多模态代理（LMAs）的组件细节，包括它们针对任务的模态、规划模型、规划中使用的方法和格式、涉及的动作类型、多代理协作的范围，以及长期记忆的整合

感知组件

感知是LMAs中模拟人类如何收集和解释环境信息的复杂认知过程。在LMAs中，感知组件主要处理来自不同环境的多模态信息。例如，视觉、文本、音频和视频等不同模态的信息需要被有效地提取和解释，以便于后续的规划和任务执行。早期研究通常依赖于简单的相关模型或工具将图像或音频转换为文本描述，但这种方法可能会产生大量不相关和冗余信息。为了解决这一问题，近期研究引入了子任务工具的概念，这些工具被设计来处理复杂的数据类型。

规划组件

规划组件在LMAs中扮演着类似于人脑的角色，负责对当前任务进行深入推理并制定相应计划。与仅使用语言的代理相比，LMAs在更复杂的环境下运作，这使得制定合理计划更具挑战性。规划过程涉及模型、格式、检查与反思以及规划方法四个方面：

模型（Models）：选择适合的模型（如GPT-3.5或GPT-4）作为规划器的基础。

格式（Format）：决定规划结果的表述方式，可以是自然语言描述或程序代码形式。

检查与反思（Inspection & Reflection）：在复杂环境中，LMA需要不断检查和反思以提高计划的质量和适应性。

规划方法（Planning Methods）：采用动态规划或静态规划策略，根据任务需求和环境反馈调整计划。

行动组件

行动组件负责执行由规划器制定的计划和决策。它将这些计划转化为具体行动，如使用工具、物理移动或与界面的交互，确保代理能够准确高效地实现目标并与环境互动。行动可以分为工具使用、具体行动和虚拟行动三类，并且有两种主要的方法：使用提示来提供可执行行动的信息，以及利用行动数据自我指导开源大型模型的微调过程。

记忆机制

记忆机制在通用代理的运作中起着至关重要的作用。与人类类似，代理中的记忆可以分为短期记忆和长期记忆。在更复杂和现实的环境中，长期记忆变得至关重要。只有少数的LMA集成了长期记忆，这些多模态代理需要长期记忆能够跨不同模态存储信息。一些研究将所有模态转换为文本格式进行存储，而另一些研究则提出了专门设计用于存档先前成功经验的多模态长期记忆系统。

不同工具的总结，包括它们对应的模态（modalities）、技能（skills）以及可用的来源（available sources）

LMAs的分类

现有研究根据是否使用长期记忆和规划器的类型将LMA分为四类：没有长期记忆的闭源LLM规划器、没有长期记忆的微调LLM规划器、具有间接长期记忆的规划器和具有本地长期记忆的规划器。

类型 I: 闭源大型语言模型作为规划器，无长期记忆

这一类LMA使用提示技术利用闭源的大模型（例如GPT-3.5）作为推理和规划的规划器。这些模型通常在较简单的设置中运行，执行传统任务，如图像编辑、视觉定位和视觉问题回答（VQA）。这些LMA的执行可能由下游工具包或通过使用物理设备（如鼠标或机械臂）直接与环境交互来完成。

类型 II: 微调的大型语言模型作为规划器，无长期记忆

这一类LMA涉及收集多模态指令执行数据或使用自我指令来微调开源的大模型（如LLaMA）或多模态模型（如LLaVA）。这种增强不仅使模型能够作为推理和规划的中心“大脑”，还能够执行这些计划。与类型I类似，类型II的LMA通常涉及传统的视觉或多模态任务。

类型 III: 具有间接长期记忆的规划器

对于类型III的LMA，大模型作为中央规划器，并配备长期记忆。这些规划器通过调用相关工具来访问和检索长期记忆，利用这些记忆进行增强的推理和规划。例如，为动态任务（如视频处理）开发的多模态代理框架包括规划器、工具箱和目录化视频内容的空间和时间属性的任务相关记忆库。

类型 IV: 具有本地长期记忆的规划器

与类型III不同，类型IV的LMA的特点是大模型直接与长期记忆交互，绕过了使用工具访问长期记忆的需要。例如，在Minecraft中的开放世界环境中，所提出的多模态代理展示了在完成200多个不同任务方面的熟练程度。在多模态代理设计中，交互式规划器将多模态基础模型与大型语言模型合并，首先将环境多模态输入转换为文本。规划器进一步采用自检机制来预测和评估执行中的每一步，主动发现潜在缺陷，并结合环境反馈和自我解释，迅速纠正和完善计划，无需额外信息。

多代理协作

在多代理协作的背景下，大型多模态代理（LMAs）不再作为孤立的实体运作，而是作为一个团队中的成员，与其他代理共同协作以实现更加复杂和高级的任务目标。这种协作框架的核心在于每个代理都有其独特的角色和责任，它们通过协调各自的行为来共同完成任务，从而提高整体的效能和适应性。

两种多代理框架的图示
(a) 多代理框架，代理们协作完成任务，每个代理负责特定的职责
(b) 与(a)类似，但具有长期记忆能力

协作机制是多代理系统中的关键组成部分。它涉及到代理之间的有效沟通和信息共享，确保团队成员能够同步它们的行动并解决冲突。通信协议定义了代理如何交换信息，包括信息的格式、传递方式以及响应机制。这些协议对于确保信息的准确传递和理解至关重要。

任务分配是多代理协作中的另一个关键方面。在面对复杂任务时，系统需要能够将任务分解为可管理的子任务，并根据每个代理的能力和当前的工作负载进行分配。有效的任务分配策略可以提高团队的工作效率，确保任务能够快速且准确地完成。

长期记忆在多代理协作中也扮演着重要角色。一些系统设计了记忆组件，允许代理存储和检索先前的经验，以指导当前和未来的规划和决策。这种记忆能力可以显著提高代理在面对新任务或未知环境时的适应性和灵活性。

在特定应用场景中，多代理协作的实际应用展示了其强大的潜力。例如，在自动化移动任务或用户界面测试中，不同的代理可以分别负责探索、选择、执行和记忆等不同任务，通过它们的协作来提高整个系统的自动化能力和效率。

然而，多代理协作也面临着一系列挑战。设计灵活和可扩展的协作框架，提高代理之间的协作智能，以及如何更好地整合记忆组件来提升系统能力，都是未来研究需要关注的方向。随着技术的进步和对这些挑战的克服，多代理协作有望在人工智能领域发挥更加重要的作用。

评估方法

主观评估

主观评估依赖于人类的判断来评估LMA的能力。由于我们的目标是创建能够像人类一样理解世界并自主执行各种任务的LMA，因此采用人类用户对LMA能力的主观评估至关重要。主要的评估指标包括多功能性、用户友好性、可扩展性和价值与安全性。

多功能性：指LMA灵活使用不同工具、执行物理和虚拟动作以及管理各种任务的能力。

用户友好性：涉及用户对LMA完成任务结果的满意度，包括效率、准确性和结果的丰富性。

可扩展性：评估LMA吸收新能力和应对新挑战的能力，这对于适应人类需求的动态性至关重要。

价值与安全性：除了其他指标外，评估LMA对人类的实际意义和安全性也非常重要。

客观评估

与主观评估不同，客观评估依靠定量指标来全面、系统和标准化地评估LMA的能力。这是多模态代理研究中最广泛采用的评估方法。

指标：在多模态代理研究中，使用特定于任务的指标，例如视觉问题回答（VQA）任务中代理生成答案的准确性。

基准测试：基准测试是用于评估和比较不同算法或系统性能的测试环境，包括评估标准、数据集和任务的集合。

现有的LMA评估多依赖于主观评价和客观的定量指标，但面临评估标准不一致和缺乏标准化基准的挑战。为了推动领域进步，需要制定统一的评估框架和建立具有代表性的基准数据集，以更准确地衡量LMAs的性能和推动技术的持续创新。

论文提出了一个全面评估框架的概念，旨在标准化评估过程，以便更有意义地比较不同的LMA。这个框架通过设计一系列针对性的评估任务和定义清晰的评估指标，旨在全面衡量LMA在多模态信息处理、决策制定、任务执行以及环境适应等关键能力上的表现。通过这种系统化的评估方法，可以更准确地识别每个LMA的优势和局限，进而为技术改进和应用开发提供指导。

面向未来，评估方法需不断发展以适应LLM驱动的LMA。这要求研究者开发更为复杂和精细的评估工具，以准确衡量LMA在多样化任务中的表现。随着技术的进步，评估方法也需同步更新，以确保能够全面捕捉到LMA的能力提升和应用潜力。

LMAs的应用

GUI自动化

LMAs在图形用户界面（GUI）自动化方面的应用，旨在理解和模拟人类在用户界面中的行为，以执行重复性任务、跨多个应用程序的导航，以及简化复杂工作流程。这种自动化不仅能节省用户的时间与精力，还能让用户专注于工作中更具创造性和关键性的方面。例如，GPT-4V-Act结合了GPT-4V的能力与网络浏览，以改善人机交互，使用户界面更易于访问，简化工作流程自动化，并增强自动化的UI测试。

机器人与具体化AI

在机器人和具体化AI领域，大型多模态代理（LMAs）通过集成先进的感知、推理和行动能力，极大地增强了机器人与环境的交互。这些系统能够利用视觉、听觉和触觉等多种感官数据，实现更为复杂和精细的任务执行。例如，MP5系统通过在Minecraft这样的虚拟环境中使用主动感知，展示了智能地分解和执行广泛任务的能力，这证明了LMAs在虚拟环境中的实用性和灵活性。

游戏开发

游戏开发领域也从LMA的集成中受益，其中游戏AI设计用于提供更高级的智能和现实感，从而增强玩家体验。通过将代理技术整合到游戏中，开发者能够创造出更加复杂和互动的虚拟世界，提供更具挑战性和沉浸感的游戏体验。

自动驾驶

在自动驾驶领域，传统方法在有效感知和解释复杂场景方面面临障碍。LMAs技术的最新进展，特别是由LLMs驱动的，标志着在克服这些挑战和弥合感知差距方面取得了实质性进步。例如，GPT-Driver使用OpenAI GPT-3.5模型作为自动驾驶车辆的可靠运动规划器，专注于生成安全舒适的驾驶轨迹。

视频理解

视频理解方面，LMA通过深度学习技术的应用，能够分析和理解视频内容，识别其中的对象、动作和场景。这种能力对于提升视频内容分析的准确性和效率至关重要，为自动视频分析和内容创作提供了强大的技术支持。

视觉生成与编辑

这类应用旨在创建和操作视觉内容。使用先进技术，这个工具可以轻松创建和修改图像，为用户提供灵活的创意项目选项。例如，LLaVA-Interactive是一个开源的多模态交互系统，结合了预训练AI模型的能力，以实现具有视觉提示的多轮对话，并生成编辑后的图像。

复杂视觉推理任务

这一领域是多模态代理研究的一个重点，主要强调多模态内容的分析。这归功于LLMs在理解和推理基于知识查询的优越认知能力。在这些应用中，主要关注问答任务，利用视觉模态（图像或视频）和文本模态（问题或带有附加文档的问题）进行推理性回答。

音频编辑与生成

音频编辑与生成方面，LMA集成了音频处理的专家模型，使得音乐和声音的编辑、创作变得更加高效。这些系统不仅可以处理音频信号，还能创作旋律、编排和声，甚至生成完整的音乐作品，推动了音乐产业的创新和发展。

这些应用展示了LMAs在现实世界中的潜力，它们为传统模型难以解决的问题提供了解决方案，例如网络浏览。此外，LMAs与人类计算机交互领域的交叉，代表了未来应用的重要方向。LMAs处理和理解各种模态信息的能力使它们能够执行更复杂和微妙的任务，从而增强了它们在现实世界场景中的实用性，并改善了人机交互。尽管在LMA领域取得了显著进展，但仍存在许多未解决的挑战和改进空间。未来的研究可能会朝着创建更统一的系统发展，开发系统化和标准化的评估框架，并探索LMA在现实世界中的潜在应用。