怎么才能算AI智能体？

科技界对 AI 智能体的痴迷愈演愈烈。销售从智能体到自动化系统，比如像 Salesforce 和 Hubspot 这样的公司声称可以提供具有颠覆性的 AI 智能体。但是，我还没有看到一个真正令人信服、完全自主的基于 LLM 的智能体。市场上充斥着各种 “废物机器人”，如果 Salesforce 所谓的最佳表现仅仅是说它的新智能体比出版行业之前的聊天机器人表现好一点，那就太让人失望了。

这里有一个特别重要但没人问的问题：即使我们能构建出完全自主的 AI 智能体，它们成为用户最佳选择的概率有多大？

让我们通过旅行规划的案例，从智能体和助手的角度来探讨。这个特定的用例有助于明确智能体行为的每个组成部分能带来什么，以及你如何提出恰当的问题，以区分炒作与现实。到最后，我希望你可以自行决定真正的 AI 自主性是否值得投资。

如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖
👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码关注免费领取【保证100%免费】🆓

#01

智能体行为光谱：一个实用框架

学术界和产业界尚未对什么是真正的 “智能体” 达成共识。我建议企业采用光谱框架，而不是简单地将系统分为 “智能体” 或 “非智能体”。我借鉴了 AI 学术文献中的六个属性。在当前 AI 环境中，“智能体” 或 “非智能体” 的二元分类没啥好处，原因有以下几点：

它无法捕捉不同系统之间的细微能力差异。
它可能导致不切实际的期望，或低估系统的潜力。
它不符合 AI 在实际应用中逐步发展的本质。
通过采用基于光谱的方法，企业可以更好地理解、评估和沟通 AI 系统不断发展的能力和需求。对于参与 AI 集成、功能开发和战略决策的人来说，这种方法特别有价值。

通过旅行 “智能体” 的示例，我们可以看到实际应用如何在智能体行为的不同属性上表现出一个光谱。大多数现实世界的应用将位于每个属性的 “基础” 与 “高级” 之间的某个位置上。这种理解将帮助你在 AI 集成项目中做出更明智的决策，并与技术团队和终端用户更有效地沟通。最终，你将能够：

识别那些声称构建了 “AI 智能体” 的虚假宣传。
了解开发 AI 系统时的核心关键点。
指导你公司的 AI 战略，不被炒作迷惑。

#02

智能体行为的构成要素

感知

感知是指智能体感知和解释其环境或相关数据流的能力。

基础：理解旅行偏好的文本输入并访问基础的旅行数据库。
高级：整合并解释多个数据流，包括过去的旅行历史、实时航班数据、天气预报、本地活动安排、社交媒体趋势和全球新闻。

具有高级感知能力的智能体可能会识别出你过去的旅行模式，例如你偏好不需要汽车的目的地。这些洞察可以为未来的建议提供依据。

互动

互动指的是智能体能够有效地与其操作环境，包括用户、其他 AI 系统和外部数据源或服务进行交互的能力。

基础：以问答形式进行关于旅行选项的互动，理解并回应用户的提问。
高级：维持一个对话式界面，能够要求澄清，解释其建议的原因，并根据用户的偏好和上下文调整其沟通风格。

LLM 聊天机器人如 ChatGPT、Claude 和 Gemini 在互动性方面已经树立了很高的标准。你可能已经注意到，大多数客户服务聊天机器人在这方面表现较差。这是因为客户服务机器人需要提供准确的公司特定信息，通常还需要与复杂的后台系统集成。它们无法像 ChatGPT 那样优先提供具有吸引力的回应，因为 ChatGPT 更重视互动性，而非精确性。

持续性

持续性是指创建、维护并更新用户及关键互动的长期记忆的能力。

基础：保存用户的基本偏好，并能够在将来的会话中调用这些偏好。
高级：随着时间的推移，逐步构建用户旅行习惯和偏好的详细档案，并不断完善。

真正的 AI 持续性要求系统具有同时读取和写入用户数据的能力。它不仅需要在每次互动后记录新的观察，还需要从扩展的知识库中读取信息，指导未来的行为。想象一个优秀的旅行顾问会记住你喜欢靠走道的座位或你喜欢把商务旅行延长成短途旅行，一个具备强大持续性的 AI 会做同样的事情，不断构建并参考其对你的理解。

ChatGPT 已经引入了一些选择性持续性的元素，但大多数对话实际上是在一个 “空白” 的状态下进行的。要实现真正的持续系统，你需要构建一个拥有每次提示相关上下文的长期记忆系统。

反应性

反应性是指在其环境或传入数据发生变化时能够及时做出回应的能力。做好这一点在很大程度上依赖于强大的感知能力。

基础：当用户手动输入新的汇率时，更新旅行费用预估。
高级：持续监控并分析多个数据流，主动调整旅行计划和费用预估。

最佳的 AI 旅行助手会注意到你目的地的酒店价格由于重大活动的影响突然上涨，它会主动建议更改日期或附近的地点，以帮你省钱。

一个真正的反应系统需要大量的实时数据流，以确保其感知能力足够强。例如，高级旅行助手不仅要能快速响应，还要理解并根据当前的环境变化（如政治动荡）对旅行计划做出合理调整。

前瞻性

前瞻性是指预测需求或潜在问题，并在未被明确提示的情况下提供相关建议或信息，同时仍然将最终决策留给用户。

基础：建议所选目的地的热门景点。
高级：预测潜在需求，并主动提供相关建议，即使用户未提出需求。

一个真正具有前瞻性的系统可能会提醒你护照即将过期，建议由于预计道路封闭改乘地铁，或在热门餐厅开放预订时提醒你设置日历通知。

要实现真正的前瞻性，系统必须具备完整的持续性、感知力和反应性，才能做出相关、及时且上下文感知的建议。

自主性

自主性是指在定义好的参数范围内自主执行任务和做出决策的能力。

自主性可以通过以下几个方面来衡量：

资源控制：AI 可以分配或管理的资源的价值和重要性。
影响广度：AI 决策对整个系统或组织产生的影响范围。
操作边界：AI 无需人工干预即可做出决策的范围。

基础：对低价值资源有有限的控制，做出对整体系统影响较小的决策，并且在狭窄、预定义的边界内操作。例如：一个智能灌溉系统根据土壤湿度和天气预报决定何时浇灌花园的不同区域。

中级：控制中等价值的资源，做出对系统各部分有明显影响的决策，并在定义的操作边界内有一定的灵活性。例如：一个 AI 驱动的库存管理系统，决定零售连锁店的库存水平并分配至多个商店。

高级：控制高价值或关键资源，做出对整个系统有重大影响的决策，并在广泛的操作边界内自主运行。例如：一个科技公司的 AI 系统，负责优化整个 AI 管道，包括模型评估和分配价值 1 亿美元的 GPU 资源。

最先进的系统将同时在 “什么”（例如：哪些模型需要在哪些地方部署）和 “如何”（资源分配、质量检查）两个层面上做出重大决策，权衡不同选择以实现预定的目标。

随着任务范围的扩大，“什么” 和 “如何” 之间的界限可能变得模糊。例如，选择部署一个需要大量资源的更大模型，实际上同时涉及 “什么” 和 “如何” 两方面。复杂性增加的关键标志在于 AI 能够自主管理的资源和承担的风险逐渐增加。

这种框架帮助我们更清晰地理解 AI 系统的自主性。真正的自主不仅仅是独立操作，还涉及决策的广度和影响。错误的风险越大，确保适当的安全机制就越重要。

#03

未来前沿：前瞻自主

前瞻自主是指不仅能在既定参数范围内做出决策，还能够在必要时主动修改这些参数或目标，以更好地实现总体目标。

虽然这一特性可能带来真正自适应且富有创新力的 AI 系统，但它也带来了更高的复杂性和风险。目前，这种程度的自主性主要停留在理论阶段，且涉及重要的伦理问题。

不难发现，许多科幻作品中的 “失控” AI 系统，正是突破了前瞻自主边界的智能体或系统，如《复仇者联盟》中的奥创、《黑客帝国》中的机器、《2001 太空漫游》中的 HAL 9000，以及《机器人总动员》中的 AUTO。

前瞻自主仍然是 AI 发展的前沿领域，虽然它有望带来巨大好处，但也需要深思熟虑、负责任地实施。实际上，大多数公司在这一领域仍需多年的基础工作才能使其成为可能。

#04

智能体 vs 助手

在讨论上面六个要素时，我建议区分 “AI 助手” 和 “AI 智能体” 两个概念。

AI 智能体：

至少具备六个要素中的五个（可能不包括前瞻性）
在定义的领域中表现出明显的自主性，能够在没有人类监督的情况下决定执行哪些操作以完成任务

AI 助手：

在感知、互动和持续性方面表现优秀
可能具备一定的反应性
自主性或前瞻性有限或缺乏
主要响应人类的请求，并需要人类批准才能执行操作

虽然业界还没形成正式定义，但这种区分有助于理解这些系统的实际影响。无论是智能体还是助手，它们都需要具备感知、基础互动和持续性才能发挥实用价值。

按此定义，扫地机器人 Roomba 更接近一个基础的智能体。尽管它没有前瞻性，但在一个定义的空间内，它能够自主规划路径、应对障碍，并在不需持续人工干预的情况下返回充电。

GitHub Copilot 是一个极具能力的助手。它通过提供上下文感知的代码建议、解释复杂代码，甚至基于注释撰写整个函数，极大地增强了开发者的能力。但是，最终的代码实现、架构和功能依然由人类决定。

代码编辑器 Cursor 正逐渐迈向智能体的领域，尤其是其主动标记潜在问题的能力更为突出。现在，Cursor 可以根据你的描述构建整个应用程序，这比传统助手更接近真正的智能体。

尽管这个框架帮助我们区分了智能体和助手，但现实中的情况更为复杂。许多公司急于将他们的 AI 产品称为 “智能体”，但他们是否真的优先处理了关键问题？理解为什么这么多企业在此问题上失误，以及为何打好基础如此重要，至关关键。

#05

基础优先：数据在 AI 感知中的关键作用

像 Cursor 这样的开发者工具，因其推动智能体行为的进展而取得了巨大成功，但大多数公司在这方面的结果却并不理想。

编程任务有着明确的问题空间和清晰的成功标准（如代码完成、通过测试）可供评估。此外，还有大量高质量的训练和评估数据，如开源代码库，这些都为构建 AI 系统提供了坚实的基础。

但是，大多数尝试引入自动化的公司并没有足够的数据基础来支撑这样的系统。领导层往往低估了客户支持代理或客户经理在工作中依赖的非书面信息。例如，如何绕过错误信息，或新库存何时到货等。这类信息通常是隐性的。评估一个聊天机器人，尤其是一个用户可以询问任何问题的聊天机器人，可能需要几个月时间。缺乏感知基础和跳过测试过程是导致市场上充斥着劣质机器人的主要原因之一。