深度！千字长文拆解AI Agent ，浅谈国内AI Agent 现状

“现如今ChatGPT的热度逐渐褪去，而字节的扣子逐渐被越来越多的国人知晓，钉钉、百度、Dify等也纷纷涉足工作流功能，打开国内AI工作流to B市场。今天学姐将用通俗易懂的方式讲解AI Agent是什么，以及国内大厂做Agent的进展。大家不要走开哦～🫶”

—

AI Agent小科普

目前Agent的关注度日益升温，今天，学姐想和大家分享一些近期国内AI市场的观察与思考，希望能与大家共同探讨学习。

首先，要明确一下AI Agent是什么？

Agent，我们一般将其翻译为代理人、代理商等。

在人工智能领域，Agent通常被定义为一种具有感知能力的实体，它能够通过对其所处环境的观察来做出相应的决策和反应。这种Agent既可以是软件形式的程序，例如对话机器人，也可以具备物理形态，比如扫地机器人。

在了解AI Agent之前，我们先考虑一个场景：我们要写一本20万字的关于人工智能最新技术的书在没有大模型之前，我们一般会按照如下流程～

第一步：先使用搜索引擎搜索一些相关书籍和信息进行阅读，为我们打开思路
第二步：形成本书的大纲，并且考虑清楚每一章节要编写的内容
第三步：针对每一个章节进行内容的编写，在编写过程中可能会调整文章的大纲
第四步：在编写后面章节的时候可能会忘记前面写的内容，需要去翻阅前面已经写的内容
第五步：文章初步完成之后，我们可能会找相关专业人士帮忙修改
最后：经过几番调整之后，书籍最终成型

在大模型出现之后，我们可能会这样对AI说：“请你帮忙生成一篇20万字的关于人工智能最新技术的书”。

这个时候我们大概率会发现AI写出来的书根本就无法阅读。为什么？是大模型的能力不行么？不仅仅因为这个，相比于第一种写书的方式，第二种方式明显缺少了几个环节。

没有办法使用Google获取最新的外部信息（大模型的训练数据是有日期限制的）
没有对整个事情进行规划（比如先写大纲，再编写每个章节，然后和别人讨论，最后成文）
大模型没有记忆的能力，由于上下文（脑容量）的限制，无法一次性完成20万字的文章，会造成前言不搭后语的现象

而AI Agent就是为了解决这个问题。

AI Agent是应用了大模型（LLM）能力的Agent。

以GPT为代表的大模型的出现，将Agent的能力提高到了前所未有的高度。

AI Agent又被称为智能体。

OpenAl的 Lilian Weng 将以LLM为驱动的 AI Agent，形式化为如下的公式：AI Agent＝LLM（大模型）＋Planning（规划）＋Memory（记忆）＋Tools（工具）

也就是说，AI Agent由如下几部分组成，我用一个管理花园的园丁的例子来说明每个模块的作用，希望大伙儿不会觉得枯燥晦涩～

1．LLM（大模型）：就像园丁的智慧和知识库，它阅读了海量的园艺书籍和资料，不仅知道各种植物的名字，还懂得如何照顾它们。在AI Agent中，LLM提供了庞大的信息存储和处理能力，以理解和响应我们提出的各种问题。

2．Planning（规划）：园丁需要规划整个花园的布局。AI Agent的规划功能，就像园丁制定种植计划，决定先种哪些花草、后种哪些蔬菜，或者如何分步骤修剪树冠。

3．Memory（记忆）：这类似于园丁的笔记本，记录了每个植物的种植时间、生长情况和前一次施肥的时间。记忆模块让AI Agent能记住以往的经验和已经完成的任务，确保不会重复错误。

4．Tools（工具）：就是园丁的用具，比如铲子、水壶和剪刀。AI Agent的工具模块，指的是它可以运用的各种软件和程序，帮助它执行复杂的任务，就像园丁用工具进行园艺活动一样。

我们也可以认为LLM＋Planning＋Memory是人类的大脑，而Tools则是人类的四肢。在大模型出现之前，Planning和Memory已经有比较成熟的技术。大模型的出现则补足了AI Agent发展的最后一环。

目前大模型的产品类型，主要有两种：

**Copilot：**翻译成副驾驶，助手。在帮助用户解决问题时起辅助作用，例如github copilot是帮助程序员编程的助手。
**Agent：**更像一个主驾驶，智能体，可以根据任务目标进行自主思考和行动，具有更强的独立性和执行复杂任务的能力。

最后，学姐从核心功能、流程决策、应用范围和开发重点几个方面对比Copilot和 Agent：

1．核心功能

Copilot：更像是一个辅助驾驶员，更多地依赖于人类的指导和提示来完成任务。Copilot在处理任务时，通常是在人为设定的范围内操作，比如基于特定的提示生成答案。它的功能很大程度上局限于在给定框架内工作。
Agent：像一个初级的主驾驶，具有更高的自主性和决策能力。能够根据目标自主规划整个处理流程，并根据外部反馈进行自我迭代和调整。

2．流程决策

Copilot：在处理流程方面，Copilot往往依赖于Human确定的流程，这个流程是静态的。它的参与更多是在局部环节，而不是整个流程的设计和执行。
Agent：Agent解决问题的流程是由AI自主确定的，这个流程是动态的。它不仅可以自行规划任务的各个步骤，还能够根据执行过程中的反馈动态调整流程。

3．应用范围

Copilot：主要用于处理一些简单的、特定的任务，更多是作为一个工具或者助手存在，需要人类的引导和监督。
Agent：能够处理复杂的、大型的任务，并在LLM薄弱的阶段使用工具或者API等进行增强。

4．开发重点

Copilot：主要依赖于LLM的性能，Copilot的开发重点在于Prompt Engineering。
Agent：同样依赖于LLM的性能，但Agent的开发重点在于Flow Engineering，也就是在假定LLM足够强大的基础上，把外围的流程和框架系统化，坐等一个强劲的LLM核心。

—

浅谈当下国内 AI Agent 现状

其实，国内目前真正投入AI Agent研发的公司并不多。很多所谓的AI聊天机器人，其实只是在蹭“智能体”的概念，缺乏真正的反思、规划和环境感知能力，充其量只能算是ChatBot，与真正的Agent相去甚远。

在AI领域，阿里、百度和字节无疑是投入最大的三家公司。或许是因为害怕错过AI的任何机会，他们都展现出了强烈的FOMO心理。

学姐前不久参加了百度的AI开发者大会，虽然整体体验一般，但不难看出百度在AI领域的积累和沉淀。不过，我也发现百度各产品之间的相似性较高，玩法也颇为相似。当然，这只是我的个人观感，百度在AI领域的实力还是不容小觑的。

字节的AI产品表现相当不错，尽管自家的云雀大模型表现平平。但豆包的用户体验极佳，特别是在TTS语音方面，日活甚至超过了文心一言。

阿里钉钉的AI助理给我留下了深刻印象。它可能是目前最容易被企业采纳的一款AI产品。上周，钉钉正式发布了自家的AI Agent市场，已经上线了200多位AI助理，覆盖了办公、生活、娱乐等多个场景。这些AI助理不仅具备问答能力，还具备了一定的行动能力。比如用友薪酬搭建的“薪酬分析助理”，能够查询公司的人力成本、人员流动情况，提供岗位的市场竞争力判断。

此外，学姐还注意到一些其他公司的动态。科大讯飞似乎有些高开低走，现在主要聚焦在AI鼠标上；360则比较聪明，懂得扬长避短，在自己擅长的领域结合AI进行发展。腾讯在AI领域一直比较低调，不知道是在憋大招还是黔驴技穷。而在所有AI独角兽公司中，智谱清言表现还算不错，但产品功能上并没有太多独特之处。

最后，我想谈谈我目前最看好的两款产品：钉钉AI助理和扣子。这两款产品不仅功能强大，而且在实际应用中表现出了明显的优势。它们对其他AI初创公司形成了降维打击，让其他产品难以望其项背。

钉钉AI助理近期还上线了一些进阶功能，如工作流、拟人操作、高级自定义等，进一步拓展了其Agent的行动能力。而扣子则一直坚定地推进flow功能，尽管在workflow方面还存在一些小问题。

进一步说，扣子和钉钉，这两款产品在生态定位上各有千秋。扣子的插件体系更显开放，种类繁多，与月之暗面等开发者的合作充分展现了其为开发者提供的优质工作台。

而钉钉则更倾向于将生态ISV和低代码应用融入其体系，使得生态伙伴能够轻松构建自家的AI助理，低代码应用也能迅速转变为AI助理，以更贴近用户的形式替代原有应用。钉钉过往的开放能力已经证明了其生态商业路径的合理性。

之所以看好钉钉AI助理，是因为它在过去一年中不仅利用大模型重塑了20多条产品线，还推出了AI助理产品及市场。钉钉AI助理与业务场景、企业真实需求紧密相连，充分发挥了其独特优势。据报道，已有超过220万家企业采用钉钉AI助理，这一数字相当惊人，足以证明其市场接受度。

朱啸虎曾提到，AI在ToB领域已经开始实现盈利，而C端市场仍显迷茫。我认为，在AI时代，像移动互联网中的微信、抖音这样的Super App还比较遥远，短期内B端市场的机会会更大。因此，谁拥有更多的B端资源，谁就能在当下拥有更大的生存空间。

目前，大多数大厂和AI初创公司都在努力寻找合适的应用场景，即便是GPTs也缺乏明确的用户需求。用户通常是在有需求时才会寻找AI。然而，钉钉拥有天然的应用和场景优势，基于这些应用和场景再反向接入大模型创建AI助理解决问题更为合理。

为了更好地推动AI落地，各家都在支持或计划支持导出API，以便融入个人或企业应用系统中，解决开发者最后一公里的问题。但钉钉在这方面又有其独特性，许多企业已经深度依赖钉钉，各种数据也存储在钉钉上，因此直接融入钉钉生态更为便捷。钉钉通过融合生态ISV和低代码应用，进一步巩固了其生态壁垒。

对于广大上班族来说，钉钉几乎是日常工作的必备工具。由于AI助理功能免费，大家自然愿意尝试。一试之下，发现其确实好用，特别是在处理文档、编写方案等方面，无需跳转其他AI产品，直接在钉钉上就能一站式解决。创建的AI助理还能分享到团队和群聊中，更好地发挥协同作用。这一点相较于其他产品更为独特，虽然其他产品也能实现类似功能，但配置和部署过程相对繁琐。

钉钉首批上架的AI助理数量虽不多，但经过严格审核，更注重实用性。与主打聊天、创作类助理不同，钉钉更侧重于提供专业服务类的助理。而其他面向C端的产品为追求更高的可玩性和用户停留时长，往往更注重数量。

总体而言，尽管Agent领域热度高涨，但国内仍处于早期探索阶段。期待未来能够涌现出更多优秀的Agent产品，感恩每一位阅读到最后的朋友们，下一期我们再接着聊吧～

如何学习大模型 AGI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-