OpenAI的GPT已达极限，更看好AI Agent

日前，比尔盖茨发表文章表示：AI Agent不仅会改变人与电脑的互动方式，或许还将颠覆软件行业，引领自输入命令到点击图标以来的最大计算机革命。

在数字化和技术创新的浪潮中，AI Agent作为一种前沿技术，正开启广泛的应用前景和无限的机遇。这些机遇不仅表现在提升工作效率和业务自动化上，也体现在为用户提供个性化服务和改善客户体验方面。

随着生成式AI技术的不断发展和成熟，AI Agent在推动新产品和服务的创新、探索新的商业模式方面发挥着越来越重要的作用。

如果你对这篇文章感兴趣，而且你想要了解更多关于AI领域的实战技巧，可以关注「神州问学」公众号。在这里，你可以看到最新最热的AIGC领域的干货文章和前沿资讯。

智能体技术相关发展

自2023年3月16日起，微软发布了Microsoft 365 Copilot，这一事件在业界引起了巨大反响，标志着基于大型语言模型（LLM）的应用开发范式的兴起，成为了当今行业共识的Agent理念的一个里程碑。

值得注意的是，Agent的概念早在此前就已经存在，最早可追溯至20世纪50年代。1995年，Wooldridge和Jennings将AI Agent定义为一种计算机系统，该系统处于特定环境中，能够独立行动以实现其设计目标，并提出了AI Agent应具备自主性、反应性、社会能力和主动性四大属性。

2010年以后，大模型开始初现雏形。2016年AlphaGo在围棋比赛中击败世界冠军，2018年谷歌推出了基于Transformer模型的BERT，2019年AlphaStar在电子竞技游戏《星际争霸2》中达到宗师级别并超越全球99.8%的玩家。紧接着，2022年ChatGPT-3及3.5的发布，以及随后ChatGPT的火爆流行，为AI Agent在大模型时代的发展提供了新的机遇。

大语言模型在智能体应用中的发展前景引人关注。随着AI技术的飞速进步，LLM不仅在理解和生成自然语言方面表现出色，而且在作为智能代理参与决策支持、自动化任务处理和个性化服务方面展现了巨大潜力。这些发展不仅推动了人机交互的边界，还为各行各业提供了创新解决方案，开辟了新的商业机会和研究方向。

2023年，大模型的发展呈现出爆炸式增长。自1月以来，全球范围内推出了众多LLM，包括LLaMA, BLOOM, StableLM, ChatGLM等众多开源大模型。借助这些模型，诸如AutoGPT, MetaGPT等多种自主智能体得以诞生。

2023年6月，OpenAI Safety团队负责人Lilian Weng发表了题为《LLM Powered Autonomous Agents》的文章，提出了一个新的Agent定义：大模型+记忆+规划技能+工具使用。11月6日，OpenAI在DevDay活动中发布了官方Agent开发框架Assistant API，旨在帮助开发者更高效便捷地基于GPT模型开发Agent。

数据来源：神州数码《生成式AI企业应用落地技术白皮书》

从创业角度看，Agent的开发大致分为两类：一种是提供可重复使用的Agent框架，降低未来开发的复杂性，着重于模块化、适配性和协作能力的优化创新；另一种则是深入垂直领域，成为领域专家，利用行业特定数据和流程提供更精准有效的服务。

目前，Agent的开发进展在国际上主要集中在美国，因其拥有成熟的技术基础设施和充足的高端芯片资源，以OpenAI为代表的企业处于技术领先地位。相比之下，欧盟、英国、加拿大和日本等其他国家的大模型应用仍处于试验阶段。

在国内，一些科技公司已经产出了数个知名大模型，因此孕育而生的Agent智能体应用也开始逐渐进入大众视野。例如百度将文心大模型应用到智能搜索，自动驾驶；阿里将通义千问模型应用到高德地图，优酷，盒马等产品。华为将其盘古模型应用到智能气象，语音识别等。一家叫面壁智能的创业也公司推出了他们的AI Agent产品ChatDev，可以在短时间内完成一个软件或者一个小游戏的开发，所需要做的，只是提供给它一个要求。

AI Agent应用

对于企业来说，成功的Agent产品的核心在于提高工作效率，这不仅意味着提升工作质量，还包括节省时间成本。分析市面上现有的Agent类产品，我们发现它们在企业环境中的适用场景主要包括：

简化日常工作流程：企业部门间的对接常常涉及大量文档制作，虽然这不需要复杂技术支持，但却耗费大量时间。如果引入对话式Agent来理解部门需求并自动生成相应文档，就能极大地减轻团队的负担，使他们能更专注于核心工作。
数据库访问优化：企业可以利用大型模型的文本解读能力，整合和提取数据中的关键信息。这样，企业无需手动整合碎片化信息，极大提升数据调用的效率。
编程辅助：Agent可以帮助程序员快速完成框架搭建和基础功能模板的编写，从而使程序员可以直接进入更细节的编程工作，显著减少编程工作量。

对于普通消费者而言，Agent的发展带来了更多的便利，类似于苹果的Siri和微软的Cortana。这些工具可以根据用户的需求独立搜索和调用各种信息和应用程序。虽然目前这些Agent主要处理较简单的任务，但在大型语言模型的支持下，它们未来将拥有更强大的能力，解决日常生活中的各种问题，成为每个人量身定制的私人助理。

AI Agent挑战

在当前阶段，Agent的开发仍面临着众多挑战。尽管大型语言模型在对话方面的表现令人印象深刻，但将它们应用于具体的工作任务时，人们常常感觉它们像“人工智障”。这表明，要使大型模型商业化，关键在于理解并准确处理业务需求。

在ToB业务中，AI Agent的应用受到API质量和生态系统不足的影响，尤其是在中国市场。API的匮乏和低质量导致实际应用效果与预期有显著差距。此外，试图用单一模型解决所有领域问题在理解深度上往往不足。

AI Agent的落地效果也受限于应用场景的封闭程度。在封闭场景（如出行预订）中，得益于丰富的API和可穷举的问题，AI Agent表现出色。而在开放场景（如法律助手）中，由于新知识的频繁出现和API的不完善，实际应用面临更多挑战。理想的应用场景应选择那些拥有丰富的垂直领域数据、封闭且问题可穷举的环境。

在训练方面，主要问题之一是高质量数据的缺乏。大型模型的训练数据主要来自网络文本，但在商业领域，许多案例数据不会完全公开。成功案例成为企业的商业机密，而失败案例也很少被企业分享。甚至许多行业经验还未被记录为文本。此外，为了更好地适应企业运作，训练模型需要大量关于流程的信息，而这些信息中含有的众多标准在不同行业中又有所不同，这使得模型训练变得更加困难。

因此，针对特定领域的垂直行业模型的建立迫在眉睫。在法律、医疗、金融等专业性高、数据庞大的领域，建立这些行业模型是AI落地的关键。能够构建并掌握这些垂直行业模型的公司将获得强大的竞争优势。

人工智能信任、风险和安全管理（TRiSM）面临着一系列挑战。其中之一是Agent可能会接触到敏感信息和关键基础设施，因此需要有效的保护措施。同时，为了确保决策过程的透明度和可解释性，采用明确的决策制定流程变得尤为重要。此外，缺乏人类监督可能会降低减轻或纠正人工智能错误的能力。这是因为没有人类参与的情况下，AI系统的决策可能无法得到及时的校正或监控。

另一方面，关于人工智能的监管政策也成为了热门话题。特别是关于代理权的问题，早期的监管提案倾向于对自主行为者实施严格的规定和责任。这种监管环境的变化可能会对AI的发展和应用产生重大影响。同时，组织内部对于Agent的抵制也不容忽视，这主要源于员工对被AI替代的恐惧。

AI Agent的发展演化

Multi-Agent领域正向多Agent合作的框架发展。大模型能够从多角度讨论问题，如果为每个Agent定义不同身份，如经理、程序员、测试员等，可以更有效挖掘专业内容。这种多Agent结合能使大模型进行更深层次的计算和思考，更好地解决复杂任务。同时，使用不同大模型担任团队中的不同角色，可以集合各种优势。

多模态方面，大模型正向理解非文字形式发展。这能力主要包括解析视觉信息，通常需大量文字描述。具备多模态处理能力的Agent可以增强对环境的感知，对自动驾驶、机器人等与现实世界互动的应用至关重要。但目前，非文字模态的编码器能力和规模还远不及语言模型。未来，可能出现一开始就结合多种模态语料训练的多模态大模型，或者等视觉模态编码器的能力提升，与大语言模型并驾齐驱时，结合使用将带来突破性发展。