日前,比尔盖茨发表文章表示:AI Agent不仅会改变人与电脑的互动方式,或许还将颠覆软件行业,引领自输入命令到点击图标以来的最大计算机革命。
在数字化和技术创新的浪潮中,AI Agent作为一种前沿技术,正开启广泛的应用前景和无限的机遇。这些机遇不仅表现在提升工作效率和业务自动化上,也体现在为用户提供个性化服务和改善客户体验方面。
随着生成式AI技术的不断发展和成熟,AI Agent在推动新产品和服务的创新、探索新的商业模式方面发挥着越来越重要的作用。
如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「神州问学」公众号。在这里,你可以看到最新最热的AIGC领域的干货文章和前沿资讯。
智能体技术相关发展
自2023年3月16日起,微软发布了Microsoft 365 Copilot,这一事件在业界引起了巨大反响,标志着基于大型语言模型(LLM)的应用开发范式的兴起,成为了当今行业共识的Agent理念的一个里程碑。
值得注意的是,Agent的概念早在此前就已经存在,最早可追溯至20世纪50年代。1995年,Wooldridge和Jennings将AI Agent定义为一种计算机系统,该系统处于特定环境中,能够独立行动以实现其设计目标,并提出了AI Agent应具备自主性、反应性、社会能力和主动性四大属性。
2010年以后,大模型开始初现雏形。2016年AlphaGo在围棋比赛中击败世界冠军,2018年谷歌推出了基于Transformer模型的BERT,2019年AlphaStar在电子竞技游戏《星际争霸2》中达到宗师级别并超越全球99.8%的玩家。紧接着,2022年ChatGPT-3及3.5的发布,以及随后ChatGPT的火爆流行,为AI Agent在大模型时代的发展提供了新的机遇。
大语言模型在智能体应用中的发展前景引人关注。随着AI技术的飞速进步,LLM不仅在理解和生成自然语言方面表现出色,而且在作为智能代理参与决策支持、自动化任务处理和个性化服务方面展现了巨大潜力。这些发展不仅推动了人机交互的边界,还为各行各业提供了创新解决方案,开辟了新的商业机会和研究方向。
2023年,大模型的发展呈现出爆炸式增长。自1月以来,全球范围内推出了众多LLM,包括LLaMA, BLOOM, StableLM, ChatGLM等众多开源大模型。借助这些模型,诸如AutoGPT, MetaGPT等多种自主智能体得以诞生。
2023年6月,OpenAI Safety团队负责人Lilian Weng发表了题为《LLM Powered Autonomous Agents》的文章,提出了一个新的Agent定义:大模型+记忆+规划技能+工具使用。11月6日,OpenAI在DevDay活动中发布了官方Agent开发框架Assistant API,旨在帮助开发者更高效便捷地基于GPT模型开发Agent。
数据来源:神州数码《生成式AI企业应用落地技术白皮书》
从创业角度看,Agent的开发大致分为两类:一种是提供可重复使用的Agent框架,降低未来开发的复杂性,着重于模块化、适配性和协作能力的优化创新;另一种则是深入垂直领域,成为领域专家,利用行业特定数据和流程提供更精准有效的服务。
目前,Agent的开发进展在国际上主要集中在美国,因其拥有成熟的技术基础设施和充足的高端芯片资源,以OpenAI为代表的企业处于技术领先地位。相比之下,欧盟、英国、加拿大和日本等其他国家的大模型应用仍处于试验阶段。
在国内,一些科技公司已经产出了数个知名大模型,因此孕育而生的Agent智能体应用也开始逐渐进入大众视野。例如百度将文心大模型应用到智能搜索,自动驾驶;阿里将通义千问模型应用到高德地图,优酷,盒马等产品。华为将其盘古模型应用到智能气象,语音识别等。一家叫面壁智能的创业也公司推出了他们的AI Agent产品ChatDev,可以在短时间内完成一个软件或者一个小游戏的开发,所需要做的,只是提供给它一个要求。
AI Agent应用
对于企业来说,成功的Agent产品的核心在于提高工作效率,这不仅意味着提升工作质量,还包括节省时间成本。分析市面上现有的Agent类产品,我们发现它们在企业环境中的适用场景主要包括:
-
简化日常工作流程:企业部门间的对接常常涉及大量文档制作,虽然这不需要复杂技术支持,但却耗费大量时间。如果引入对话式Agent来理解部门需求并自动生成相应文档,就能极大地减轻团队的负担,使他们能更专注于核心工作。
-
数据库访问优化:企业可以利用大型模型的文本解读能力,整合和提取数据中的关键信息。这样,企业无需手动整合碎片化信息,极大提升数据调用的效率。
-
编程辅助:Agent可以帮助程序员快速完成框架搭建和基础功能模板的编写,从而使程序员可以直接进入更细节的编程工作,显著减少编程工作量。
对于普通消费者而言,Agent的发展带来了更多的便利,类似于苹果的Siri和微软的Cortana。这些工具可以根据用户的需求独立搜索和调用各种信息和应用程序。虽然目前这些Agent主要处理较简单的任务,但在大型语言模型的支持下,它们未来将拥有更强大的能力,解决日常生活中的各种问题,成为每个人量身定制的私人助理。
AI Agent挑战
在当前阶段,Agent的开发仍面临着众多挑战。尽管大型语言模型在对话方面的表现令人印象深刻,但将它们应用于具体的工作任务时,人们常常感觉它们像“人工智障”。这表明,要使大型模型商业化,关键在于理解并准确处理业务需求。
在ToB业务中,AI Agent的应用受到API质量和生态系统不足的影响,尤其是在中国市场。API的匮乏和低质量导致实际应用效果与预期有显著差距。此外,试图用单一模型解决所有领域问题在理解深度上往往不足。
AI Agent的落地效果也受限于应用场景的封闭程度。在封闭场景(如出行预订)中,得益于丰富的API和可穷举的问题,AI Agent表现出色。而在开放场景(如法律助手)中,由于新知识的频繁出现和API的不完善,实际应用面临更多挑战。理想的应用场景应选择那些拥有丰富的垂直领域数据、封闭且问题可穷举的环境。
在训练方面,主要问题之一是高质量数据的缺乏。大型模型的训练数据主要来自网络文本,但在商业领域,许多案例数据不会完全公开。成功案例成为企业的商业机密,而失败案例也很少被企业分享。甚至许多行业经验还未被记录为文本。此外,为了更好地适应企业运作,训练模型需要大量关于流程的信息,而这些信息中含有的众多标准在不同行业中又有所不同,这使得模型训练变得更加困难。
因此,针对特定领域的垂直行业模型的建立迫在眉睫。在法律、医疗、金融等专业性高、数据庞大的领域,建立这些行业模型是AI落地的关键。能够构建并掌握这些垂直行业模型的公司将获得强大的竞争优势。
人工智能信任、风险和安全管理(TRiSM)面临着一系列挑战。其中之一是Agent可能会接触到敏感信息和关键基础设施,因此需要有效的保护措施。同时,为了确保决策过程的透明度和可解释性,采用明确的决策制定流程变得尤为重要。此外,缺乏人类监督可能会降低减轻或纠正人工智能错误的能力。这是因为没有人类参与的情况下,AI系统的决策可能无法得到及时的校正或监控。
另一方面,关于人工智能的监管政策也成为了热门话题。特别是关于代理权的问题,早期的监管提案倾向于对自主行为者实施严格的规定和责任。这种监管环境的变化可能会对AI的发展和应用产生重大影响。同时,组织内部对于Agent的抵制也不容忽视,这主要源于员工对被AI替代的恐惧。
AI Agent的发展演化
Multi-Agent领域正向多Agent合作的框架发展。大模型能够从多角度讨论问题,如果为每个Agent定义不同身份,如经理、程序员、测试员等,可以更有效挖掘专业内容。这种多Agent结合能使大模型进行更深层次的计算和思考,更好地解决复杂任务。同时,使用不同大模型担任团队中的不同角色,可以集合各种优势。
多模态方面,大模型正向理解非文字形式发展。这能力主要包括解析视觉信息,通常需大量文字描述。具备多模态处理能力的Agent可以增强对环境的感知,对自动驾驶、机器人等与现实世界互动的应用至关重要。但目前,非文字模态的编码器能力和规模还远不及语言模型。未来,可能出现一开始就结合多种模态语料训练的多模态大模型,或者等视觉模态编码器的能力提升,与大语言模型并驾齐驱时,结合使用将带来突破性发展。
未来Agent或许还将实现如何大模型般的自我进化功能,如果人类可以自我进化出相应的分工体系,或许Agent也能自我设计出更加适合Agent协作的组织架构以便更好的完成复杂任务。
结语
从长远来看,AI Agent将会形成更深层次的智能连接,但目前AI Agent的技术尚未成熟,还需要一定的时间发展,不过Agent时代若是已经正在赶来,那么在接下来的几年里,它将彻底改变我们的生活方式,让我们一同期待。