AI Agent:人类工作范式的颠覆者还是人机协作新范式?

news2025/1/15 17:11:40

编者按: 当前大热的大语言模型和检索增强生成模型,虽然在语言理解和内容生成方面取得了突破性的进展,但仍然存在诸多限制。它们缺乏根据目标导引行为、持续学习和与环境交互的能力,难以应对复杂多变的现实场景需求。

今天为大家带来的这篇文章,作者的观点是人工智能领域正朝着开发更智能、更自主的 AI Agent 系统迈进,这将彻底改变我们使用人工智能的方式。

作者相信人工智能的未来必将呈现出更智能、更自主的 AI Agent 形态。这种新型人工智能系统不再是简单的语言模型,而是集成了推理引擎、知识库、工具集成等多种能力于一体,能够深入理解环境、制定目标并自主采取行动,从而在诸多领域大显身手。我们有理由相信,AI Agent 将成为人工智能发展的新引擎,并最终改变人类的工作和生活方式。

本文对 AI Agent 这一概念进行了较为全面的解读,让我们一同认识 AI Agent ,认清发展趋势,做好迎接未来的准备。

作者 | Aniket Hingane

编译 | 岳扬

生成式 AI 只是人工智能发展的开端,未来可能会出现更先进的 AI 智能体系统(AI Agent),我们应当重视 Andrew Ng(译者注:Andrew Ng 是斯坦福大学计算机科学系和电气工程系的客座教授,曾任斯坦福人工智能实验室主任。他与达芙妮·科勒一起创建了在线教育平台Coursera。)、Andrej Karpathy (译者注:Andrej Karpathy 是一名斯洛伐克裔加拿大计算机科学家,曾担任特斯拉人工智能和自动驾驶视觉总监。他曾任职于OpenAI,专门研究深度学习和计算机视觉。)等 AI 领域权威人士对于这一趋势的分析和看法。

01 本文主题

人工智能的未来将会是 Agentic(译者注:能够像人类一样,根据环境、知识和目标来自主进行决策和做出相应行为。)!本文将探讨什么是 AI Agents ,并梳理 AI 行业内部对这一概念的理解和定义。

文章的核心内容是阐释和探索 “AI Agents” 这一概念,这种技术将在决定和影响未来发展方向上变得越来越关键。期望读者能通过阅读本文对 “AI Agents” 有一个全方位的认识,不仅掌握它们的基本特性,还能了解到它们是如何被运用于各种行业场景中的。接下来,本文将展开讨论这些内容。

02 为何不容错过本文?

我相信本文的内容你绝不会想错过的——因为当前正处于一个工作模式和工作环境快速变化的关键时期。

人工智能领域正不断发展,不再局限于狭窄、专业化的应用模型,而是朝着创造高度智能、较为自主的 AI Agent 这一技术方向前进。 这些 Agent 能够在大多数领域中真正帮助人类提高思维能力、工作效率或解决问题的能力,实现与人类智能的有效互补和增强。

阅读本文,我十分相信你将理解为什么整个 AI 领域都倾向于开发 advanced AI agents ,这些 Agent 有可能彻底改变我们处理和利用人工智能的方式。

无论您是对人工智能有着丰富经验的“老鸟”,还是刚踏入这个领域的“菜鸟”,了解 AI Agent 的发展轨迹对于保持信息畅通和积极参与未来的变革之旅都至关重要。

若你想要探究以下内容,本文必定不容错过:

  • 洞悉行业革新路径:洞悉 AI Agent 将如何革新各行各业及个人职业生涯?
  • 成为 Agent 的先行者:掌握创建并用好 AI Agent 的秘诀。
  • 突出重围,抢占高地:在瞬息万变的科技浪潮中不掉队,甚至成为 AI Agent 时代的“弄潮儿”。

03 LLMs 和 RAG 不好用吗,为什么还需要 AI Agent 呢?

尽管大语言模型(LLMs)和检索增强生成(RAG)模型已经极大地扩展了我们在语言生成任务方面所能达到的界限。但是 AI Agent 强调的是综合智能,包括但不限于决策制定、环境交互和跨领域的知识应用,这样的智能系统能够适应更复杂的任务需求,并在与人的交流合作中展现出更强的灵活性和实用性。

AI Agent 之所以不可或缺,归结于几个核心因素:

  • 根据目标任务导引行为(Goal-oriented behavior) :大语言模型(LLMs)与检索增强生成模型(RAG)的主要任务是根据训练数据中的 patterns (译者注:指代算法在训练过程中从大量输入数据中学习到的常规性特征或规律,在此处应当是指语言模型通过分析文本学习到的词汇使用、句法结构或语境含义的规律。)创造出类似人类创造的文本内容。尽管如此,它们在灵活且智能地设定和追求具体目标等方面仍存在一定的劣势。反之,AI Agent 则能够被设计为具备清晰目标,并能够策略性地规划和采取行动,实现既定目标。
  • 记忆和状态跟踪的能力(Memory and state tracking) :目前大多数语言模型并不具备持续记忆或跟踪状态的功能,每个输入信息(input)都会被单独处理,不会考虑前后关联。相比之下,AI Agent 设计有 internal state (译者注:Agent 在运行过程中维护的一种数据结构,存储了到目前为止处理的所有信息和过去的经验。能够表现出某种形式的记忆能力,基于过去的信息来影响当前的决策或输出。)维护机制,能够不断积累知识,并运用这些累积的 state 信息为后续的决策(decisions)和行为(actions)提供依据,实现更加智能化的 AI 系统运作模式。
  • 与环境进行互动的能力(Interaction with the environment) :大语言模型(LLMs)的工作局限于文本范畴,一般不涉及与物理现实世界的直接互动。相比之下,AI Agent 能够感知并干预它们所处的环境,无论是数字世界(digital world)、机器人系统(robotic systems),乃至通过传感器(sensors)与执行元件(actuators)感知的真实物理世界。
  • 知识迁移与场景泛化(Transfer and generalization) :虽然 LLMs 擅长与其训练数据类似的语言任务,但它们往往难以将知识迁移到全新的领域或任务中。而 AI Agent ,凭借其学习、推理及策略规划的综合能力,有能力更好地将知识迁移和推广应用到新的场景中。
  • 长期学习能力(Continual learning) :大多数语言模型一旦训练完毕,其状态就会趋于静态固定。而 AI Agent 则可以在与新环境进行交互和不断处理新情况的过程中,边学习边优化自身知识体系与掌握的技能。
  • 多领域任务处理能力(Multi-task capability) :LLMs 通常是针对特定语言任务(比如文本生成、机器翻译等)而专门设计的,它们的能力比较专一。而 AI agents 则可以被设计为通用的、多任务的 AI 系统,擅长无缝融合语言处理、逻辑推理、感知理解及控制操作等多种技能,来与人类一同应对那些既繁复又多元的难题。

04 AI Agent 将如何改变世界?

假定你正在规划一次行程繁复的旅行:

LLM:能为你介绍各色旅游景点,或分享一些旅行小贴士。

RAG:擅长寻找、挖掘关于旅行✈️目的地的精彩博客与深度文章。

AI Agent在此基础之上,更能:

  • 根据你的旅行预算精挑细选航班与住宿信息
  • 一键完成所有预订流程
  • 自动整合个人旅行行程至个人日历
  • 出发前搭配相关温馨提醒,附上必备资讯,确保无忧出行。

05 清晰理解 LLM、RAG 和 AI Agent 等概念

1. 任务导向(Task Orientation) vs. 通用知识(General Knowledge)

  • LLM:在语言理解和内容生成方面表现出色,堪比包罗万象的信息宝库。
  • RAG:通过查找、搜寻相关关键信息来增强 LLMs 的能力,但其重点仍聚焦于知识整合与文本内容创造。
  • AI Agent:因实现特定任务而生,能够在理解语言和在现实世界或数字系统中采取行动之间架起一座桥梁。

2. 环环相扣的多步逻辑推理

  • LLM 和 RAG:通常聚焦于单个输入(input)的即时解析与反馈。
  • AI Agent:能步步为营,执行复杂任务链条。
    • 首先,检索信息(类似 RAG 策略)
    • 继而,处理信息,并基于这些信息做出决策
    • 最后,付诸行动,例如:
      • 发送电子邮件
      • 自动预约服务
      • 智能家居设备操控

3. 掌握主动权

  • LLM 和 RAG:通常仅对 prompt 直接做出回应。
  • AI Agent:可以主动行动、操作。它们能够:
    • 监控数据流,并提醒出现的关键性变化
    • 根据用户偏好主动行动
    • 随着对用户的了解加深,能够学习并逐步调整行为,以便更好地符合用户需求

4. 能够与现有系统进行集成

  • LLM 和 RAG:倾向于在独立环境中运行。
  • AI Agent:则被设计为与多种系统及 API 接口进行对接:
    • 可以无缝接入、访问用户电子邮件或日程信息
    • 能够与数据库进行交互
    • 调度管理用户授予权限的软件与硬件设备

06 AI Agent 架构主要包含哪些核心要素?

AI Agent 拥有构建一个能够自主地理解环境、做出决策并执行任务的 AI 系统所需的核心结构元素和关键组成部分。通常涵盖了以下几个基本方面:

  • 智能推理引擎(A Reasoning Engine) :AI Agent 的核心,通过利用强大的大语言模型(LLM)来深度理解自然语言、获取知识并推理复杂问题。
  • 知识库(Knowledge Base) :作为 AI Agent 的“大脑”,存储着与任务相关的事实资料、过往经验和执行任务相关的个性化设定。
  • 工具集成、联结平台(Tool Integration) :允许 AI Agent 通过应用程序接口(API)与各种软件应用程序和服务进行交互,从而扩展其操纵和控制环境的能力广度和深度。
  • 环境感知模块(Sensory Input) :为 AI Agent 装备上感知周遭世界的“眼睛”和“耳朵”,从文本、图像乃至各种感应器中获取实时数据。
  • 人机交互界面(应当属于其中的一个关键部分) :一座搭建在用户与 AI Agent 之间的沟通桥梁,促进与人类用户之间的无缝沟通和高效协作。 (虽然目前尚无广泛认可的标准化用户体验框架,但随着技术的飞速进步,出现一套更为成熟或普及的交互标准可计日而待。)

上述所提到的这些核心结构元素共同构成了一个能够自主解决问题的智能 AI 系统。AI Agent 能够分析问题,制定分步骤执行的解决方案和行动计划,并且具备充分的能力和决心去实施其解决方案,从而使得它们成为人工智能领域内一股变革性的新力量,有望推动 AI 向更高级阶段迈进。

Thanks for reading!

Aniket Hingane

Passionate about applying AI to practical uses,I simplify complex concepts & designs in concise articles, making complexity accessible one short piece at a time

END

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

https://medium.com/@learn-simplified/why-entire-ai-field-is-headed-towards-ai-agents-a268ac9661ed

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713120.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Window下VS2019编译WebRTC通关版

这段时间需要实现这样一个功能,使用WebRTC实现语音通话功能,第一步要做的事情就是编译WebRTC源码,也是很多码友会遇到的问题。 经过我很多天的踩坑终于踩出来一条通往胜利的大路,下面就为大家详细介绍,编译步骤以及踩…

连接远程的kafka【linux】

# 连接远程的kafka【linux】 前言版权推荐连接远程的kafka【linux】一、开放防火墙端口二、本地测试是否能访问端口三、远程kafka配置四、开启远程kakfa五、本地测试能否连接远程六、SpringBoot测试连接 遇到的问题最后 前言 2024-5-14 18:45:48 以下内容源自《【linux】》 仅…

基础—SQL—DML(数据操作语言)修改和删除

一、引言 接着上次博客,这次讲解DML语句中的修改数据和删除数据操作。 二、DML—修改数据 UPDATE 表名 SET 字段名1值1 ,字段名2值2 , ...[ WHERE 条件]; 注意:修改语句的条件可以有,也可以没有。如果没有条件,则会修改整张表的…

7777777777777

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,贝叶斯滤波与Kalman估计、多传感器信息融合,机器学习,人工智能&#xff0c…

各类信息化项目第三方验收测试的作用

验收测试 各类信息化项目第三方验收测试的作用主要体现在以下几个方面: 1. 客观性:第三方验收测试的突出特点是其客观性。与项目开发团队或相关利益方相比,第三方测试机构能够更加客观地进行测试,不受项目具体背景、利益关系等因…

SQL Server定期收缩日志文件详细步骤——基于SQL Server 2012

SQL Server定期收缩日志文件详细步骤 一、环境配置1、查看数据库的属性2、文件设置3、备份模式4、查看收缩配置5、查看收缩选项 二、编写作业计划1、选择新建作业2、常规配置3、步骤4、输入内容5、脚本详解6、新建计划7、输入名称、选择执行时间8、查看测试9、查看测试结果 一、…

单值二叉树(oJ题)

一、题目连接:. - 力扣(LeetCode) 二、题目思路 遍历左右子树,如果左子树存在不为空并且根结点的值不等于左子树的值,返回false, 如果右子树存在不为空并且根结点的值不等于右子树的值,返回false, 每一个…

华为OD机试 - 项目排期 - 贪心算法(Java 2024 C卷 200分)

华为OD机试 2024C卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷C卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测试…

图形学初识--矩阵和向量

文章目录 前言正文向量什么是向量?向量涉及哪些常见计算?1、取模2、归一化3、向量加法4、向量减法5、向量与标量乘6、向量点乘(内积)7、向量投影 向量有哪些基本应用? 矩阵什么是矩阵?矩阵涉及哪些常见计算…

开源基于Rust编写的Web服务器

基于 RUST 的 WEB 资源服务器 Github 地址 LTPP-GIT 地址 官方文档 该项目于 2024 年 5 月 1 日开始开发 预期功能 功能支持情况当前情况多线程支持是是服务支持配置化是是防盗链支持是是gzip 支持是是反向代理支持是是自定义状态码对应资源文件是是日志支持是是负载均衡支…

网关(GateWay)- 快速使用

引入依赖 <!-- gateway --> <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId> </dependency> 路由配置 server:port: 8088 spring:application:name: api-gatew…

一书读懂Python全栈安全,剑指网络空间安全

写在前面 通过阅读《Python全栈安全/网络空间安全丛书》&#xff0c;您将能够全面而深入地理解Python全栈安全的广阔领域&#xff0c;从基础概念到高级应用无一遗漏。本书不仅详细解析了Python在网络安全、后端开发、数据分析及自动化等全栈领域的安全实践&#xff0c;还紧密贴…

Java设计模式-活动对象与访问者

活动对象 Java设计模式中&#xff0c;活动对象是指一个对象始终处于活动的状态&#xff0c;该对象包括一个线程安全的数据结构以及一个活跃的执行线程。 如上所示&#xff0c;ActiveCreature类的构造函数初始化一个线程安全的数据结构&#xff08;阻塞队列&#xff09;、初始化…

IAR9.30安装和注册相关

下载解压licpatcher64工具&#xff0c;把licpatcher64.exe拷贝到IAR的安装目录中双击运行。 示例IAR9.30.1默认安装如下如下&#xff0c;一共三个分别拷贝运行&#xff0c;不要遗漏。 C:\Program Files\IAR Systems\Embedded Workbench 9.1\arm\bin C:\Program Files\IAR Syst…

DiffIR论文阅读笔记

ICCV2023的一篇用diffusion模型做Image Restoration的论文&#xff0c;一作是清华的教授&#xff0c;还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring&#xff0c;作者里甚至有Luc Van Gool大佬。模型分三个部分&#xff0c…

无需安装的在线PS:打开即用

为什么想用在线PS网页版&#xff1f;Photoshop常用于平面设计&#xff0c;是不少设计师接触过的第一款设计软件。作为一款平面设计工具&#xff0c;ps功能太多&#xff0c;并且没有在线版&#xff0c;这不仅需要设计师花费时间学习软件&#xff0c;还需要设计师具备一定的设计能…

2023年全球DDoS攻击现状与趋势分析

天翼安全科技有限公司副总工程师、运营保障部总经理陈林表示&#xff0c;2023年扫段攻击频次快速增长&#xff0c;成为网络基础设施面临的最大威胁。为躲避防御&#xff0c;低速扫段攻击成为主流达到攻击总数的73.19%&#xff1b;43.26%的C段攻击持续时间小于5分钟&#xff0c;…

Science Advances|柔性超韧半导体纤维的大规模制备(柔性半导体器件/可穿戴电子/纤维器件/柔性电子)

北京大学 雷霆(Ting Lei)团队,在《Science Advances》上发布了一篇题为“Continuous production of ultratough semiconducting polymer fibers with high electronic performance”的论文。论文内容如下: 一、 摘要 共轭聚合物具有良好的光电特性,但其脆性和机械特性差,…

03 Prometheus+Grafana可视化配置

03 PrometheusGrafana可视化配置 大家好&#xff0c;我是秋意零。接上篇Prometheus入门安装教程 grafana官网下载安装包比较慢&#xff0c;如果没有魔法。可关注公众号【秋意零】回复101获取 Grafana官网下载&#xff1a;https://grafana.com/grafana/download 这里采用的二进制…

定个小目标之每天刷LeetCode热题(3)

这是一道简单题&#xff0c;我这里就只讲两种解法 第一种是数组加双指针&#xff0c;先遍历链表将值存到数组里&#xff0c;然后分别从数组两端进行一一比较判断是否满足回文&#xff0c;代码实现 class Solution {public boolean isPalindrome(ListNode head) {List<Inte…