大模型心高气傲,没有AI Agents生死难料

news2024/12/31 3:05:48

前言

AI Agent,正在接棒大语言模型LLM,成为AI圈最火的话题。

目前,AI创投圈的众生相,大概是这样的:

大厂俱乐部:OpenAI内部员工声称,AI Agent是OpenAI的新方向;微软尝试推动copilot,让AI以助理的角色落地,这是一种典型的AI Agent场景;英伟达推出了Voyager,这个AI Agent可以自主写代码,独霸游戏《我的世界》;国內商汤也推出了通才AI智能体;阿里推出了数字员工……

学术圈:今年四月,斯坦福创建了一个西部世界小镇,让25个AI Agents在虚拟小镇的沙盒环境中模拟人类,与其他AI Agents恋爱、派对、协作、约会等。另外,也有学者开始利用AI Agents设计复杂科学实验,包括自动上网阅读论文、研究抗癌药物……这些前沿探索让人大开脑洞。

创业圈:AI Agent并不只是顶级科学家的游戏,目前已经涌现出了Camel、AutoGPT、BabyAGI、AgentGPT等非常多的项目,并有一大批开源社区开发者和创业者,利用这些开源项目打造一些实用工具。比如aomni,就是一个帮助用户抓取网络信息并邮件发送的AI Agent应用程序。

投资圈:AI Agent被认为是“通往通用人工智能(AGI)时代的开始”,其爆发是“铁板钉钉”,有硅谷创业者表示,跟投资人聊到Generative Agents ,大家都特别期待,并希望多了解、靠的更近,在后续爆发时反应更快。

从这些判断来说,说“AI Agent开启大模型下半场”,还为时尚早,但“AI Agent是大模型的商业化标配”,应该是清晰的了。

所以,接下来我们应该会看到,更多大厂和创业公司,都在AI Agent上有更多动作。

那么,AI Agent究竟是什么?为什么说它是大模型商业化的必要条件?

大模型心高气傲

用户仍不买单

这里我们先把AI Agent放在一边,来看看大模型究竟是一个什么状况。

相信大多数读者都认可,大模型是一个高愿景、高投入、高门槛的东西,往情怀说,可能实现通用人工智能,彻底改变社会;往世俗说,可以重构业务/产品,让科技企业业绩狂飙。

但这些都有建立在,大模型能够真正商业化落地,回收研发成本,良性可持续发展的基础上。

几个月下来,大模型的两个商业模式,是比较有效的:一个是各类行业政企对大模型的私有化本地部署;一个是通过云、AI服务器等售卖大模型所需要的算力。

目前,已经有国內厂商发布了相应的业务报告,已经从行业私有化部署的需求中获得了千万级收入。

但是,仅靠ToB业务,显然不能支撑起一个大模型的商业模式。

一场技术革命,核心技术一定要流淌出去,让几十亿普通用户用起来,才能创造出经济价值。家用PC、互联网、智能手机,都是在大众普及之后,诸多科技企业的市值一飞冲天。

现在,巨头们都为训大模型投入了大量资源,尤其是基础模型,动辄千亿、万亿的参数规模,必须让大众用户用起来。

那么,实际应用体验怎么样呢?

闲聊、画图、创意之类的场景容错率高,就算AI答错了用户还觉得“萌萌哒”,这部分应用已经很卷了,比如“AI证件照”。而绝大多数场景,都是需要AI来自动帮助自己处理较为严肃的任务,与其他环境条件进行协作,应对长线条、连续性的业务,不要出现太多错误,不然人还得大量参与,并不能真的提高生产力。

这类场景,显然目前,一个庞大且复杂的通用大模型,是不能很好地解决的。

就拿我这种撰稿来说,让大模型帮我写稿子,它可能有幻觉,提到的事件/新闻/论文我都得再次复查确认一下,比我自己找资料还费事,不够精准,想一个创意还得我用提示词启发半天,都不一定有能用的,又慢又累,还不如自己写。

不能一步到位,自动化地完成任务,需要大量人类参与干预review,是目前大模型在严肃场景中应用的一大难点,也直接影响到了大模型落地和商业化的进展。

怎么办呢?大模型想要表现出色,急需一群帮手,那就是AI Agents。

真·解放生产力

AI Agent为什么神奇?

试想一下,如果大模型能自己全天7*24小时工作,还不需要人工参与,自己就能完成各种任务,人只要偶尔回到电脑前、办公室看看它做的咋样,这才是大模型的正确打开方式啊。

OpenAI在GPT-4发布会上,确实也展现了一些自动化完成任务的能力,比如让GPT4识别草图生成网页,step by step一步步修改自己代码中错误。

但是,这种能力怎么被开发者和普通用户用到呢?很多开发者都反应,直接使用GPT4写代码还是得自己debug,并不能看图生成直接用的代码,有时候不如不用。

大模型厂商也为难啊,我已经开放了API,要更专业精准精细化的能力,还得有人来进一步开发,这就把接力棒交给了AI Agent。

AI Agent(智能体),是AI在环境中的自动化实体,有四个核心特征:

1. 通过传感器感知周围的环境。这个环境,既可以是虚拟的,比如沙盒游戏、模拟训练系统、自动驾驶模拟器等,也可以是物理的,比如马路、房间、流水线等。

2. 可以自主做出决定。

3. 由执行器/效应器一起来采取行动。

4.基于绩效最大化和结果最优化来学习进步。

从这个角度看,其实人类自己也是一种“智能代理”AI Agent,我们可以通过眼睛、耳朵、皮肤等感知外界环境的变化,再通过大脑做出决策,用嘴说、用腿走来做出行动,并且根据奖励反馈来不断调整适应外界环境。

其实,Agents in AI也是一样的逻辑。就拿自动驾驶场景的AI Agent来说,就需要传感器来采集信息,感知道路车辆行人等环境因素,再由系统自动决策,驱动油门、制动器等设备做出相应的反应。

这也被称为AI Agent的PEAS模型。我们给大家简单做个表,感受一下:

那么,具体在大模型上,AI Agent可以带来什么影响了?主要有以下几个关键的作用:

第一,拆解任务。

大模型要和某个具体领域结合,面对的用户需求是比较笼统的,过程往往会涉及到多个步骤。就好比用户说“要有光”,孤立的大模型既不知道所在的环境有什么灯具,也不知道怎么控制,所以有了大模型也不能搞定这个看似简单其实复杂的任务。

而AI Agent具有任务规划能力,可以自动理解并决定,如何规划步骤、分配资源、优化决策,进而完成指令,提升了大模型处理任务的效率和精度。

谷歌大脑研究团队的一篇论文中,就让大语言模型把任务步骤分解的推理过程,也就是“内心独白”都说出来,再去做相应的动作,一下子就提高了大模型答案的准确性,在多个数据集上都取得了SOTA 效果,让大模型胡说八道的情况有所改善。

第二,自动执行。

AI Agent被设计为独立思考和行动,用户只需要给它一个任务,让它做事就可以了。AutoGPT的典型案例就是点披萨,不需要用户自己输入地址、选择口味,AI Agent将所有点餐步骤都大包大揽,自动执行,人在一边看着,发现出错及时纠正就好了。

AI Agent不止能使用互联网,还可以在物理环境中工作,控制机器人拿快递、无人车、自动驾驶等。

有了AI Agent,用户和大模型之间的交互,会更加自然、简单、快速,减少人工参与,真正提质增效。比如游戏世界中,AI Agent可以自动跟玩家展开对话,提供开放式的交互,根据玩家的反馈来设计无限故事线,真正让游戏做到千人千面;物理世界中,AI Agent自动生成指令和操作,驱动机械身体,为人类提供家政服务,在工厂里自动化作业,不依赖人类的指导就能完成。

第三,节约资源。

AI Agent像人一样,能够使用工具,也就是调用API,来处理更加复杂的任务,这就很好地扩展了大模型的能力,减少了对资源的浪费和过度消耗。

比如AutoGPT写代码,要对专有信息源数据、算力资源等进行访问,这个过程中AI Agent可以自动找到合适的API来进行调用,这样就可以避免浪费其他API token。还能够自主学习,对结果进行优化,如果不满意就重新调用 API。

一般来说,要真正完成一项不明确的用户指令,比如旅行规划,需要模型调用多个API才能解决问题,自动化强的AI Agent无疑能够很好地节省资源,进而为用户节省成本,让AI应用更有吸引力和竞争力。

第四,吸引开发者。

对大模型的商业化来说,API模式需要尽可能多的开发者群体参与,行业模式也需要ISV集成商、软件服务商等。大家都知道,和大厂卷基础模型是很难有胜算的,更希望在细分的上层应用上找到机会。而AI Agent能够解决具体问题、提高模型效果,驱动数字系统和物理实体,就非常适合来构建超级应用。

如果说AI Agent就像是一个最小单位的AI生命,那么大模型厂商就是孕育生命的工厂,而开发者、软件商等就像是技能培训班,教会它们一些实用而有差别的技能,到行业和用户身边努力工作。

所以,哪个大模型能够更好地构建AI Agent,能吸引的开发生态就会更庞大,对商业B端用户的粘性更强,形成一个AI平台级的巨大机会。

总结一下,AI Agent直接影响到大模型的模型效果、服务质量、落地成本、生态能力,将是接下来各个大模型的竞争关键。

AI Agent做得好

模型少不了

那你可能会问了,那怎么才能产生好的AI Agent呢?这对大模型提出了哪些挑战?

我们认为,AI Agent想要落地,需要大模型做好以下工作,这也是接下来的竞争焦点:

1.基础模型。

AI Agent的能力和效果,是由底层基础模型的能力决定的。基础模型有的能力,AI Agent不一定能用上,但基础模型没有的能力,AI Agent一定没有。

就拿语言任务来说,GPT-4提供了很强的自然语言理解能力,但目前真正部署到AI Agent和产品中的很少,一些游戏中的智能体NPC还是没有自主决策的行为能力的。

再比如,GPT-4虽然有多模态,但只开放了语言API,所以开发者想要用GPT4的多模态能力来构建AI Agent,还做不到,而缺失了图像、音频等其他模态的信息,AI Agent对环境的理解和效果还有待提升。

所以,无论是开源模型,还是闭源模型,想要通过API经济来商业化,基础模型的能力会直接关系到AI Agent的质量,且都还有提升的空间。

2.数据知识。

想要做好一个AI Agent,采集和使用数据是基本前提。对于开发者来说,数字任务的数据量已经不成问题,但开发物理世界的AI Agent,数据成本就非常高了。机器人的控制数据,一般只能自己采集,通过模拟器或者实体机器人现场采集。但模拟器毕竟不是真实的环境,训练的效果不一定好,而购买几百台机器人、无人机真正上路进厂去收集数据,无论是采购成本、政策限制、实际执行等,都有不小的困难。

这一点上,拥有数据优势的大模型厂商,比如谷歌、百度的自动驾驶优势,微软、谷歌、搜狗、百度等搜索业务的数据优势,或许能够为开发者的AI Agents探索减少一些门槛,也会为这些厂商的大模型建立壁垒。

3.产品支持。

必须承认,AI Agent所代表的大模型应用机会,还只是非常早期,技术上尚未完全成熟,商业化探索更是刚刚迈出了一点点步伐。对于开发者、软件服务商等来说,比起代码上怎么实现AI Agent,更关键也更早一步要考虑的,是想象一个AI Agent所应该的去向:

它应该是什么样子?叫什么名字?有性别吗?以什么性格跟用户对话?有哪些用例?会遇到哪些具体的困难?如何评价一个AI Agent的成功?

这些更多是产品层面、商业层面的“无人区”,要让开发者释放想象力,在各种环境和任务中尝试创建AI Agents,需要大模型厂商开放自身的商业生态和更丰富便捷的功能,来减少开发人员的试错风险,增加与商业用户对接的强度,去催生更多商业选择和落地案例。

总而言之,这个领域仍然很新,目前AI Agent还没有明确给大模型产业带来冲击,但AI Agent会消除人与AI系统的大量繁琐交互已经板上钉钉,正在发生。

更多AI Agents在被推向社区、推向用户,它们学习,它们改变,它们进化。或许几个月之后,我们就会看到AI Agents的成熟和爆发,这必然会引发大模型领域的又一次洗牌。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解锁高效办公新姿势:SSO单点登录+企业网盘完美搭配

在现代互联网环境中,随着企业业务的不断扩展,多系统、多应用的集成成为常态。为了提升用户体验,减少用户在不同系统间切换的繁琐,单点登录(SSO, Single Sign-On)技术应运而生。 本文将详细介绍SSO单点登录的…

NRK3301语音识别芯片在头戴式照明灯上的应用的方案

在现代社会,头戴式照明灯在各个领域发挥着重要作用,如户外探险、工业作业、夜间骑行等。为了提高这类产品的便捷性和安全性,我们采用了NRK3301语音识别芯片,并将其应用于头戴式照明灯中。这一创新应用使用户能够通过语音指令控制灯…

Browserless 网页抓取:在 Selenium 中使用 NodeJs

Selenium 是否有效? Selenium 是一个流行的开源网页自动化框架,主要用于浏览器测试自动化。此外,它也可以用来解决动态网页抓取问题。 Selenium 有三个主要组件: Selenium IDE:一个浏览器插件,提供了一种…

「JVS更新日志」逻辑引擎、智能BI、规则引擎8.20功能更新说明

项目介绍 JVS是企业级数字化服务构建的基础脚手架,主要解决企业信息化项目交付难、实施效率低、开发成本高的问题,采用微服务配置化的方式,提供了 低代码数据分析物联网的核心能力产品,并构建了协同办公、企业常用的管理工具等&am…

单域名SSL证书申请三步法

申请单域名SSL证书,确保您的网站安全可信,只需简单三步: 选择证书类型与提供商:首先,确定您需要的单域名SSL证书类型,如DV(域名验证)证书。接着,选择一个信誉良好的证书提…

笔记-系统规划与管理师-案例题-2022年-服务规划设计

【说明】 某跨国公司新聘小唐为系统规划管理师来帮助提升中国区总部的IT服务水平,中国区的IT系统尚在设计阶段,小唐需根据已经识别的服务需求及设定的服务级别,进行资源配置,以确保服务团队满足与业务团队约定的当前及未来的IT服务…

Grafana指标汉化攻略:轻松实现中文可视化

1、Grafana解压 目录(grafana-v11.1.3) 进入到\conf 2、找到:defaults.ini 3、打开defaults.ini ,搜索:en-US 4、注释掉default_language en-US # Default UI language (supported IETF language tag, such as en…

吐血整理,最全论文指令手册,还有 ChatGPT 3.5/4.0 新手使用手册~ 【亲测好用】

今天给大家分享下论文润色、降重、写作的GPT指令提示词,按论文步骤整理 让你的文章更加有逻辑且通顺,助力快速完成论文,相信对你有帮助~ 一、论文写作润色指令 1、写作选题指令 ① 确定研究对象 我是一名【XXXXX】,请从以下素…

新书上架 | 《智能计算系统:从深度学习到大模型(第2版)》重磅上市!

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…

多元统计分析——基于R的笔记本电脑价格与参数可视化

注:能力有限,存在不足之处。 现如今,笔记本电脑现在已经成为了我们日常生活中所必备的一种工具,使用笔记本既可以为我们在学习上带来便利也可以在为我们在工作上带来便利,但是笔记本的价格与许多参数有关,因…

构建个人编程学习的知识宝库:高效笔记记录与整理策略

文章目录 每日一句正能量前言笔记工具选择笔记结构设计实践与复习策略后记 每日一句正能量 人生之美,不在争求,而在静守。只愿此心:一世清宁,安然盛开! 前言 在编程的广阔天地中,我们如同探险者&#xff0…

Stable Diffusion最强插件ControlNet简介

前言 随着人工智能技术的飞速发展,图像生成已经成为了一个热门领域。在这其中,Stable Diffusion插件ControlNet凭借其创新的技术和强大的功能,获得了一致好评。 所有的AI设计工具,模型和插件,都已经整理好了&#xff…

SpringBoot笔记01

第1章 Spring Boot概要 1.1 SpringBoot介绍 随着动态语言的流行(Ruby、Scala、Node.js), Java的开发显得格外的笨重;繁多的配置、低下的开 发效率、复杂的部署流程以及第三方技术整合难度大。 在上述环境下,Spring Boot由此诞生…

《Techporters架构搭建》-Day06 Springboot国际化

Springboot国际化 什么是国际化?为什么使用国际化?国际化细分国际化相关知识Locale对象MessageSource接口LocaleResolver接口国际化文件 国际化一般实现国际化改进版框架中国际化 源码地址:请看day06 什么是国际化? 国际化&#…

Ubuntu24.04用C++ Connector连接MySQL数据库

首先安装MySQL官方提供的C Connector库。 sudo apt-get install libmysqlcppconn-dev 然后找一个目录&#xff0c;建立一个main.cpp文件。 #include <iostream> #include <mysql_driver.h> #include <mysql_connection.h> #include <cppconn/statemen…

vscode提升:JSON 中不允许有注释

解决方案 &#xff1a; 运行&#xff1a; json with comment 参考链接&#xff1a; https://blog.csdn.net/eqizhihui/article/details/134014010 人工智能学习网站 https://chat.xutongbao.top

逆变器的防孤岛测试基础知识

防孤岛测试是逆变器并网前的重要测试项目&#xff0c;主要用于验证并网发电系统在电网断电的情况下&#xff0c;能否快速、准确地检测到电网的失电状态&#xff0c;并在规定的时间内停止向电网输送电能&#xff0c;以防止电力系统出现孤岛效应。 孤岛效应是指当电网因故障或停电…

Chainlit接入FastGpt接口快速实现自定义用户聊天界面

前言 由于fastgpt只提供了一个分享用的网页应用&#xff0c;网页访问地址没法自定义&#xff0c;虽然可以接入NextWeb/ChatGPT web等开源应用。但是如果我们想直接给客户应用&#xff0c;还需要客户去设置配置&#xff0c;里面还有很多我们不想展示给客户的东西怎么办&#xf…

数论(二)——博弈论与组合计数

文章目录 4题单A - [有趣的数](https://www.acwing.com/problem/content/description/3198/)B - [取数游戏 II](https://www.luogu.com.cn/problem/P1288)C - [acwing-nim](https://www.acwing.com/problem/content/submission/code_detail/29453954/)D - [排列计数](https://w…

C语言小tip之整型提升

今天让我们来学习一下C语言中的一个小知识点-----整型提升 什么叫整型提升呢&#xff1f; C语言中整型算术运算总是至少以缺省&#xff08;默认&#xff09;整型类型的精度来进行的。​为了获得这个精度&#xff0c;表达式中的字符和短整型操作数在使用之前被转换为普通整型&a…