AutoGLM的一小步,人机交互进化的一大步

news2024/11/30 17:37:01

55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句简单的话:“这是个人的一小步,却是人类的一大步。”

过去几十年里,很多人曾引用过这句话,用来定格某个历史性时刻。今天,我们想把这句话套用到智谱的AutoGLM上。

11月29日的智谱Agent OpenDay上,对外公测或内测了三个产品——浏览器插件AutoGLM Web、电脑智能体大模型GLM-PC,以及一个多月前“剧透”过的AutoGLM,也是智谱第一个产品化的智能体Agent。

短短一个月的时间,AutoGLM的能力不再局限于点外卖、朋友圈点赞,带来了多个新进展:

AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨App执行任务;
AutoGLM开启“全自动”上网新体验,支持等数十个网站的无人驾驶;
像人一样操作计算机的GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索。
同时AutoGLM 启动了大规模内测,将尽快上线成为面向 C 端用户的产品,并宣布启动“10个亿级 APP 免费 Auto 升级”的计划。

01 AutoGLM可以做什么?
看到这里,可能不少人会疑问:什么是AutoGLM?

单从名字上看,很容易让人联想到自动驾驶,毕竟几乎每辆汽车的中控区都有一个AUTO按钮,表示该功能或设置为自动模式。

顾名思义,AutoGLM的场景正是用AI控制手机,只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。

为了方便大家理解,我们提前做了一波测试。

对于不方便看视频的小伙伴,这里大致说一下我们测试的四个场景:分别是到小红书查找周末出行攻略、给小红书博主的最新内容评论、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。

直接说结果,AutoGLM都准确完成了工作,几个涉及到购买的场景,只需要我们最后付款即可。稍有不足的是,遇到弹窗或需要人工确认的环节,目前AutoGLM还无法处理,需要人为操作后才能继续后面的流程。

由于时间的原因,我们的测试没有太深入,对于AutoGLM的能力升级,可以参考智谱Agent OpenDay上传递出的信息:

超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。

跨 App :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。

短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。

随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?

以此类推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的场景分别是浏览器和电脑端,并且有一些智能手机上做不到的功能。

比如AutoGLM Web能够理解用户的指令,自动为用户在网页上站内检索、多链接总结,甚至进一步实现生成arXiv日报,搭建Github仓库,在微博超话签到等个性化功能。

再比如远程手机发指令,GLM-PC可以自主完成电脑操作,可以设定一个未来时间,在开机状态下定时执行任务。

想象一下:即使你在摸鱼、喝咖啡或者上厕所,你的电脑依然在工作,丝毫不会影响工作的进度。

02 人机交互进入AI时代
当然,让我们印象深刻的,并非是AutoGLM所实现的能力,而是对人机交互模式的巨大冲击,基于自然语言的人机交互已经是现在进行时。

小时候上“微机课”,老师经常挂在嘴边的一句话就是:“你们要学会用电脑。”

之所以会出现一个“学”字,因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去适应每一个应用的复杂界面,想要编写程序还需要从0开始学一门编程语言。尽管这些工具在不断进步,人与机器的协作依然是一件高门槛的事,特别是一些专业软件,想要完成某个任务需要很多个步骤,过程中充斥着机械性的重复劳动。

AutoGLM目前的功能还很基础,却拉开了人机交互进化的序幕:借助于大模型的强大能力,只需要一句话,AI就能自动帮我们处理复杂的任务,人机协作的门槛进一步降低。

不再是人被动适应机器,而是让机器理解人类。

试图打破人机交互僵局的,不只是国内的智谱,苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即将发布的Operator,都在朝同样的方向进行创新。

问题来了,大模型距离重塑人机交互范式还有多远呢?

自动驾驶领域有L1—L5的能力划分,OpenAI、智谱等企业也提出了类似的技术阶段:L1是语言能力、L2是逻辑能力(多模态能力)、L3是使用工具的能力、L4是自我学习能力,最终做到像人一样理解界面、规划任务、使用工具、完成任务。

“坏消息”在于,目前大模型能力还处于初级阶段。按照智谱 CEO 张鹏的说法,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”

“好消息”则是,在智谱Agent OpenDay上,荣耀、华硕、小鹏、高通、英特尔等,分别从不同的场景出发,分享了他们对智能终端的实践及展望。

也就是说,大模型重塑人机交互范式,绝非是大模型企业的愿景,而是包含终端厂商、芯片厂商在内的产业上下游的共识。随着AutoGLM能力的提升,将能调用越来越多的应用,适配越来越多的系统,实现越来越复杂的连贯自主操作。

另一个不应该忽略的信息是:端侧算力正在持续提升,智谱顺势推出了为AI原生设备适配的模型和端云同源的协同架构,意味着Agent不仅将在应用上实现用户体验变革,还能将推广到各类智能设备上,手机+AI、PC+AI、汽车+AI等将不断涌现。

03 写在最后
在大模型的概念刚走红时,就有人将其比作是“操作系统”。

至少从AutoGLM的表现来看,即便只是在用户和应用之间增加一个智能调度层,已经有了GLM-OS(以大模型为中心的通用计算系统)的雏形。倘若能够进一步实现原生的人与机器交互,将从根本上改变人机交互模式,所有人都可以用自然语言操作手机、电脑、汽车、眼镜等等。

值得期待的是,著名调研机构Gartner已经将agentic AI列为2025年十大技术趋势之一,预测2028年至少有 15%的日常工作决策将由agentic AI自主完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2250572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

交通流量预测:基于交通流量数据建立模型

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

【故障处理系列--移动云云盘根目录在线扩容】

移动云云盘根目录扩容 **目的:**测试harbor仓库服务器的根目录能否在线扩容 1、移动云控制台系统盘扩容 这里以我自己的虚拟机演示 2、查看分区的文件类型 3、安装growpart工具 rootgitlab-cli:~# apt install cloud-guest-utils -y rootgitlab-cli:~# apt ins…

不可分割的整体—系统思考的微妙法则

不可分割的整体——系统思考的微妙法则 作为企业领导者,我们经常需要做出决策,但有时候,我们会忽略一个事实:每个决策都不是孤立的,它背后都是一个复杂系统的一部分。 无论是市场动态、团队协作,还是产品…

内核模块里获取当前进程和父进程的cmdline的方法及注意事项,涉及父子进程管理,和rcu的初步介绍

一、背景 在编写内核态系统监控代码时,有时候为了调试的便捷性,不仅要拿到异常事件有关的线程id,进程id和父进程id,还需要拿到当前进程和父进程的comm和cmdline。主要有几下几个原因: 1)单纯的pid或者tgi…

京东OPPO定制版 12.1.0 | 安装包只有4.7M,无短视频,适合轻度使用

底部四个标签,没有短视频,可以正常登录。安装包体积很小,功能基本可用,特别适合追求简洁界面和轻度使用的用户。 大小:4.7M 下载地址: 百度网盘:https://pan.baidu.com/s/1lD0o1y9X3s4hRiz-8F…

AOSP的同步问题

repo sync同步时提示出错: error: .repo/manifests/: contains uncommitted changesRepo command failed due to the following UpdateManifestError errors: contains uncommitted changes解决方法: 1、cd 进入.repo/manifests cd .repo/manifests2、执行如下三…

Redis【1】- 如何阅读Redis 源码

1 Redis 的简介 Redis 实际上是简称,全称为 Remote Dictionary Server (远程字典服务器),由 Salvatore Sanfilippo 写的高性能 key-value 存储系统,其完全开源免费,遵守 BSD 协议。Redis 与其他 key-value 缓存产品(如…

鸿蒙修饰符

文章目录 一、引言1.1 什么是修饰符1.2 修饰符在鸿蒙开发中的重要性1.3 修饰符的作用机制 二、UI装饰类修饰符2.1 Styles修饰符2.1.1 基本概念和使用场景2.1.2 使用示例2.1.3 最佳实践 2.2 Extend修饰符2.2.1 基本概念2.2.2 使用示例2.2.3 Extend vs Styles 对比2.2.4 使用建议…

nginx安装和负载均衡

1. nginx安装 (1)安装依赖项: yum -y install gcc gcc-c make libtool zlib zlib-devel openssl openssl-devel pcre pcre-devel(2)下载Nginx源代码: http://nginx.org/en/download.html https://nginx.o…

部署 Prometheus

实验环境 IP地址服务192.168.88.10Prometheus服务端, Consul, Grafana, Node-Exporter192.168.88.77MySQL, Node-Exporter192.168.88.30Nginx,Node-Exporter 一、Prometheus Server 端安装和相关配置 【Prometheus1.sh】 (1)上传 prometh…

通过深度点图表示的隐式场实现肺树结构的高效解剖标注文献速递-生成式模型与transformer在医学影像中的应用

Title 题目 Efficient anatomical labeling of pulmonary tree structures via deeppoint-graph representation-based implicit fields 通过深度点图表示的隐式场实现肺树结构的高效解剖标注 01 文献速递介绍 近年来,肺部疾病(Decramer等&#xff…

# 22_ Python基础到实战一飞冲天(二)-python基础(二十二)--名片管理系统案例:cards_tools.py文件

22_ Python基础到实战一飞冲天(二)-python基础(二十二)–名片管理系统案例:cards_tools.py文件 一、框架搭建-09-准备名片操作函数修改主文件中函数调用 1、名片管理系统 案例:框架搭建 — cards_tools.p…

Python 和 Pyecharts 对Taptap相关数据可视化分析

结果展示: 数据来源: Python爬取TapTap 热门游戏信息并存储到数据库(详细版) 目录 结果展示: 数据来源: Python爬取TapTap 热门游戏信息并存储到数据库(详细版 一、引言 二、准备工作 三、…

泷羽sec-shell (3)脚本参数传递与数学运算

声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&a…

重塑视频新语言,让每一帧都焕发新生——Video-Retalking,开启数字人沉浸式交流新纪元!

模型简介 Video-Retalking 模型是一种基于深度学习的视频再谈话技术,它通过分析视频中的音频和图像信息,实现视频角色口型、表情乃至肢体动作的精准控制与合成。这一技术的实现依赖于强大的技术架构和核心算法,特别是生成对抗网络&#xff0…

Mybatis Plus 增删改查方法(一、增)

先定义一个简单的测试表,执行脚本如下: create table user(id bigint primary key auto_increment,name varchar(255) not null,age int not null default 0 check (age > 0) ); 根据Spingbootmybatisplus的结构根据表自行构建结构,大致…

依赖倒置原则:Java实践篇

在软件开发的世界里,设计原则如同指南针,指引着我们构建更加健壮、可维护和可扩展的系统。其中,依赖倒置原则(Dependency Inversion Principle,DIP)是面向对象设计(OOD)中的一个重要…

【MySQL】库和表的基本操作

目录 库 库的增删查改 字符集与校验集 库的备份与恢复 表 表的创建和删除 用不同的存储引擎创建表的区别 查看表 修改表 添加删除属性 修改改变属性 上篇博客我们讲了数据库的基本理解,对数据库有了一个大致的概念,下面我们来介绍一下库和表的…

大数据新视界 -- 大数据大厂之 Hive 函数库:丰富函数助力数据处理(上)(11/ 30)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

03.ES7 04.ES8

3.1.Array.includes Includes 方法用来检测数组中是否包含某个元素&#xff0c;返回布尔类型值 <script>// includes const mingzhu [王二,张三,李四,王五];//判断console.log(mingzhu.includes(张三));//trueconsole.log(mingzhu.includes(周六));//false//indexOf …