想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧!
各位 AI 爱好者们,今天我们来聊聊 OpenAI 的最新力作——Operator。如果说之前的 ChatGPT 只是 AI 领域的 “工具”,那么这次的 Operator 则可以称得上是真正的 “助手” 了。它的发布,标志着 AI 技术已经扎扎实实地进入了第三阶段:智能体(Agents)。
从 “工具” 到 “助手”:AI 的进化
你有没有觉得,以往的 AI 更像是一个 “工具”:你需要给它明确的指令,它才能执行特定的任务。比如让 ChatGPT 写一篇文章,让 Kimi 解一道数学题。但 OpenAI 的 Operator 则不一样,它更像是一个真正意义上的 “助手”,它已经具备了一定的自主性和决策能力,可以理解你的模糊意图,并将任务分解成多个步骤,自主地在浏览器中执行操作,最终完成任务。
这本质上是一种从 “被动处理信息” 到 “主动完成任务” 的进化。这不仅仅是技术上的进步,更是 AI 应用模式的一次重大变革。
Operator 的核心能力:自主操作浏览器
Operator 最核心、最具颠覆性的特点在于它能直接操作浏览器,而无需通过 API 实现。要知道,不是所有的网站和应用都开放 API,即使有,功能也往往受限。
Operator 实现 “操作浏览器” 靠的是一个名为 CUA(Computer-Using Agent)的全新模型。CUA 基于 GPT-4o 专门训练,继承了 4o 的视觉能力,能够和图形用户界面(GUI)直接交互。简单来说,Operator 利用视觉能力通过 “查看” 屏幕截图来 “理解” 当前页面的内容,然后模拟鼠标和键盘操作和浏览器进行 “互动”。
这种方式的好处不言而喻:通用性强,不需要特定 API 的支持,也不需要为每个网站和应用单独适配 API。这意味着,Operator 可以轻松地在各种网站和应用上执行任务,大大拓宽了 AI 的应用场景。
Operator 的实际应用:预定餐厅、在线购物
那么,Operator 究竟能做什么呢?在 OpenAI 的演示中,我们看到了以下几个令人兴奋的应用场景:
-
预定餐厅: 你只需要告诉 Operator “帮我预定这家餐厅今晚 7 点的位置”,它就会自行打开浏览器,搜索该餐厅,选择,然后确定可预约的时间。如果搜索后发现你选定的时间已经不可选了,Operator 还会主动提醒你。
-
在线购物: 你可以告诉 Operator 你想买哪些菜,支持手写。Operator 会自动打开浏览器,进入 Instacart(美国的叮咚买菜),选定相应的菜品,加入购物车。在真正下单前,你可以随意修改购物车,直接用自然语言告诉 Operator 就可以。
这些应用场景不仅展示了 Operator 的强大能力,也让我们看到了 AI 在日常生活中的无限可能性。
人机协作:Human in the Loop
Operator 还有一个非常重要的特点,那就是强调人机协作。Operator 不是一个完全自主、不可控的黑盒,它在执行任务时会主动和你确认,尤其是重要操作,比如确认预定、付款。
这其中体现了一个非常重要的设计理念:Human in the loop(HITL)。HITL 通常用于 AI 系统中,指的就是当 AI 在执行任务时,人类必须保持在场,参与、监督,以确保 AI 系统的安全性和可靠性。简单来说,AI 在干活,你在把关。这种设计理念不仅保障了 AI 的可靠性,也增强了用户对 AI 的信任感。
Operator 的局限性:仍在 “研究预览” 阶段
虽然 Operator 的发布令人兴奋,但我们也要认识到,它仍然处于 “研究预览” 阶段,还有很多不完善的地方。
在 OpenAI 的演示中,Operator 也出现了一些 “小翻车” 的情况。比如,已经确定的可选时间,在接收到 “立即执行” 指令后,Operator 却又表示,之前的可选时间其实不存在。再比如尝试访问 StubHub 网站时,Operator 遇到了重定向的问题。
这些问题都提醒我们,Operator 还有很长的路要走。它目前只支持浏览器,高度依赖 GUI 界面,响应速度也比较慢。
如何体验 Operator?
目前,Operator 功能仅对每月 200 美元的 ChatGPT Pro 用户开放体验。其他用户的使用权限将逐步开放。和 Sora 一样,Operator 也是以独立产品的形式推出的,链接是:operator.chatgpt.com。
总结与展望:AI Agent 大战的开启
OpenAI Operator 的发布,无疑拉开了 2025 年 AI Agent 大战的帷幕。它标志着 AI 技术已经从 “工具” 进化到了 “助手”,能够更加自主、更加智能地完成任务。
尽管 Operator 目前还存在一些局限性,但我们有理由相信,随着技术的不断发展,未来的 AI Agent 将会更加强大、更加可靠,真正成为我们生活和工作中不可或缺的 “智能伙伴”。
想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧!