OpenAI Operator:AI Agent 大战的号角,从 “工具” 到 “助手” 的飞跃

news2025/1/31 16:43:51

想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧!

各位 AI 爱好者们,今天我们来聊聊 OpenAI 的最新力作——Operator。如果说之前的 ChatGPT 只是 AI 领域的 “工具”,那么这次的 Operator 则可以称得上是真正的 “助手” 了。它的发布,标志着 AI 技术已经扎扎实实地进入了第三阶段:智能体(Agents)。

Operator

从 “工具” 到 “助手”:AI 的进化

你有没有觉得,以往的 AI 更像是一个 “工具”:你需要给它明确的指令,它才能执行特定的任务。比如让 ChatGPT 写一篇文章,让 Kimi 解一道数学题。但 OpenAI 的 Operator 则不一样,它更像是一个真正意义上的 “助手”,它已经具备了一定的自主性和决策能力,可以理解你的模糊意图,并将任务分解成多个步骤,自主地在浏览器中执行操作,最终完成任务。
Operator
这本质上是一种从 “被动处理信息” 到 “主动完成任务” 的进化。这不仅仅是技术上的进步,更是 AI 应用模式的一次重大变革。

Operator 的核心能力:自主操作浏览器

Operator 最核心、最具颠覆性的特点在于它能直接操作浏览器,而无需通过 API 实现。要知道,不是所有的网站和应用都开放 API,即使有,功能也往往受限。

Operator 实现 “操作浏览器” 靠的是一个名为 CUA(Computer-Using Agent)的全新模型。CUA 基于 GPT-4o 专门训练,继承了 4o 的视觉能力,能够和图形用户界面(GUI)直接交互。简单来说,Operator 利用视觉能力通过 “查看” 屏幕截图来 “理解” 当前页面的内容,然后模拟鼠标和键盘操作和浏览器进行 “互动”。

这种方式的好处不言而喻:通用性强,不需要特定 API 的支持,也不需要为每个网站和应用单独适配 API。这意味着,Operator 可以轻松地在各种网站和应用上执行任务,大大拓宽了 AI 的应用场景。

Operator 的实际应用:预定餐厅、在线购物

预定餐厅、在线购物

那么,Operator 究竟能做什么呢?在 OpenAI 的演示中,我们看到了以下几个令人兴奋的应用场景:

  • 预定餐厅: 你只需要告诉 Operator “帮我预定这家餐厅今晚 7 点的位置”,它就会自行打开浏览器,搜索该餐厅,选择,然后确定可预约的时间。如果搜索后发现你选定的时间已经不可选了,Operator 还会主动提醒你。

  • 在线购物: 你可以告诉 Operator 你想买哪些菜,支持手写。Operator 会自动打开浏览器,进入 Instacart(美国的叮咚买菜),选定相应的菜品,加入购物车。在真正下单前,你可以随意修改购物车,直接用自然语言告诉 Operator 就可以。

这些应用场景不仅展示了 Operator 的强大能力,也让我们看到了 AI 在日常生活中的无限可能性。

人机协作:Human in the Loop

Operator 还有一个非常重要的特点,那就是强调人机协作。Operator 不是一个完全自主、不可控的黑盒,它在执行任务时会主动和你确认,尤其是重要操作,比如确认预定、付款。

这其中体现了一个非常重要的设计理念:Human in the loop(HITL)。HITL 通常用于 AI 系统中,指的就是当 AI 在执行任务时,人类必须保持在场,参与、监督,以确保 AI 系统的安全性和可靠性。简单来说,AI 在干活,你在把关。这种设计理念不仅保障了 AI 的可靠性,也增强了用户对 AI 的信任感。

Operator 的局限性:仍在 “研究预览” 阶段

虽然 Operator 的发布令人兴奋,但我们也要认识到,它仍然处于 “研究预览” 阶段,还有很多不完善的地方。

在 OpenAI 的演示中,Operator 也出现了一些 “小翻车” 的情况。比如,已经确定的可选时间,在接收到 “立即执行” 指令后,Operator 却又表示,之前的可选时间其实不存在。再比如尝试访问 StubHub 网站时,Operator 遇到了重定向的问题。

这些问题都提醒我们,Operator 还有很长的路要走。它目前只支持浏览器,高度依赖 GUI 界面,响应速度也比较慢。

如何体验 Operator?

目前,Operator 功能仅对每月 200 美元的 ChatGPT Pro 用户开放体验。其他用户的使用权限将逐步开放。和 Sora 一样,Operator 也是以独立产品的形式推出的,链接是:operator.chatgpt.com。

总结与展望:AI Agent 大战的开启

OpenAI Operator 的发布,无疑拉开了 2025 年 AI Agent 大战的帷幕。它标志着 AI 技术已经从 “工具” 进化到了 “助手”,能够更加自主、更加智能地完成任务。

尽管 Operator 目前还存在一些局限性,但我们有理由相信,随着技术的不断发展,未来的 AI Agent 将会更加强大、更加可靠,真正成为我们生活和工作中不可或缺的 “智能伙伴”。

想尝试不同的 AI 模型?不必到处寻找!chatTools 为您集成了 o1、GPT4o、Claude 和 Gemini 等多种选择,一个平台解决您的所有 AI 需求。现在就来体验吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2286993.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI大模型开发原理篇-9:GPT模型的概念和基本结构

基本概念 生成式预训练模型 GPT(Generative Pre-trained Transformer)模型 是由 OpenAI 开发的基于 Transformer 架构的自然语言处理(NLP)模型,专门用于文本生成任务。它的设计理念在于通过大规模的预训练来学习语言模…

Java Swing 基础组件详解 [论文投稿-第四届智能系统、通信与计算机网络]

大会官网:www.icisccn.net Java Swing 是一个功能强大的 GUI 工具包,提供了丰富的组件库用于构建跨平台的桌面应用程序。本文将详细讲解 Swing 的基础组件,包括其作用、使用方法以及示例代码,帮助你快速掌握 Swing 的核心知识。 一…

vscode+WSL2(ubuntu22.04)+pytorch+conda+cuda+cudnn安装系列

最近在家过年闲的没事,于是研究起深度学习开发工具链的配置和安装,之前欲与天公试比高,尝试在win上用vscodecuda11.6vs2019的cl编译器搭建cuda c编程环境,最后惨败,沦为笑柄,痛定思痛,这次直接和…

想品客老师的第九天:原型和继承

原型与继承前置看这里 原型 原型都了解了,但是不是所有对象都有对象原型 let obj1 {}console.log(obj1)let obj2 Object.create(null, {name: {value: 荷叶饭}})console.log(obj2) obj2为什么没有对象原型?obj2是完全的数据字典对象,没有…

Time Constant | RC、RL 和 RLC 电路中的时间常数

注:本文为 “Time Constant” 相关文章合辑。 机翻,未校。 How To Find The Time Constant in RC and RL Circuits June 8, 2024 💡 Key learnings: 关键学习点: Time Constant Definition: The time constant (τ) is define…

芯片AI深度实战:实战篇之vim chat

利用vim-ollama这个vim插件,可以在vim内和本地大模型聊天。 系列文章: 芯片AI深度实战:基础篇之Ollama-CSDN博客 芯片AI深度实战:基础篇之langchain-CSDN博客 芯片AI深度实战:实战篇之vim chat-CSDN博客 芯片AI深度…

Spring Boot 日志:项目的“行车记录仪”

一、什么是Spring Boot日志 (一)日志引入 在正式介绍日志之前,我们先来看看上篇文章中(Spring Boot 配置文件)中的验证码功能的一个代码片段: 这是一段校验用户输入的验证码是否正确的后端代码&#xff0c…

【QT】 控件 -- 显示类

🔥 目录 [TOC]( 🔥 目录) 1. 前言 2. 显示类控件2.1 Label 1、显示不同文本2、显示图片3、文本对齐、自动换行、缩进、边距4、设置伙伴 3.2 LCD Number 3.3 ProgressBar 3.4 Calendar Widget 3. 共勉 🔥 1. 前言 之前我在上一篇文章【QT】…

冲刺蓝桥杯之速通vector!!!!!

文章目录 知识点创建增删查改 习题1习题2习题3习题4:习题5: 知识点 C的STL提供已经封装好的容器vector,也可叫做可变长的数组,vector底层就是自动扩容的顺序表,其中的增删查改已经封装好 创建 const int N30; vecto…

小米CR6606,CR6608,CR6609 启用SSH和刷入OpenWRT 23.05.5

闲鱼上收了一台CR6606和一台CR6609, 一直没时间研究, 趁春节假期把这两个都刷成 OpenWRT 配置说明 CPU: MT7621AT,双核880MHz内存: NT5CC128M16JR-EKI 或 M15T2G16128A, 256MB闪存: F59L1G81MB, 128MB无线基带芯片(BB): T7905DAN无线射频芯片(RF): MT7975DN无外置F…

SpringCloud系列教程:微服务的未来(十八)雪崩问题、服务保护方案、Sentinel快速入门

前言 在分布式系统中,雪崩效应(Avalanche Effect)是一种常见的故障现象,通常发生在系统中某个组件出现故障时,导致其他组件级联失败,最终引发整个系统的崩溃。为了有效应对雪崩效应,服务保护方…

大数据相关职位介绍之一(数据分析,数据开发,数据产品经理,数据运营)

大数据相关职位介绍之一 随着大数据、人工智能(AI)和机器学习的快速发展,数据分析与管理已经成为各行各业的重要组成部分。从互联网公司到传统行业的数字转型,数据相关职位在中国日益成为推动企业创新和提升竞争力的关键力量。以…

无人机红外热成像:应急消防的“透视眼”

无人机红外热成像:应急消防的“透视眼” 亲爱的小伙伴们,每年一到夏天,应急消防的战士们就像上紧了发条的闹钟,时刻准备应对各种灾害。炎热天气让火灾隐患“蹭蹭”往上涨,南北各地还有防洪救灾、台风、泥石流等灾害轮…

【狂热算法篇】探秘图论之Dijkstra 算法:穿越图的迷宫的最短路径力量(通俗易懂版)

羑悻的小杀马特.-CSDN博客羑悻的小杀马特.擅长C/C题海汇总,AI学习,c的不归之路,等方面的知识,羑悻的小杀马特.关注算法,c,c语言,青少年编程领域.https://blog.csdn.net/2401_82648291?typebbshttps://blog.csdn.net/2401_82648291?typebbshttps://blog.csdn.net/2401_8264829…

AI在自动化测试中的伦理挑战

在软件测试领域,人工智能(AI)已经不再是遥不可及的未来技术,而是正在深刻影响着测试过程的现实力量。尤其是在自动化测试领域,AI通过加速测试脚本生成、自动化缺陷检测、测试数据生成等功能,极大提升了测试…

手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)

手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码) 目录 手撕Diffusion系列 - 第十一期 - lora微调 - 基于Stable Diffusion(代码)Stable Diffusion 原理图Stable Diffusion的原理解释Stable Diffusion 和Di…

新版231普通阿里滑块 自动化和逆向实现 分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向过程 补环境逆向 部分补环境 …

HTML一般标签和自闭合标签介绍

在HTML中,标签用于定义网页内容的结构和样式。标签通常分为两类:一般标签(也称为成对标签或开放闭合标签)和自闭合标签(也称为空标签或自结束标签)。 以下是这两类标签的详细说明: 一、一般标…

Eureka 服务注册和服务发现的使用

1. 父子工程的搭建 首先创建一个 Maven 项目&#xff0c;删除 src &#xff0c;只保留 pom.xml 然后来进行 pom.xml 的相关配置 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xs…

白嫖DeepSeek:一分钟完成本地部署AI

1. 必备软件 LM-Studio 大模型客户端DeepSeek-R1 模型文件 LM-Studio 是一个支持众多流行模型的AI客户端&#xff0c;DeepSeek是最新流行的堪比GPT-o1的开源AI大模型。 2. 下载软件和模型文件 2.1 下载LM-Studio 官方网址&#xff1a;https://lmstudio.ai 打开官网&#x…