OpenAI API - Agent

news2025/3/31 15:06:05

文章目录

  • 代理
    • 概述
    • 模型
    • 工具
    • 知识与记忆
    • 防护栏
    • 编排
    • 入门
  • 语音代理
    • 选择正确的架构
      • 语音到语音(多模态)架构
      • 链式架构
    • 构建语音代理
      • 使用语音到语音架构进行实时处理
      • 将音频输入链接到文本处理 → 音频输出


代理

了解如何使用 OpenAI API 构建代理。

https://platform.openai.com/docs/guides/agents


代理代表 智能完成任务的系统,范围从执行简单的流程到追求复杂、开放的目标。
OpenAI 提供了一组丰富的可组合原语,使您能够构建智能体。本指南将介绍这些原语,以及它们如何组合成一个强大的智能体平台。


概述

构建代理涉及在多个领域(如模型、工具、知识和记忆、音频和语音、护栏和编排)中组装组件,OpenAI 为每个领域提供可组合的原始组件。

领域描述OpenAI 原始组件
模型核心智能,能够推理、做决定和处理不同的模态。o1, o3-mini, GPT-4.5, GPT-4o, GPT-4o-mini
工具与世界交互的接口,与环境交互,功能调用,内置工具等。功能调用, 网络搜索, 文件搜索, 计算机使用
知识和记忆使用外部和持久的知识增强代理。向量存储, 文件搜索, 嵌入
音频和语音创建能够理解音频并以自然语言响应的代理。音频生成, 实时, 音频代理
护栏防止无关的、有害的或不希望的行为。监管, 指令层次结构
编排开发、部署、监控和改进代理。代理 SDK, 跟踪, 评估, 微调
语音代理创建能够理解音频并以自然语言响应的代理。实时 API, 在代理 SDK 中的语音支持

模型

模型代理优势
o1 和 o3-mini最佳用于长期规划、困难任务和推理。
GPT-4.5最佳用于代理执行。
GPT-4o代理能力和延迟之间的良好平衡。
GPT-4o-mini最佳用于低延迟。

大型语言模型(LLMs)是许多代理系统的核心,负责做出决策和与世界交互。OpenAI 的模型支持广泛的特性:

  • 高智能: 能够进行 推理 和规划以应对最困难的任务。
  • 工具: 调用你的函数 并利用 OpenAI 的 内置工具。
  • 多模态: 原生理解文本、图像、音频、代码和文档。
  • 低延迟: 支持实时音频 对话 和更小、更快的模型。

有关详细模型比较,请访问 模型 页面。


工具

工具使代理能够与世界交互。OpenAI 支持使用 函数调用 与您的代码连接,以及 内置工具 用于常见任务,如网络搜索和数据检索。

工具描述
函数调用与开发者定义的代码交互。
网络搜索从网络获取最新信息。
文件搜索在您的文档中执行语义搜索。
计算机使用理解和控制计算机或浏览器。

知识与记忆

知识与记忆帮助代理存储、检索和利用超出其初始训练数据的信息。向量存储使代理能够语义搜索您的文档并在运行时检索相关信息。同时,嵌入有效地表示数据以实现快速检索,为动态知识解决方案和长期代理记忆提供动力。您可以使用 OpenAI 的 向量存储 和 嵌入 API 集成您的数据。


防护栏

防护栏确保您的代理以安全、一致的方式在预期的边界内运行——这对于生产部署至关重要。使用 OpenAI 的免费 内容审查 API 自动过滤不安全的内容。通过利用 指令层次结构 进一步控制代理的行为,该层次结构优先考虑开发者定义的提示并减轻了不希望出现的代理行为。


编排

构建智能体是一个过程。OpenAI 提供工具以有效地构建、部署、监控、评估和改进智能体系统。


Agent Traces UI in OpenAI Dashboard


阶段描述OpenAI 原语
构建和部署快速构建代理,实施边界条件,并使用代理 SDK 处理对话流程。代理 SDK
监控实时观察代理行为,调试问题,并通过跟踪获得洞察。跟踪
评估和改进测量代理性能,确定改进领域,并精炼您的代理。评估 微调

入门

通过以下方式安装 OpenAI Agents SDK for Python 入门:

pip install openai-agents

探索 仓库 和 文档 以获取更多信息。


语音代理

学习如何构建能够理解音频并以自然语言进行响应的语音代理。

https://platform.openai.com/docs/guides/voice-agents


使用 OpenAI API 和 Agents SDK 创建强大的、具有上下文感知能力的语音代理,适用于客户支持和语言辅导等应用。本指南帮助您设计和构建语音代理。


选择正确的架构

OpenAI 提供两种主要的架构用于构建语音代理:

  1. 语音到语音(多模态)
  2. 链式(语音到文本 → LLM → 文本到语音)

语音到语音(多模态)架构

多模态语音到语音(S2S)架构直接处理音频输入和输出,在单个多模态模型 gpt-4o-realtime-preview 中实时处理语音。该模型通过语音思考和回应。它不依赖于用户输入的转录本——它听到情感和意图,过滤掉噪音,并直接以语音回应。适用于高度交互、低延迟的对话用例。

优点适用于
低延迟交互交互性和非结构化对话
丰富的多模态理解(音频和文本同时进行)语言教学和交互式学习体验
自然流畅的对话流程对话式搜索和发现
通过语音上下文理解增强用户体验交互式客户服务场景

链式架构

链式架构按顺序处理音频,将音频转换为文本,使用大型语言模型(LLMs)生成智能响应,并从文本合成音频。如果您是第一次构建语音代理,我们推荐这种可预测的架构。用户输入和模型的响应都是文本形式,因此您可以拥有一个转录本并控制应用程序中的操作。这也是将现有的基于LLM的应用程序转换为语音代理的可靠方式。

您正在链接这些模型:gpt-4o-transcribegpt-4ogpt-4o-mini-tts

优势适用于
高控制和透明度专注于特定用户目标的流程结构
强健的功能调用和结构化交互客户支持
可靠、可预测的响应销售 和 入站分诊
支持扩展的对话上下文涉及转录本和脚本响应的场景

构建语音代理

使用 OpenAI 的 API 和 SDK 创建强大、具有上下文感知能力的语音代理。


使用语音到语音架构进行实时处理

构建语音到语音语音代理需要:

  1. 建立实时数据传输的连接
  2. 使用实时API创建实时会话
  3. 使用具有实时音频输入和输出功能的OpenAI模型

要开始,请阅读实时API指南和实时API参考。兼容的模型包括gpt-4o-realtime-previewgpt-4o-mini-realtime-preview


将音频输入链接到文本处理 → 音频输出

The Agents SDK supports extending your existing agents with voice capabilities. Get started by installing the OpenAI Agents SDK for Python with voice support:

pip install openai-agents[voice]

查看GitHub上的 Agents SDK 语音代理快速入门示例以了解完整示例。
在示例中,您将:

  • 运行语音转文字模型将音频转换为文本。
  • 运行您的代码,通常是一个代理工作流程,以产生一个结果。
  • 运行文本到语音模型,将结果文本转换回音频。

https://openai.github.io/openai-agents-python/


2025-03-29(六)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324430.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Strawberry perl的下载,查询版本号,配置Path环境变量,查找perl解释器的位置

Strawberry Perl 是一个适用于 Microsoft Windows 的 Perl 环境,包含运行和开发 Perl 应用程序所需的一切。它旨在尽可能接近 UNIX 系统上的 Perl 环境。 下载 官网: Strawberry Perl for Windows - Releases 各个版本: Strawberry Perl for Windows - Releases …

MySQL的基础语法2(函数-字符串函数、数值函数、日期函数和流程函数 )

目录 一、字符串函数 1.常见字符串函数 ​编辑 2.字符串函数的基本使用 3.字符串函数的数据库案例演示 二、数值函数 1.常见数值函数(如下): 2.数值函数的基本使用 3.数值函数的数据库案例演示 三、日期函数 1.常见的日期函数 2.日…

5G_WiFi_CE_杂散测试

目录 一、规范要求 1、法规目录: 2、限值: (1)带外发射杂散 (2)带内发射杂散 (3)接收杂散 二、测试方法 1、带外发射杂散 (1)测试条件 &#xff08…

大数据Spark(五十五):Spark框架及特点

文章目录 Spark框架及特点 一、Spark框架介绍 二、Spark计算框架具备以下特点 Spark框架及特点 一、Spark框架介绍 Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。最初由加州大学伯克利分校的 AMP 实验室(Algorithms, Machines, and Pe…

UI产品经理基础(六):如何解决用户的质疑?

在需求调查中遇到用户质疑“不专业”或“不了解需求”,本质上是用户对产品经理的信任缺失或沟通鸿沟导致的。要化解这种质疑,需从专业能力展示、沟通方式优化、用户参与感提升三个维度切入,结合具体场景采取针对性策略。以下是系统化的解决方…

【大数据技术】大数据技术概念及概述

1. 大数据概念 数据 是实时或观察的结果是对客观事务的逻辑归纳是用于表示客观事物的未经加工的原始素材 数据的产生 对客观事务的计量和记录尝试的数据 单位换算1 byte8 bit1 k1024 byte1 mb1024 k1 g1024 m1 t1024 g1 p1024 t1 e1024 p1 z1024 e1 y1024 z1 b1024 y1 n10…

Python库()

1.概念 Matplotlib 库:是一款用于数据可视化的 Python 软件包,支持跨平台运行,它能够根据 NumPy ndarray 数组来绘制 2D 图像,它使用简单、代码清晰易懂 Matplotlib 图形组成: Figure:指整个图形&#xf…

AI知识补全(八):多模态大模型是什么?

名人说:人生如逆旅,我亦是行人。 ——苏轼《临江仙送钱穆父》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 上一篇:AI知识补全(七):AI Agent 智能…

Docker-MySQL安装-命令解读-常见命令-数据卷挂载-本地目录挂载-自定义镜像-网络-前端部署-DockerCompose

目录 Docker: 安装MySQL: 镜像容器: 镜像仓库: ​编辑命令解读: 镜像命名规范: docker run中常见参数: Docker常见命令: ​编辑数据卷: ​编辑数据卷-操作命令&…

Docker 安装部署Harbor 私有仓库

Docker 安装部署Harbor 私有仓库 系统环境:redhat x86_64 一、首先部署docker 环境 定制软件源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y yum-utils device-mapper-persistent-data lvm2…

StarRocks 存算分离在京东物流的落地实践

康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor 导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时&#xf…

英伟达GB300新宠:新型LPDDR5X SOCAMM内存

随着人工智能(AI)、机器学习(ML)和高性能计算(HPC)应用的快速发展,对于高效能、大容量且低延迟内存的需求日益增长。NVIDIA在其GB系列GPU中引入了不同的内存模块设计,以满足这些严格…

具身智能 - Diffusion Policy:技术解析与应用实践

具身智能之 Diffusion Policy:技术解析与应用实践 一、Diffusion Policy 的核心概念 Diffusion Policy 是一种基于扩散模型(Diffusion Models)的决策生成框架,专为具身智能(Embodied Intelligence)设计。其核心思想是通过逐步去噪的过程,在复杂环境中生成鲁棒的动作序列…

[C++] 智能指针 进阶

标题:[C] 智能指针 进阶 水墨不写bug 在很久之前我们探讨了智能指针的浅显认识,接下来会更加深入,从源码角度认识智能指针,从而了解智能指针的设计原理,并应用到以后的工作项目中。 本文将会按照C智能指针的发展历史&…

kubernetes》》k8s》》 kubeadm、kubectl、kubelet

kubeadm 、kubectl 、kubelet kubeadm、kubectl和kubelet是Kubernetes中不可或缺的三个组件。kubeadm负责集群的快速构建和初始化,为后续的容器部署和管理提供基础;kubectl作为命令行工具,提供了与Kubernetes集群交互的便捷方式;而…

C++中的new、malloc、realloc、calloc——特点?函数原型?释放方式?区别?校招面试常问内容?

作者:求一个demo 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 内容通俗易懂,没有废话,文章最后是面试常问内容(建议通过标题目录学习) 废话不多…

27_promise

插入一下前端助手测试&#xff0c;顺手可以用来做安全 promise promise 是一个es6新增的语法 汉语&#xff1a;承诺的意思 作用:是专门用来解决回调地狱!!!! 什么是回调函数&#xff1f; <script>// 回调函数 callback回调// 就是把函数A当作参数传递到函数B中// 在函…

leetcode刷题日记——跳跃游戏 II

[ 题目描述 ]&#xff1a; [ 思路 ]&#xff1a; 题目要求在一个一定能达到数组末尾的跳跃数组中(见55题 跳跃游戏)&#xff0c;找出能够跳到末尾的最小次数要求次数最少&#xff0c;那肯定是选取能选步数中最大的数。也就是在当前能够达到的距离中&#xff0c;选择能够达到的…

无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通-

无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通- 瑞士拥有1,400 多公里长的高速公路网络。这些公路将人和货物从山谷高原运送到阿尔卑斯山的最高山口。维护这些高速公路使国家得以顺利运转。高速公路维护的重要性显而易见&#xff0c;但在…