LLMs之OpenAI o系列:OpenAI o3-mini的简介、安装和使用方法、案例应用之详细攻略

news2025/2/4 5:47:11

LLMs之OpenAI o系列:OpenAI o3-mini的简介、安装和使用方法、案例应用之详细攻略

目录

相关文章

LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读

LLMs之OpenAI o系列:OpenAI o3-mini的简介、安装和使用方法、案例应用之详细攻略

OpenAI o3-mini的简介

1、特点

2、性能表现

>> 竞赛数学 (AIME 2024):o3-mini (高推理强度)达到83.6%的准确率

>> 博士级科学问题 (GPQA Diamond):o3-mini (高推理强度)达到77.0%的准确率

3、模型速度和性能

4、安全性

5、未来展望

OpenAI o3-mini的安装和使用方法

1、安装

2、使用方法

ChatGPT

API

OpenAI o3-mini的案例应用


相关文章

LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读

LLMs之o3:《Deliberative Alignment: Reasoning Enables Safer Language Models》翻译与解读-CSDN博客

LLMs之OpenAI o系列:OpenAI o3-mini的简介、安装和使用方法、案例应用之详细攻略

LLMs之OpenAI o系列:OpenAI o3-mini的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

OpenAI o3-mini的简介

OpenAI o3-mini是OpenAI发布的最新推理模型,也是该系列中最经济高效的模型。它于2024年12月预览,现已在ChatGPT和API中可用。o3-mini是一个强大且快速的模型,它突破了小型模型的性能限制,在科学、数学和编码等STEM领域展现出卓越的能力,同时保持了与OpenAI o1-mini相同的低成本和低延迟。

o3-mini是第一个支持函数调用结构化输出开发者消息小型推理模型,使其具备生产就绪能力。它支持流式输出,并提供低、中、高三种推理强度选项,以适应不同的使用场景。 o3-mini作为一款经济高效、功能强大的推理模型,已在多种平台和API中推出,并对不同用户群体开放,极大提升了AI技术的易用性和可及性。目前已在ChatGPT Plus、Team和Pro版本中上线,企业版将于2月上线。API方面,o3-mini已开始向API使用等级3-5的开发者推出。免费用户也可以在ChatGPT中使用o3-mini。

总而言之,OpenAI o3-mini 是一款在保持低成本低延迟的同时,拥有强大STEM能力,尤其在科学、数学和编码方面表现出色的推理模型。它支持多种开发者功能,并提供了多种推理强度选项,以适应不同的使用场景。在多个基准测试中,o3-mini 的性能超越了其前代模型,并且在安全性方面也进行了充分的考量。o3-mini 的发布标志着 OpenAI 在经济高效人工智能领域取得了重要进展,也为更广泛的 AI 应用铺平了道路。

官网文章:https://openai.com/index/openai-o3-mini/

1、特点

>> 高性价比:o3-mini在保持低成本和低延迟的同时,提供了强大的推理能力。
>> 强大的STEM能力:在科学、数学和编码方面表现出色,尤其在解决复杂问题方面能力突出。
>> 丰富的开发者功能:支持函数调用、结构化输出和开发者消息,方便开发者集成到各种应用中。
>> 可调节的推理强度:提供低、中、高三种推理强度选项,允许开发者根据具体应用场景调整模型的推理深度和速度。
>> 快速响应:平均响应时间比o1-mini快24%,首次token生成时间快2500毫秒。
>> 更高的准确性:专家测试显示,o3-mini的答案更准确、更清晰,推理能力更强,错误率降低了39%。
>> 支持搜索:可以结合搜索引擎查找最新的信息,并提供相关链接(目前为早期原型)。
>> 安全性:采用审慎对齐技术进行训练,在安全性和防越狱评估中表现优异。

2、性能表现

o3-mini在STEM领域表现出色,尤其在数学、编码和科学方面,其性能与OpenAI o1相当甚至超越,同时响应速度更快,错误率更低。o3-mini在各种STEM相关的基准测试和人类偏好测试中均表现优异,证明了其在准确性、速度和推理能力方面的优势。

在多个基准测试中,o3-mini均取得了优异的成绩,包括:

>> 竞赛数学 (AIME 2024):o3-mini (高推理强度)达到83.6%的准确率

>> 博士级科学问题 (GPQA Diamond):o3-mini (高推理强度)达到77.0%的准确率

>> FrontierMath:o3-mini (高推理强度)在首次尝试时解决了超过32%的问题。

>> 竞赛编码 (Codeforces):o3-mini在不同推理强度下均优于o1-mini。

>> 软件工程 (SWE-bench Verified):o3-mini是目前在SWEbench-verified上表现最佳的模型。

>> LiveBench 编码:o3-mini在中、高推理强度下均优于o1-high。

>> 一般知识:o3-mini在一般知识评估中优于o1-mini。

在人类偏好评估中,测试者更倾向于o3-mini的回答 (56%),并且错误率降低了39%。o3-mini的响应速度比o1-mini快24%。

3、模型速度和性能

o3-mini在保持与OpenAI o1相当的智能水平的同时,实现了更快的性能和更高的效率。o3-mini在速度和效率方面显著优于其前代模型,这使其更适合需要快速响应的应用场景。

o3-mini的平均响应时间为7.7秒,比o1-mini的10.16秒快24%。它在首次生成token的时间上也比o1-mini快2500毫秒。

4、安全性

OpenAI 采取了严格的安全措施来确保 o3-mini 的安全性和可靠性。OpenAI 使用审慎对齐技术训练 o3-mini,使其能够安全地响应用户提示。o3-mini在安全性和防越狱评估中显著优于GPT-4o。

在部署之前,OpenAI 对 o3-mini 进行了全面的安全评估,包括外部红队测试和安全评估。详细的评估结果可在 o3-mini 系统卡片中查看。

5、未来展望

OpenAI 将继续努力降低 AI 成本,并提升 AI 的性能和安全性。OpenAI 将继续致力于开发平衡智能、效率和安全性的模型。OpenAI o3-mini 的发布是 OpenAI 持续推进经济高效人工智能发展的重要一步,它使得高质量的 AI 更加易于获取。

OpenAI o3-mini的安装和使用方法

1、安装

OpenAI o3-mini 目前并未开源,不支持本地部署。用户只能通过在线方式(例如在ChatGPT中使用)或调用OpenAI提供的API来使用该模型。

2、使用方法

ChatGPT

ChatGPT Plus、Team和Pro用户可以直接在模型选择器中选择o3-mini使用。免费用户可以通过选择“Reason”或重新生成回复来使用o3-mini。

付费用户 (Plus, Team, Pro):直接在ChatGPT的模型选择器中选择 o3-mini 即可使用。

免费用户:可以通过两种方式使用:在消息输入框中选择 "Reason"。重新生成已有的回复。

API

o3-mini已开始在Chat Completions API、Assistants API和Batch API中向特定等级的开发者推出。 具体使用方法取决于你选择的 API,请参考 OpenAI 的 API 文档。开发者可以根据需求选择三种推理强度:低、中、高。 高强度推理会更准确,但响应速度较慢;低强度推理速度更快,但准确性可能略低。 中等强度则在速度和准确性之间取得平衡。
API地址:https://platform.openai.com/docs/models#current-model-aliases

from openai import OpenAI
client = OpenAI()

completion = client.chat.completions.create(
    model="o3-mini",
    messages=[
        {"role": "developer", "content": "You are a helpful assistant."},
        {
            "role": "user",
            "content": "Write a haiku about recursion in programming."
        }
    ]
)

print(completion.choices[0].message)

OpenAI o3-mini的案例应用

持续更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2291631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Notepad++消除生成bak文件

设置(T) ⇒ 首选项... ⇒ 备份 ⇒ 勾选 "禁用" 勾选禁用 就不会再生成bak文件了 notepad怎么修改字符集编码格式为gbk 如图所示

后台管理系统通用页面抽离=>高阶组件+配置文件+hooks

目录结构 配置文件和通用页面组件 content.config.ts const contentConfig {pageName: "role",header: {title: "角色列表",btnText: "新建角色"},propsList: [{ type: "selection", label: "选择", width: "80px&q…

Spring Boot项目如何使用MyBatis实现分页查询

写在前面:大家好!我是晴空๓。如果博客中有不足或者的错误的地方欢迎在评论区或者私信我指正,感谢大家的不吝赐教。我的唯一博客更新地址是:https://ac-fun.blog.csdn.net/。非常感谢大家的支持。一起加油,冲鸭&#x…

Intellij 插件开发-快速开始

目录 一、开发环境搭建以及创建action1. 安装 Plugin DevKit 插件2. 新建idea插件项目3. 创建 Action4. 向新的 Action 表单注册 Action5. Enabling Internal Mode 二、插件实战开发[不推荐]UI Designer 基础JBPanel类(JPanel面板)需求:插件设…

语言月赛 202412【题目名没活了】题解(AC)

》》》点我查看「视频」详解》》》 [语言月赛 202412] 题目名没活了 题目描述 在 XCPC 竞赛里,会有若干道题目,一支队伍可以对每道题目提交若干次。我们称一支队伍对一道题目的一次提交是有效的,当且仅当: 在本次提交以前&…

MySQL锁类型(详解)

锁的分类图,如下: 锁操作类型划分 读锁 : 也称为共享锁 、英文用S表示。针对同一份数据,多个事务的读操作可以同时进行而不会互相影响,相互不阻塞的。 写锁 : 也称为排他锁 、英文用X表示。当前写操作没有完成前,它会…

OSCP - Proving Grounds - Roquefort

主要知识点 githook 注入Linux path覆盖 具体步骤 依旧是nmap扫描开始,3000端口不是很熟悉,先看一下 Nmap scan report for 192.168.54.67 Host is up (0.00083s latency). Not shown: 65530 filtered tcp ports (no-response) PORT STATE SERV…

集合通讯概览

(1)通信的算法 是根据通讯的链路组成的 (2)因为通信链路 跟硬件强相关,所以每个CCL的库都不一样 芯片与芯片、不同U之间是怎么通信的!!!!!! 很重要…

【贪心算法篇】:“贪心”之旅--算法练习题中的智慧与策略(二)

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:贪心算法篇–CSDN博客 文章目录 前言例题1.买卖股票的最佳时机2.买卖股票的最佳时机23.k次取…

oracle: 表分区>>范围分区,列表分区,散列分区/哈希分区,间隔分区,参考分区,组合分区,子分区/复合分区/组合分区

分区表 是将一个逻辑上的大表按照特定的规则划分为多个物理上的子表,这些子表称为分区。 分区可以基于不同的维度,如时间、数值范围、字符串值等,将数据分散存储在不同的分区 中,以提高数据管理的效率和查询性能,同时…

基于SpringBoot 前端接收中文显示解决方案

一. 问题 返回给前端的的中文值会变成“???” 二. 解决方案 1. 在application.yml修改字符编码 (无效) 在网上看到说修改servlet字符集编码,尝试了不行 server:port: 8083servlet:encoding:charset: UTF-8enabled: trueforce: true2. …

java练习(5)

ps:题目来自力扣 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这…

python算法和数据结构刷题[3]:哈希表、滑动窗口、双指针、回溯算法、贪心算法

回溯算法 「所有可能的结果」,而不是「结果的个数」,一般情况下,我们就知道需要暴力搜索所有的可行解了,可以用「回溯法」。 回溯算法关键在于:不合适就退回上一步。在回溯算法中,递归用于深入到所有可能的分支&…

大数据数仓实战项目(离线数仓+实时数仓)1

目录 1.课程目标 2.电商行业与电商系统介绍 3.数仓项目整体技术架构介绍 4.数仓项目架构-kylin补充 5.数仓具体技术介绍与项目环境介绍 6.kettle的介绍与安装 7.kettle入门案例 8.kettle输入组件之JSON输入与表输入 9.kettle输入组件之生成记录组件 10.kettle输出组件…

【开源免费】基于Vue和SpringBoot的公寓报修管理系统(附论文)

本文项目编号 T 186 ,文末自助获取源码 \color{red}{T186,文末自助获取源码} T186,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

【Windows7和Windows10下从零搭建Qt+Leaflet开发环境】

Windows7和Windows10下从零搭建QtLeaflet开发环境 本文开始编写于2025年1月27日星期一(农历:腊月二十八,苦逼的人,过年了还在忙工作)。 第一章 概述 整个开发环境搭建需要的资源: 操作系统 Windows7_x6…

关于MySQL InnoDB存储引擎的一些认识

文章目录 一、存储引擎1.MySQL中执行一条SQL语句的过程是怎样的?1.1 MySQL的存储引擎有哪些?1.2 MyIsam和InnoDB有什么区别? 2.MySQL表的结构是什么?2.1 行结构是什么样呢?2.1.1 NULL列表?2.1.2 char和varc…

WSL2中安装的ubuntu开启与关闭探讨

1. PC开机后,查询wsl状态 在cmd或者powersell中输入 wsl -l -vNAME STATE VERSION * Ubuntu Stopped 22. 从windows访问WSL2 wsl -l -vNAME STATE VERSION * Ubuntu Stopped 23. 在ubuntu中打开一个工作区后…

π0:仅有3B数据模型打通Franka等7种机器人形态适配,实现0样本的完全由模型自主控制方法

Chelsea Finn引领的Physical Intelligence公司,专注于打造先进的机器人大模型,近日迎来了一个令人振奋的里程碑。在短短不到一年的时间内,该公司成功推出了他们的首个演示版本。这一成就不仅展示了团队的卓越技术实力,也预示着机器…

pandas(二)读取数据

一、读取数据 示例代码 import pandaspeople pandas.read_excel(../002/People.xlsx) #读取People数据 print(people.shape) # 打印people表的行数、列数 print(people.head(3)) # 默认打印前5行,当前打印前3行 print("") print(people.tail(3)) # 默…