【AI资讯】7.19日凌晨OpenAI发布迷你AI模型GPT-4o mini

news2024/12/23 19:03:44

性价比最高的小模型

北京时间7月19日凌晨,美国OpenAI公司推出一款新的 AI 模型“GPT-4o mini”,即GPT-4o的更小参数量、简化版本。OpenAI表示,GPT-4o mini是目前功能最强大、性价比最高的小参数模型,性能逼近原版GPT-4,成本相比GPT-3.5 Turbo便宜60%以上,支持50种不同语言,替代GPT-3.5版本的ChatGPT。
在这里插入图片描述
GPT-4o mini 以其低成本和低延迟实现了广泛的任务,例如链式或并行化多个模型的调用(例如,调用多个 API)、将大量上下文传递给模型(例如,完整的代码库或对话历史记录)的应用程序,或通过快速、实时的文本响应与客户互动(例如,客户支持聊天机器人)。

目前,GPT-4o mini 在 API 中支持文本和视觉,未来还将支持文本、图像、视频和音频的输入和输出。该模型具有 128K 个 token 的上下文窗口,每个请求最多支持 16K 个输出 token,并且拥有截至 2023 年 10 月的知识。得益于与 GPT-4o 共享的改进的 tokenizer,处理非英语文本现在更具成本效益。

本文翻译自官网文章:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

具有卓越文本智能和多模态推理能力的小模型

GPT-4o mini 在文本智能和多模态推理方面的学术基准测试中超越了 GPT-3.5 Turbo 和其他小型模型,并且支持的语言范围与 GPT-4o 相同。它还在函数调用方面表现出色,这可以使开发人员构建获取数据或使用外部系统采取行动的应用程序,并且与 GPT-3.5 Turbo 相比,它的长上下文性能有所提高。

GPT-4o mini 已经在几个关键基准上进行了评估。

推理任务: GPT-4o mini 在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准 MMLU 上的得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。

数学和编码能力: GPT-4o mini 在数学推理和编码任务中表现出色,优于市场上之前的小型模型。在测量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 得分为 75.5%,Claude Haiku 得分为 71.7%。在测量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 得分为 71.5%,Claude Haiku 得分为 75.9%。

多模态推理: GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
在这里插入图片描述

内置安全措施

安全性从一开始就融入到我们的模型中,并在开发过程的每一步中得到强化。在预训练中,我们会过滤掉我们不希望模型学习或输出的信息,例如仇恨言论、成人内容、主要汇总个人信息的网站和垃圾邮件。在训练后,我们使用强化学习和人工反馈 (RLHF)等技术将模型的行为与我们的策略保持一致,以提高模型响应的准确性和可靠性。

GPT-4o mini 内置了与GPT-4o相同的安全缓解措施,我们根据我们的准备框架并按照我们的自愿承诺,使用自动和人工评估对其进行了仔细评估。超过 70 位来自社会心理学和错误信息等领域的外部专家对 GPT-4o 进行了测试,以识别潜在风险,我们已经解决了这些风险,并计划在即将发布的 GPT-4o 系统卡和准备记分卡中分享详细信息。这些专家评估的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。

基于这些经验,我们的团队还致力于利用我们研究得出的新技术来提高 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用我们的指令层次结构的模型(在新窗口中打开)方法,有助于提高模型抵抗越狱、即时注入和系统即时提取的能力。这使得模型的响应更加可靠,并有助于使其在大规模应用中更安全地使用。

我们将继续监控 GPT-4o mini 的使用情况,并在发现新的风险时提高模型的安全性。

可用性和价格

GPT-4o mini 现已作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中提供。开发人员每 100 万个输入token支付 15 美分,每 100 万个输出token支付 60 美分(大约相当于标准书籍的 2500 页)。我们计划在未来几天推出 GPT-4o mini 的微调。

在 ChatGPT 中,免费版、Plus 版和团队版用户从今天开始将能够使用 GPT-4o mini,以替代 GPT-3.5。企业用户也将从下周开始使用,这符合我们让所有人都能享受 AI 好处的使命。

下一步是什么

过去几年,我们见证了人工智能的显著进步和成本的大幅降低。例如,自 2022 年推出功能较弱的模型 text-davinci-003 以来,GPT-4o mini 的每代币成本已下降 99%。我们致力于继续沿着这条降低成本、同时增强模型能力的轨迹前进。

我们设想的未来是模型可以无缝集成到每个应用程序和每个网站上。GPT-4o mini 为开发人员铺平了道路,使他们能够更高效、更经济地构建和扩展强大的 AI 应用程序。AI 的未来将变得更加易于访问、可靠,并嵌入到我们的日常数字体验中,我们很高兴能够继续引领潮流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1937205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python--实验15 数据分析与可视化

目录 知识点 1 数据分析概述 1.1流程 1.2定义 1.3数据分析常用工具 2 科学计算 2.1numpy 2.1.1定义 2.1.2创建数组的方式 2.1.3np.random的随机数函数 3 数据可视化 3.1定义 3.2基本思想 3.3Matplotlib库 3.3.1模块 4 数据分析 4.1Pandas 4.2数据结构 4.3基…

RE学习7.16-17

[HDCTF 2023]买了些什么呢 是一个经典的算法题吧 物品的重量和价值为: | 物品编号 | 重量 | 价值 | | 1 | 2 | 8 | | 2 | 5 | 1 | | 3 | 10 | 5 | | 4 | 9 | 9 | | 5 | 3 | 5 | | 6 | 6 | 6 | | 7 | 2 | 8 | | 8 | 2 | 2 | | 9 | 6 | 3 | | 10 | 8 | 7 | | 11 | 2 | 5 | | 1…

在 PostgreSQL 中怎样进行数据库的容量规划?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 在 PostgreSQL 中怎样进行数据库的容量规划?一、为什么容量规划如此重要?二、影…

探索 JavaScript Polyfill:跨越浏览器兼容性的桥梁

🎉 博客主页:【剑九 六千里-CSDN博客】 🎨 上一篇文章:【构建高效Node.js中间层:探索请求合并转发的艺术】 🎠 系列专栏:【面试题-八股系列】 💖 感谢大家点赞👍收藏⭐评…

【Linux系统化学习】数据链路层

目录 数据链路层解决的问题 以太网 认识局域网 以太网帧格式 两个问题 认识MAC地址 认识MTU ARP协议 ARP协议的作用 ARP数据报格式 ARP协议的工作流程 数据链路层解决的问题 对于TCP/IP四层协议来说,数据链路层才是真正从传送数据进行跑腿办事情的&…

display: flex 和 justify-content: center 强大居中

你还在为居中而烦恼吗,水平居中多个元素、创建响应式布局、垂直和水平同时居中内容。它,display: flex 和 justify-content: center 都可以完成! display: flex:将元素定义为flex容器 justify-content:定义项目在主轴…

分享:咕嘎批量查找文件移动存储系统,一次性查找多个PDF文件,如何根据txt文本列出的文件名批量查找指定文件夹里的文件,并复制到新的文件夹,不需要写任何代码,点点鼠标批量处理一次性搞定

简介: 该文介绍了一个批量查找PDF文件(不限于找PDF)的工具,用于在多级文件夹中快速查找并复制特定文件。用户可以加载PDF库,输入文件名列表,设置操作参数(如保存路径、复制或删除)及…

一个非常好的美图展示网站整站打包源码,集成了wordpress和开源版ripro主题,可以完美运营。

一个非常好的美图展示网站整站打包源码,集成了wordpress和开源版ripro主题,可以完美运营。 自带了5个多g的美图资源,让网站内容看起来非常大气丰富,可以快速投入运营。 这个代码包,原网站已经稳定运营多年&#xff0…

影响转化率的多元因素分析及定制开发AI智能名片S2B2C商城系统小程序的应用案例

摘要:在互联网时代,转化率是衡量营销活动成功与否的关键指标。本文首先分析了影响转化率的多种因素,包括活动页面的设计、活动的限时性、主题文案的吸引力、从众心理的运用,以及最核心的产品质量与优惠力度。接着,本文…

问题:4、商业保险与政策性保险的主要不同之处是:经营主体不同、经营目标不同、承保机制不同。 #学习方法#其他#学习方法

问题:4、商业保险与政策性保险的主要不同之处是:经营主体不同、经营目标不同、承保机制不同。 参考答案如图所示

SQL Server 使用 OPTION (RECOMPILE) 和查询存储的查询

设置 我们正在使用 WideWorldImporters 数据库,您可以从 Github 下载【sql-server-samples/samples/databases/wide-world-importers at master microsoft/sql-server-samples GitHub】。我正在运行SQL Server 2017 的最新 CU【https://sqlserverbuilds.b…

Adobe国际认证详解-网页设计认证专家行业应用场景解析

在当今数字化时代,网页设计已成为各行各业不可或缺的一环。而网页设计认证专家,作为经过Adobe国际认证体系严格考核的专业人才,正逐渐成为行业内炙手可热的存在。他们凭借深厚的网页设计理论基础和实践经验,为各行各业提供了高质量…

建筑工程企业项目管理系统哪个好?试试企智汇工程项目管理系统

在建筑工程行业中,项目管理的复杂性和挑战性是众所周知的。随着项目规模的扩大和技术的不断进步,传统的管理方法已经难以满足现代建筑工程的需求。企智汇工程项目管理系统应运而生,为建筑工程企业提供了一个全面、智能、高效的解决方案。 一…

“生日悖论”简析——公式计算、代码模拟

“生日悖论”共享生日概率,通项公式计算,代码模拟计算。 (笔记模板由python脚本于2024年07月17日 18:16:40创建,本篇笔记适合会基础编程的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free&…

Flutter Dart Macro 宏简化 JSON 序列化

Flutter Dart Macro 宏简化 JSON 序列化 视频 https://youtu.be/gBZYjBmoOcU https://www.bilibili.com/video/BV1tT421a7ev/ 前言 原文 https://ducafecat.com/blog/using-dart-macros-to-simplify-json-serialization 今天我们将会体验 dart 语言新特性 macro 宏&#xff…

Vue3中实现自然滚动表格列表,可调整滚动快慢

实现效果如图所示,可以调整滚动的快慢,可以实现内容高度不够的时候停止滚动的效果。 1.实现原理: 创建一个dom为ul,赋值为当前列表数据,然后拷贝这个dom赋值给第二个ul,然后判断屏幕高度跟滚动高度对比&a…

第三届智能机械与人机交互技术学术会议(IHCIT 2024)

【北航主办丨本届SPIE独立出版丨已确认ISSN号】 第三届智能机械与人机交互技术学术会议(IHCIT 2024) 2024 3rd International Conference on Intelligent Mechanical and Human-Computer Interaction Technology 2024年7月27日----中国杭州&#xff0…

Redis深度解析:从基础到高级特性,剖析关键技术

一、关于Redis Redis介绍 REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。 Redis 是一个开源的使用 ANSIC 语言编写、遵守 BSD(开源协议) 协议、支持网络、可基于内存…

Linux云计算 |【第一阶段】ENGINEER-DAY5

主要内容: SELinux、系统故障修复、HTTPD/FTP服务搭建、防火墙策略管理、服务管理 一、SELinux安全制度 SELinux(Security-Enhanced Linux),美国NSA国家安全局主导开发,一套增强Linux系统安全的强制访问控制体系&…

6. dolphinscheduler-3.0.0伪集群部署

环境说明: 主机名:cmc01为例 操作系统:centos7 安装部署软件版本部署方式centos7zookeeperzookeeper-3.4.10伪分布式hadoophadoop-3.1.3伪分布式hivehive-3.1.3-bin伪分布式clickhouse21.11.10.1-2单节点多实例dolphinscheduler3.0.0单节…