AI新纪元:OpenAI GPT-4o模型发布,开启智能交互革命!

news2025/1/23 4:03:47

目录

  • 前言
  • 一、 总体概述
  • 二、能力探索
    • 1、文字生成图片
    • 2、3D 物体合成
    • 3、音频提炼总结
    • 4、视频讲座总结
  • 三、 模型评估
    • 1、文本评估
    • 2、音频ASR评估
    • 3、音频翻译性能
    • 4、M3Exam零样本结果
    • 5、视觉理解评估
  • 四、 OpenAI API使用
    • 1、文本聊天
    • 2、图像解析
    • 3、上传 Base 64 编码图像
    • 4、多幅图像输入
  • 五、未来展望
    • 1、智能自动化与人类协作的新篇章
    • 2、为每个用户打造的深度个性化体验
    • 3、跨学科的创新应用成为常态
    • 4、全球知识共享与打破语言障碍
    • 5、伦理与责任的全面强化
  • 总结


前言

2024年5月13日,OpenAI向全球发布了其ChatGPT旗舰版本的升级模型——GPT-4o(Generative Pre-trained Transformer 4 Omni)。这个多语言、多模态的GPT大型语言模型被誉为比前代GPT-4快两倍,而价格却只有其一半。在OpenAI的直播演示中,米拉·穆拉蒂宣布,该模型将对所有用户免费开放。
在这里插入图片描述

发布会上,OpenAI详细介绍了GPT-4o在移动端与人类交互的先进程度,并特别强调了其在多模态场景下的应用。

一、 总体概述

GPT-4o是朝着更加自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。它在英语和代码文本上的表现与 GPT-4 Turbo 相当,在非英语语言文本上的表现有显著改善,同时在 API 上也更快、便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
在这里插入图片描述

在GPT-4o推出之前,用户可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要的智能来源 GPT-4 会丢失大量信息——它无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌声或表达情感。

二、能力探索

GPT-4o作为一个先进的多模态AI,提供了丰富的功能,从文章、图片、音频到视频等各个层面拓宽了我们与机器互动的方式。

1、文字生成图片

通过输入一段文字描述,GPT-4o能够将其转化为相应的图像。这项能力使得用户可以通过简单的文本描述来创造和获得视觉上的表达,从而在设计、创作以及教育等场景中发挥重要作用。例如,设计师可以利用这个功能快速生成初步的设计概念草图,教师可以借助它帮助学生更好地理解抽象的概念,或者在没有专业设计软件的情况下,普通用户也可以创建出自己心中的图像。
在这里插入图片描述

2、3D 物体合成

基于一段文字描述,GPT-4o有能力生成一个具有三维效果的Logo。这一功能为品牌营销、产品设计等领域带来了革新。想象一下,品牌经理只需提供品牌的关键字或理念,即可在短时间内得到一个立体的、富有创意的Logo设计。这不仅极大地降低了设计成本,也加速了品牌推广和形象塑造的过程。
在这里插入图片描述

3、音频提炼总结

GPT-4o可以接收一段音频文件,并解析其内容,最终为用户提供一份精炼的摘要或总结。这对于处理长时段的演讲、讲座或会议录音尤其有用。记者、研究人员或任何需要从大量音频资料中提取关键信息的个体都能从这个功能中受益。此外,这项技术还可以应用到智能助手中,帮助用户管理日常生活中的语音信息。
在这里插入图片描述

输出:
在这里插入图片描述

4、视频讲座总结

GPT-4o还具备对视频内容的分析和总结能力。当用户上传一段视频讲座后,GPT-4o能够观看并理解视频内容,然后输出一份简洁的总结。这无疑会改变教育和自学的方式,因为学习者现在可以通过这个工具迅速获取讲座的核心要点而无需花费大量时间观看整个视频。同时,这也为内容创作者提供了一种有效的工具来整理和分发他们的作品中的关键信息。
在这里插入图片描述

总结输出
在这里插入图片描述

三、 模型评估

按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上创下了新的高水准。

1、文本评估

在文本处理方面,GPT-4o在0-shot CoT(Chain of Thought) MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过新的简单评估库收集的。此外,在传统的 5-shot no-CoT MMLU测试中,GPT-4o 创下了 87.2% 的新高分。
在这里插入图片描述

2、音频ASR评估

在音频处理方面,GPT-4o在自动语音识别(ASR)性能上实现了大幅提升,特别是在资源匮乏的语言中,其表现尤为突出。
在这里插入图片描述

3、音频翻译性能

在音频翻译性能方面,GPT-4o 在语音翻译方面树立了新的领先水平,并在 MLS 基准上超越了 Whisper-v3。
在这里插入图片描述

4、M3Exam零样本结果

M3Exam 基准既是多语言评估,也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时包括图形和图表。GPT-4o 在所有语言的这个基准上都比 GPT-4 更强。(也就是说在多语言和视觉评估方面,在所有语言的测试中均表现优异)
在这里插入图片描述

5、视觉理解评估

GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0 次测试,其中 MMMU、MathVista 和 ChartQA 作为 0 次测试 CoT。(这意味着GPT-4o在无样本学习的情况下依然能够保持高水平的视觉理解和推理能力)
在这里插入图片描述

四、 OpenAI API使用

在这里插入图片描述

1、文本聊天

要通过 OpenAI API 使用其中一个模型,只需要向 Chat Completions API 发送包含输入和 API 密钥的请求,并接收包含模型输出的响应即可。聊天模型将消息列表作为输入,并返回模型生成的消息作为输出。
聊天 API 调用示例如下:

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Who won the world series in 2020?"},
    {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
    {"role": "user", "content": "Where was it played?"}
  ]
)

2、图像解析

图像主要通过两种方式提供给模型:通过传递图像链接或直接在请求中传递 base64 编码的图像。图像可以在用户、系统和助手消息中传递。目前不支持在第一个系统消息中使用图像。

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What’s in this image?"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])

3、上传 Base 64 编码图像

如果您本地有一张或一组图像,则可以将其以 Base 64 编码格式传递给模型,以下是实际操作示例:

import base64
import requests

# OpenAI API Key
api_key = "YOUR_OPENAI_API_KEY"

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = "path_to_your_image.jpg"

# Getting the base64 string
base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4o",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

4、多幅图像输入

聊天完成 API 能够接收和处理多幅图像输入,既可以采用 base64 编码格式,也可以采用图像 URL 格式。模型将处理每幅图像,并使用所有图像的信息来回答问题。

from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What are in these images? Is there any difference between them?",
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])

五、未来展望

随着GPT-4o技术的持续进化和深化应用,未来的技术发展和应用前景将更加广阔。下面是对GPT-4o未来发展的一些展望:

1、智能自动化与人类协作的新篇章

预计在未来,GPT-4o将在智能自动化领域扮演更加关键的角色,不仅仅是提高工作效率,而且能够与人类建立更加紧密的协作关系。在设计、工程、软件开发等领域,GPT-4o将以其卓越的处理速度和精确度,完成那些重复性高、耗时长的任务,使人类工作者得以将注意力集中在更具创造性和战略性的工作上。通过这种深度协作,我们可能会看到创新速度的显著加快和总体生产效率的提升。

2、为每个用户打造的深度个性化体验

展望未来,GPT-4o将更加注重为每个用户提供深度个性化的服务体验。这包括但不限于根据用户的显示偏好、行为习惯以及明确需求提供定制化的内容和服务。例如,在学习平台上,GPT-4o可以根据用户的学习进度和认知能力,动态调整课程内容和难度,实现真正的个性化学习。同样,在消费者服务领域,企业可以利用GPT-4o进行精细的市场细分,为不同的客户群体提供量身定制的解决方案和产品推荐。

3、跨学科的创新应用成为常态

随着GPT-4o的能力不断扩展,预计将有更多跨学科的应用案例出现。GPT-4o将在诸如环境科学、生物技术、医疗健康等领域发挥重要作用,解决传统方法难以解决的问题。例如,在环境科学领域,GPT-4o可以分析大量环境监测数据,识别污染源和趋势,帮助制定更有效的环境保护政策。在医疗健康领域,GPT-4o可以通过分析患者的历史健康数据和全球医疗研究成果,为医生提供精准的治疗建议。

4、全球知识共享与打破语言障碍

借助于GPT-4o强大的多语言处理能力,未来的互联网将变得更加无国界,信息流动更加自由。GPT-4o将能够实时翻译和传播各种语言的内容,不仅促进全球范围内的知识和文化共享,还能加深各国之间的理解和合作。这将为解决全球性问题,如气候变化、公共卫生等提供更加坚实的信息支持和合作基础。

5、伦理与责任的全面强化

随着GPT-4o能力的不断增强,对其应用的伦理审视和社会责任也将成为重点。预计将出现更加完善的法律法规和伦理指导原则,确保技术的发展不会侵犯个人隐私、数据安全及公平性。同时,开发者和企业也需要承担起相应的社会责任,确保AI技术的应用不仅遵循技术的进步,更符合人类社会的整体利益和可持续发展的需求。

总结

OpenAI的GPT-4o模型,凭借速度快两倍、价格便宜一半的优势,迅速成为科技领域的焦点。免费开放的决策推动了AI技术的普及和应用。GPT-4o在多模态交互方面的惊人能力,为各领域带来了革命性影响,极大地拓宽了人机互动的边界。从文本到音频,再到视频,GPT-4o展示了其在多个基准测试中的卓越性能和智能推理能力。通过OpenAI API,用户可轻松调用GPT-4o的强大功能,享受便捷高效的服务。总之,GPT-4o的发布不仅标志着人工智能领域的一大进步,也为社交网络等领域带来了新的革命。随着GPT-4o的持续发展,我们将迈向智能化程度更高、人机交互更自然的时代。

在这里插入图片描述

🎯🔖更多专栏系列文章:AIGC-AI大模型探索之路

如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我,让我们携手同行AI的探索之旅,一起开启智能时代的大门!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718728.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【网关】工业智能网关-02

一 公司简介 保定飞凌嵌入式技术有限公司始于2006年,是一家专注嵌入式核心控制系统研发、设计和生产的高新技术企业,是国内最早专业从事嵌入式技术的企业之一。 经过十几年的发展与积累,公司拥有业内一流的软硬件研发团队,在北京…

深入理解 Go 语言中的字符串不可变性与底层实现

文章目录 前言1 字符串类型的数据结构组成2 为什么要这么设计数据结构?3 为什么说字符串类型不可修改?4 如何实现字符串的修改?5 为什么字符串修改的字面量用单引号?6 如何判断字符串的修改新建了一个字符串?7 字符串的…

网桥、路由器和网关有什么区别

在计算机网络领域,网桥、路由器和网关都是常见的网络设备,它们在网络通信中扮演着不同的角色。虽然它们都有连接不同网络的功能,但在实际应用中却具有各自独特的作用和特点。 1.网桥(Bridge) 定义:网桥是…

Mac逆向Electron应用

工具库 解压asar文件 第一步 找到应用文件夹位置 打开活动监视器: 搜索相关应用 用命令行打开刚才复制的路径即可 open Applications/XXX.app/Contents/Resources/app第二步 解压打包文件 解压asar文件

[论文笔记]SELF-INSTRUCT

引言 今天带来论文SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions的笔记。 大型指令微调的语言模型(被微调以响应指令)展示了在新任务上零样本泛化的显著能力。然而,它们严重依赖于人工编写的指令数据,这种数据在数量、多…

近似解决非线性优化问题的方法:序列线性规划SLP

文章目录 1. 什么是序列线性规划?2. SLP算法逻辑2.1 非线性规划问题2.2 通过泰勒级数展开线性化2.3 步长边界Step Bounds2.4 序列线性规划的迭代逻辑 3. 演算示例4. 涉及代码4.1 绘制可行域4.2 求解序列线性规划4.3 计算步长边界更新公式 参考资料 1. 什么是序列线性…

安全风险 - 检测设备是否为模拟器

在很多安全机构的检测中,关于模拟器的运行环境一般也会做监听处理,有的可能允许执行但是会提示用户,有的可能直接禁止在模拟器上运行我方APP 如何判断当前 app 是运行在Android真机,还是运行在模拟器? 可能做 Framework 的朋友思…

能解决各行各业的数据传输管控方案长什么样,可以进来看看

在数字化时代,数据成为企业最宝贵的资产之一。然而,随之而来的是数据管控的挑战。企业在数据管控过程中可能会遇到哪些问题?一个能够解决各行各业需求的数据传输管控系统应该如何构建?优秀的数据传输管控优势和特点又在哪里&#…

【期末速成】——计算机组成原理(1)

目录 一、什么是计算机的组成 二、冯诺依曼体系结构计算机的特点 三、计算机系统的层次结构 四、机器语言、汇编语言、高级语言, 五、 编译程序、解释程序、汇编程序 六、已知主频、CPI计算程序运行时间 一、什么是计算机的组成 计算机的组成可以分为五个部件和两个信息…

flask-slqalchemy使用详解

目录 1、flask-sqlalchemy 1.1、flask_sqlalchemy 与sqlalchemy 的关系 1.1.1、 基本定义与用途 1.2、flask_sqlalchemy 的使用 1.2.1、安装相关的库 1.2.2、项目准备 1.2.3、创建ORM模型 1.2.3.1、使用db.create_all()创建表的示例 1.2.3.2、创建多表关联ORM模型 1.…

一维时间序列信号的改进小波降噪方法(MATLAB R2021B)

目前国内外对于小波分析在降噪方面的方法研究中,主要有小波分解与重构法降噪、小波阈值降噪、小波变换模极大值法降噪等三类方法。 (1)小波分解与重构法降噪 早在1988 年,Mallat提出了多分辨率分析的概念,利用小波分析的多分辨率特性进行分…

【Unity】使用Jenkins实现远程Unity打包

前言 很多时候,我们需要自动打包,比如下班了,我要出一个包明天早上用。比如每天夜里12点,我需要定时出一个稳定包。 这个时候就需要Jenkins了。 1.安装环境 安装 jenkins 之前,需要安装Java 。Java下载网站 ①下载…

Unity 实现让物体渲染在最前面

演示 实现方案 1.创建一个shader脚本 2.删掉原来的内容:我们自己写 附上完整的shader代码: Shader "Custom/ZTestAlways" {Properties {_Color ("Color Tint",Color) (1,1,1,1)_MainTex("Main Tex",2D) "white&q…

【EI会议|检索稳定】2024年通讯工程与云计算国际会议(CECC 2024)

2024年通讯工程与云计算国际会议(CECC 2024) 2024 International Conference on Communication Engineering and Cloud Computing 【重要信息】 大会地点:武汉 大会官网:http://www.iaccecc.com 投稿邮箱:iacceccsub-…

突破 LST/LRT 赛道中心化困境,Puffer Finance 何以重塑以太坊再质押未来

纵观过去的 2023 年,LST 赛道竞争进入“白热化”状态。去中心化、DeFi 增强、全链化成为市场争夺关键词,诸多 LST 赛道老牌项目纷纷陷入“中心化矛盾”,指责对方在以太坊去中心化进程中的不利作为。 在这样的竞争情形下,以太坊联…

skywalking介绍及搭建

链路追踪框架比对: skywalking安装部署: 下载地址:Downloads | Apache SkyWalking 配置微服务与skywalking整合: copy agent/optional-plugins/apm-spring-cloud-getway-xx.jar到plugins,然后重启skywalking 监控界面…

MOE模型入门

一、目录 定义:MOE架构代表类型如何解决expert 平衡的?而不是集中到某一专家。如何训练、微调MOE模型?基础架构优缺点不同MOE 模型实现方式、训练方法 二、实现 定义:MOE架构 MOE:混合专家模型,多个专家共同决策的模…

2024年Kubernetes管理的发展趋势及预测

Kubernetes管理的概念 Kubernetes管理是指用于监督使用Kubernetes的跨机器集群的容器化应用程序的部署、扩展和操作的过程和工具。这个编排平台自动化了部署、管理和扩展容器化应用程序的许多方面,但它也引入了配置、网络、安全性和资源管理方面的复杂性。 有效的K…

Linux - 文件管理高级1

0.管道 | 将前面命令的标准输出传递给管道作为后面的标准输入 1.文件查找 find find 进行文件查找时,默认进行递归查找,会查找隐藏目录下的文件 1.1 用法 # find 查找路径 查找条件... -type // 文件类型 f 普通文件 b 设备 d …

使用LLaMA-Factory微调大模型

使用LLaMA-Factory微调大模型 github 地址 https://github.com/hiyouga/LLaMA-Factory 搭建环境 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory在 LLaMA-Factory 路径下 创建虚拟环境 conda create -p ./venv python3.10激活环境 c…