ChatGPT-4o 有何特别之处?

news2024/11/25 2:39:01

文章目录

    • 多模态输入,多模态输出
    • 之前的模型和现在模型对比

大家已经知道,OpenAI 在 GPT-4 发布一年多后终于推出了一个新模型。它仍然是 GPT-4 的一个变体,但具有前所未见的多模态功能。

有趣的是,它包括实时视频处理等强大功能,这一关键功能最终可以让我们创建强大的虚拟助手,实时支持我们的日常生活。然而,这样的功能应该很昂贵且缓慢,考虑到该模型速度极快且免费使用(有限免费),这不合情理。

那么,到底发生了什么事呢?

OpenAI 一定已经意识到了一些我们尚未意识到的事情,即我们今天讨论的智能设计决策可以以极低的价格创建出更智能的模型。

那么,这一切有何意义?它对你未来意味着什么?

多模态输入,多模态输出

那么,ChatGPT-4o 有什么特别之处呢?它是有史以来第一个真正的“多模态输入/多模态输出”前沿模型。

但我们这样说到底是什么意思呢?

在真正的多模态模型中,您可以向模型发送音频、文本、图像或视频,模型将根据需求使用文本、图像或音频(还不是视频)进行响应。

但我知道你在想什么:ChatGPT 或 Gemini 的先前版本不是已经处理和生成图像或音频了吗?是的,但有一个需要注意的点是:他们是通过独立的外生组件来实现的

之前的模型和现在模型对比

以前,每当你向大模型发送音频时,都是这样的标准流程:
在这里插入图片描述

输入输出过程:用户发出的语音请求经过自动语音识别(ASR)转为文本(这里用的Whisper),文本经过大语言模型处理生成响应文本,响应文本再经过文本转语音(TTS)模块转换为语音,最终以语音形式返回给用户。

Whisper 是由 OpenAI 开发的一种自动语音识别(ASR)系统。它利用深度学习技术和大规模语音数据进行训练,能够将语音信号转换为文本。Whisper 系统具有高准确性和多语言支持,能够处理各种音质和背景噪声的语音输入。

在此过程中,自然语音中的声调节奏韵律、传达的情感关键停顿都会丢失,因为语音转文本组件Whisper会将音频转录为 LLM 可以处理的文本。

然后,LLM 将生成文本响应并将其发送到另一个组件(即文本到语音模型),该模型将生成最终传达的语音。

自然,由于人类通过语音传达的信息远不止文字,许多重要信息也因此丢失,
而且由于信息必须在不同的组件之间发送,造成的延迟并不理想。

但是在 ChatGPT-4o 中,一切都相似但又完全不同;因为一切都发生在同一个地方。
在这里插入图片描述
乍一看,似乎变化不大。但尽管组件几乎没有变化(vocoder和音频解码器是我们之前展示的文本转语音模型的一部分),但这些组件如何共享信息完全改变了信息丢失的程度

具体来说,LLM 现在看到的是语音的语义表示,而不是原始文本。通俗地说,模型现在不仅能看到“我想杀了你!”这句文字,还能接收到以下信息:

{
 转译的文字: "我想杀了你!"; 
 情绪: "高兴";
 语气: "喜悦";
}

这里虽然使用了 JSON 示例来说明,但语音编码器实际上为 LLM 生成的是一组向量嵌入(Vector Embeddings),除了实际文本之外,它们还捕捉语音的情感、语调、节奏和其他线索。
向量嵌入 是一种将离散的数据(如单词、句子、图像等)映射到连续的低维向量空间的方法。这些向量捕捉了数据的语义关系,使得相似的数据在向量空间中更接近。

因此,LLM 生成的响应更加基于实际情况,除了文字之外,还能捕捉信息中的关键特征。

然后将该响应发送到音频解码器,音频解码器使用它来生成梅尔频谱图(很可能),最后将其发送到声码器以生成音频。

您可以将频谱图视为“查看”声音的一种方式。频谱图 是一种将音频信号的频率成分展示在二维图表上的工具。频谱图显示了音频信号在不同时间点的频率分布及其强度

那么梅尔频谱图是什么?梅尔频谱图 是一种特殊类型的频谱图,它通过 Mel 频率尺度对频率轴进行变换,更符合人耳对声音的感知

顺便说一句,所有这些也适用于图像处理和生成或视频处理,因为它们将所有组件打包成一个单一模型,而不仅仅是音频。

总而言之,ChatGPT-4o 现在可以从文本以外的其他形式捕获信息,包括关键音频、图像或视频提示,以生成更相关的响应。简而言之,它不再关心数据如何进入并适应上下文,而是需要决定必须以何种方式回复。

这个改变有多么重要?

OpenAI 实现的真正多模态向世界传递了一个鲜明的信息:

在不使模型的主干(LLM)本身更加智能的情况下,能够跨多种模态进行推理的模型必然会更加智能,因为该模型不仅具有更多功能,而且还能够在不同数据类型之间传递知识。

人类运用所有感官的能力被认为是智能的关键部分,而人工智能也旨在掌握这种能力。

作为一个很大的好处,它还使模型在推理方面变得更加高效(撇开它们本可以应用的特定效率不谈)。消除组合多个外部组件的通信开销似乎使模型的速度大大加快。

这就是 ChatGPT-4o 的特别之处。

如果你想体验ChatGPT-4o,并且想国内直接访问,可以直接访问 我要超级GPT 51supergpt, 免注册,直接使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1718177.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu (18.04) _Mysql (8.0.X)设置密码强度

首先 查看是否有密码强度插件: SHOW PLUGINS; 如果没有,则安装 install plugin validate_password soname validate_password.so; 再次查看,会看到密码强度插件已开 其次 查看密码强度具体配置 show variables like validate_password%; validate…

QT 欧姆龙 fins协议 上位机程序

一个根据欧姆龙的FINS协议制作的上位机读取程序,功能如下: 能够增加、编辑、删除PLC的名称、IP地址与端口号。取编辑时间最新的六台显示在主界面中。数据存入 MYSQL 数据库,可以修改数据库名称、IP地址、端口号、登陆用户与密码。设置数据存…

eNSP学习——OSPF的DR与BDR

目录 相关命令 原理概述 实验内容 实验目的 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建基本的OSPF网络 3、查看默认情况下的DR/BDR状态 4、根据现网需求影响DR/BDR选举 相关命令 [R4]int g0/0/0 [R4-GigabitEthernet0/0/0]ospf network-type p2mp //在接…

如何识别并选择正规、优质的外汇交易平台?

外汇市场的日益繁荣吸引了越来越多的投资者,但同时也带来了众多外汇平台的涌现。如何在这些平台中筛选出正规、可信的平台,成为了每位外汇交易者必须面对的首要问题。以下,我们将为您揭示如何鉴别外汇平台真伪的几个关键方法: 首先…

移动端性能测试(android/ios)

solox官网 https://github.com/smart-test-ti/SoloX solox简介 实时收集android/ios性能的工具,Android设备无需Root,iOS设备无需越狱。有效解决Android和iOS性能的测试和分析挑战。 solox安装 环境准备 python安装3.10以上的 python官网下载地址…

Oracle Hint /*+APPEND*/插入性能总结

oracle append用法 Oracle中的APPEND用法主要用于提高数据插入的效率。 基本用法:在使用了APPEND选项后,插入数据会直接加到表的最后面,而不会在表的空闲块中插入数据。这种做法不需要寻找freelist中的free block,从而避免了在…

Facebook代运营 | Facebook广告投放步骤及要点

Facebook体量大,素材的更新频率快,通过Facebook进行广告投放的用户也越来越多,Facebook坐拥大量用户,同时有着非常科学的用户画像构建系统和推送机制,对于很多广告涉足的伙伴来说,更加的友好。 1. 创建广告…

2024.5.29晚训参考代码

因为本套题没有BFS例题&#xff0c;所以我先把BFS模板放着 #include<bits/stdc.h> using namespace std; int n,m;//n*m的棋盘 int dis[402][402]; bool vis[402][402]; int X[]{-2,-2,-1,-1,1,1,2,2};//偏移量的表 int Y[]{-1,1,-2,2,-2,2,-1,1};//定义一个数组&…

【工具】 MyBatis Plus的SQL拦截器自动翻译替换“?“符号为真实数值

【工具】 MyBatis Plus的SQL拦截器自动翻译替换"?"符号为真实数值 使用MyBatis的配置如下所示&#xff1a; mybatis-plus:configuration:log-impl: org.apache.ibatis.logging.stdout.StdOutImpl调用接口&#xff0c;sql日志打印如下&#xff1a; 参数和sql语句不…

Docker的数据管理(数据卷+数据卷容器)

文章目录 一、Docker的数据管理1、概述2、主要的技术&#xff08;三种数据挂载方式&#xff09;2.1、数据卷&#xff08;Volumes&#xff09;2.2、绑定挂载&#xff08;Bind mounts&#xff09;2.3、tmpfs挂载&#xff08;Tmpfs mounts&#xff09;2.4、之间的关系&#xff08;…

DBeaver连接Oracle报错:ORA-12514

Listener refused the connection with the following error:ORA-12514, TNS:listener does not currently know of service requested inconnect descriptor ———————————————— 1.报错信息2.配置正确结语 ———————————————— 如果是第一次连接Or…

「51媒体」媒体邀约全攻略

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 媒体邀约全攻略可以概括如下&#xff0c;以确保流程的清晰性和完整性&#xff1a; 一、前期准备 明确目标&#xff1a;清晰定义活动的目标&#xff0c;例如增加曝光度、提高知名度、塑造…

FinalShell 配置SSH密钥登陆

转载请标明出处&#xff1a;http://blog.csdn.net/donkor_/article/details/139355489 文章目录 前言生成密钥服务器配置公钥本地配置私钥存储私钥FinalShell配置 总结 前言 本机FinalShell 配置SSH密钥登陆服务器&#xff0c;这样就不再需要使用密码进行登陆了。由于FinalSh…

【2024新版】银系统源码/超市收银系统/智慧新零售/ERP进销存管理/线上商城/商户助手

>>>系统简述&#xff1a;本系统适用于超吃便利店&#xff0c;美妆母婴行业&#xff0c;服装鞋帽行业&#xff0c;食品零售行业&#xff0c;3C数码电子行业&#xff0c;食品生鲜等一切零售行业&#xff0c;产品功能角色介绍如下 合伙人&#xff1a;无限发展代理商和商…

说明白计算机网络之TCP的流量控制与拥塞控制之慢开始算法与拥塞避免算法

TCP的流量控制 利用滑动窗口实现流量控制 设A向B发送数据&#xff0c;连接建立时候&#xff0c;B告诉A自身的接收窗口大小&#xff0c;A的发送窗口大小不能超过接收方B的窗口大小 流量控制&#xff1a;发送方发送速率不要太快&#xff0c;要让接收方来得及接收。窗口大小的单…

相对论真的很难理解吗?其实一点也不难,原理就在你我身边!

相对论&#xff0c;一个听起来就充满神秘色彩的名词&#xff0c;它在科学界的地位举足轻重&#xff0c;被誉为现代物理的基石。或许你并不了解相对论&#xff0c;但大概率应该听说过。 不过对于大多数人来说&#xff0c;相对论似乎总是笼罩在一层难以穿透的迷雾之中&#xff0c…

未来工厂新篇章:大型工厂3D可视化技术引领工业新潮流

在科技日新月异的今天&#xff0c;大型工厂不再是我们印象中机器轰鸣、尘土飞扬的钢铁丛林&#xff0c;而是变成了智慧与效率并存的现代化生产中心。这一切的改变&#xff0c;都离不开一项革命性的技术——3D可视化。 一、何为大型工厂3D可视化&#xff1f; 大型工厂3D可视化&…

VRTK4.0学习——(一)

此开发基于Unity 6000.0.0f1 1.导入VRTK v4 Tilia Package Importer.unitypackage包 2.在PackManager中查看配置是否正确 3.点击 Window→Tilia→Package Importer 打开面板后点击 Add Scoped Registry 4.首先我们先将CameraRigs导入,CameraRigs中主要是启动VR头盔的功能&…

Web前端三大主流框:React、Vue 和 Angular

在当今快速发展的 Web 开发领域&#xff0c;选择合适的前端框架对于项目的成功至关重要。React、Vue 和 Angular 作为三大主流前端框架&#xff0c;凭借其强大的功能和灵活的特性&#xff0c;赢得了众多开发者的青睐。本文将对这三大框架进行解析&#xff0c;帮助开发者了解它们…

达梦数据库写文件的方式探索

0x01 前沿 这篇文章整体算是《达梦数据库手工注入笔记》的续集&#xff0c;达梦作为国内优秀的信创数据库&#xff0c;在关基单位中拥有越来越大的用户使用量。 通过SQL注入来写文件一直以来都是SQL注入漏洞深入利用的一种方式&#xff0c;对于不同的数据库通常写文件的方式也是…