【AI学习】聊两句昨夜OpenAI的GPT-4o

news2024/11/18 23:26:59

蹭个热点,聊两句昨夜的大事件——OpenAI发布GPT-4o,我看到和想到的一点东西。

首先是端到端方法,前面关于深度学习的文章,对端到端的重要性做了一些学习,对端到端这个概念有了一些理解。正如Richard Sutton在《苦涩的教训》中的经典判断,再次重温一遍,“The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.(从70年的人工智能研究中可以学到的最大教训是,利用计算的通用方法最终是最有效的,而且在很大程度上是有效的)。”

引用一段话,来看这次OpenAI的端到端改进:

”根据OpenAI发布在官网的最新博客文章显示,在GPT-4o之前,我们使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是由三个独立的模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源,GPT-4,丢失了很多信息,它不能直接观察语调、多个说话者或背景噪音,也不能输出笑声、歌唱或表达情感。

GPT-4o,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。”

这里必然有一些新的token化的技术来完成多模态的统一,但是OpenAI之前就有Whisper的技术积累,应该不是困难事。

我在想,这种端到端的技术,肯定会带来一些新的好处,比如模型性能和处理速度的提升。最近在读一些有关大脑的书籍,人类做决策,不是单纯的逻辑推理,同时也依靠情绪,假如大脑中有关情绪感知的部位受损,那人就将变得犹豫不决而丧失决策能力。过去语音转化为文字丢失了很多情感信息,GPT-4o的端到端训练,是否就可能在模型中产生了类似人脑的情绪网络,从而大大提升决策处理速度的提升。情感能力,不仅是技术应用的需要,也是技术本身的需要。

当然,最困难的不是技术,而是产品能力,能够把这些显而易见的技术打造为亮眼的产品。

在这里插入图片描述

其次,解决了图片中生成文字的问题,这个真的好难。
先说个笑话,之前,有知名公众号的文章,使用这样一个文生图的提示: “这幅插画描绘了一颗由半透明玻璃制成的心,矗立在惊涛骇浪中的基座上,一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字‘Find the universe with you ’”。然后,我也用这个提示尝试了一下,生成的图片与这个公众号的图片基本一致,就是图片中缺了那行醒目的文字。后来我才知道,在图片中生成文字技术上非常困难。试想一下,如果能够严格遵循文字的指令生成图片,一定需要模型能够对文字和图片进行深层次的语义理解,然后在语义层面彻底打通文字的语义和图片的语义,这是更高层次的统一。所以说,OpenAI解决了图片的文字生成问题,语义通信这件事就更加触手可及了!

另外,利用几张图像进行3D重建,这个功能好强大,感觉在很多简单应用已经可以替代SLAM、NeRF等,接下来,多模态技术的进一步发展,原来的热门技术需要重新思考对待了。

最亮眼的还是应用,OpenAI马上就要占领超级接口了吧。
在这里插入图片描述

昨晚的主持人Mira,真的好美,女神!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1675721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT学习(1)——创建第一个QT程序,信号和槽,打开关闭窗口的案例

目录 引出规范和帮助文档创建第一个Qt程序对象树概念信号signal槽slot自定义信号和槽1.自定义信号2.自定义槽3.建立连接4.进行触发 自定义信号重载带参数的按钮触发信号触发信号拓展 lambda表达式返回值mutable修饰案例 打开关闭窗口案例 总结 引出 QT学习(1&#…

DGC-GNN 配置运行

算法 DGC-GNN,这是一种全局到局部的图神经网络,用于提高图像中2D关键点与场景的稀疏3D点云的匹配精度。与依赖视觉描述符的方法相比,这种方法具有较低的内存需求,更好的隐私保护,并减少了对昂贵3D模型维护的需求。DGC-…

Docker安装Redis,并在 Visual Studio Code 中使用它

Docker安装Redis 查找Redis docker search Redis完整结果 PS C:\Users\cheng> docker search Redis NAME DESCRIPTION STARS OFFICIAL redis Redis is an open …

29、Qt使用上下文菜单(右键菜单)

说明:使用四种方式实现鼠标右击界面,显示出菜单,菜单上有两个动作,选择两个动作,分别打印“111”和“222”。 界面样式如下: 一、方法1:重写鼠标事件mousePressEvent .h中的代码如下&#xff…

他因提及其他编程语言而被禁止

在Java社区提一提Kotlin,可能会惹来大麻烦。 想象一下,你把整个职业生涯都奉献给了编程,特别是精通某一种特定的编程语言。你写书,参与该语言的开发,围绕它构建东西,分享你的知识,然后突然间&am…

四川汇聚荣:拼多多开店流程分享

随着电商行业的蓬勃发展,越来趀多的创业者选择在线上平台开设店铺。其中,拼多多以其独特的团购模式和巨大的用户基数成为众多商家的新宠。但对于初次涉足的商家而言,如何正确高效地开设一家拼多多店铺,无疑是他们迫切需要解决的难…

[译文] 恶意代码分析:2.LNK文件伪装成证书传播RokRAT恶意软件(含无文件攻击)

这是作者新开的一个专栏,主要翻译国外知名安全厂商的技术报告和安全技术,了解它们的前沿技术,学习它们威胁溯源和恶意代码分析的方法,希望对您有所帮助。当然,由于作者英语有限,会借助LLM进行校验和润色&am…

nestJs中跨库查询

app.module.ts中配置 模块的module中 注意实体类在写的时候和数据库中的表名一样 service中使用一下

电商核心技术揭秘56:客户关系管理与忠诚度提升

相关系列文章 电商技术揭秘相关系列文章合集(1) 电商技术揭秘相关系列文章合集(2) 电商技术揭秘相关系列文章合集(3) 文章目录 引言客户关系管理(CRM)的重要性提升顾客体验数据驱…

【Unity Shader入门精要 第7章】基础纹理(一)

1. 纹理映射 每一张纹理可以看作拥有一个属于自己的2D坐标空间,其横轴用U表示,纵轴用V表示,因此也称为UV坐标空间。 UV空间的坐标范围为[0,0]到[1,1],在Unity中,UV空间也是从左下到右上&#…

OSPF工作过程

1.OSPF的数据包 hello包——周期性的发现,建立以及保活邻居关系 hello时间 --- 10S 死亡时间 --- 4倍的hello时间 --- 40S RID --- 1,全网唯一;2,格式统一---- 格式要求和IP地址一样,由32位二进制构成,使用点分十进制…

【科研】常用的实验结果评价指标(2) —— MAE 是什么? !

了解MAE 提示:先说概念,后续再陆续上代码 文章目录 了解MAE前言一、MAE 基本概念1. MAE 是什么?2. MAE 的起源3. MAE 的计算公式 二、MAE的适用场景是什么?三、MAE 的劣势,或 不适用于那些场景或者数据?四、…

常见磁盘分区问题

给磁盘分区有几个主要的原因: 组织和管理数据:分区可以帮助用户更好地组织和管理数据。例如,你可以在一个分区上安装操作系统,而在另一个分区上存储个人文件。这样,即使操作系统崩溃或需要重新安装,你的个…

十二生肖Midjourney绘画大挑战:释放你的创意火花

随着AI艺术逐渐进入大众视野,使用Midjourney绘制十二生肖不仅能够激发我们的想象力,还能让我们与传统文化进行一场新式的对话。在这里,我们会逐一提供给你创意满满的绘画提示词,让你的作品别具一格。而且,我们还精选了…

机器学习周报第41周

目录 摘要Abstract一、文献阅读1.1 摘要1.2 背景1.3 论文方法1.3.1 局部特征提取1.3.2 局部特征转换器 (LoFTR) 模块1.3.4 建立粗粒度匹配1.3.5 精细匹配 1.4 损失1.5 实现细节1.6 实验1.6.1 单应性估计1.6.2 相对位姿估计 二、论文代码总结 摘要 本周阅读了一篇特征匹配领域的…

【JS面试题】原型原型链

一、面试真题展示: 1. 如何准确判断一个变量是不是数组? ① 使用instanceof进行判断:a instanceof Array ② 使用Array.isArray()进行判断:Array.isArray(a) 2. 手写一个简易的jQuery,考虑插件和扩展性? …

iOS——消息传递和消息转发

消息传递(Message Passing): 在 iOS 中,消息传递机制是基于 Objective-C 语言的动态性质的一种编程方式。这种机制主要涉及到两个概念:发送者(即消息的发送对象)和接收者(即消息的接…

定时器的理论和使用

文章目录 一、定时器理论1.1定时器创建和使用 二、定时器实践2.1周期触发定时器2.2按键消抖 一、定时器理论 定时器是一种允许在特定时间间隔后或在将来的某个时间点调用回调函数的机制。对于需要周期性任务或延迟执行任务的嵌入式应用程序特别有用。 软件定时器: …

Linux修炼之路之yum和vim编辑器

目录 一:Linux软件包管理器yum 二:vim编辑器 vim的三种模式及互相转换 命令模式 底行模式 三:普通用户的sudo指令(修改信任名单) 接下来的日子会顺顺利利,万事胜意,生活明朗-----------林辞忧 一&#xff1a…

(三)Spring教程——依赖注入与控制反转

Spring框架是为了简化企业级应用开发而创建的,其强大之处在于对Java SE和Java EE开发进行全方位的简化,Spring还对常用的功能进行封装,可以极大地提高Java EE的开发效率。 依赖注入是Spring的核心技术之一,也被称为“控制反转”&a…