你好GPT-4o——对GPT-4o发布的思考与看法

news2024/11/28 3:53:08

你好GPT-4o

前言

在这里插入图片描述

2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于人工响应时间(在新窗口中打开)在对话中。它在英语文本和代码上的能力同 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

不能否认的一点是,它与GPT-4的差距并没有像GPT-3.5和GPT-4那样之大,你可以将它看成GPT-4的Ultra版本或者是Pro版本。但基于GPT-4强大的语言处理能力和内容输出的高质量,并在此基础上进行了一次再进化,它变得更快、更强、甚至是免费面向用户的——我认为这是它最大的特点之一。

在这里插入图片描述

免费带来的结果:这使更多用户能够更好地体验GPT的功能,并且是使用最新的旗舰版;可能会造成对人工智能的过度的依赖——我们并不知道这是好是坏;带动其他AI公司的内卷上升——这有利于用户,也有利于市场竞争——这是一个好的现象,这说明人工智能服务正在朝着大众的方向前进,也使其变得更加平常化和低成本化,从而能推动诸多事物的发展。

那么这次的人工智能的更新,从技术层面,又为我们带来怎样的惊喜呢?

技术层面的Update

1.音频、视觉和文本

我们阅读官方的文档可以发现,这次的GPT-4o版本反复强调其在音频、视觉和文本上的重要提升。而在我们使用之后也不得不承认这是事实。

OpenAI GPT-4o guessing May 13th’s announcement on Vimeo
上述这段视频是来自OpenAI官网,展示了GPT-4o在视觉和音频理解方面出色的能力。

在这里插入图片描述
在这里插入图片描述

而这主要体现在以下几个点:

  • 更深层次的理解:GPT-4o在处理复杂句子结构和抽象概念方面表现得更加出色,能够更准确地理解上下文并生成连贯的回应。
  • 更丰富的词汇量:它具有更广泛的词汇库,能够更好地处理多种语言和不同领域的专业术语。
  • 更丝滑的回答和应对能力:针对提问者发出的问题,它能够更加人性化地给出答案,并且在给出答案地基础上展现更多符合语境和对话方的语气词以及态度。

同时,有以下几个有趣的点:我们随时说话随时打断GPT,并且它能够理解我们的语气和态度;响应速度极快,无需等待尴尬的2—3秒;可以模仿不同风格的语气——dramatic、robotic、terrible;可以识别符号——人类创作的具有象征意义的符号…诸如此类,还有很多我们意想不到的特征值得我们去探索。

2. 知识库扩展

  • 更新的知识基础:GPT-4o基于更新的数据进行训练,因此能够提供更为最新的知识和信息。相较于前代具有更广阔的知识库和更新的数据。
  • 更强的推理能力:在回答需要逻辑推理和复杂推断的问题时表现更好,能够给出更合理和有依据的答案。

3. 多模态处理能力的进一步加强

这个特点是基于音视频、文本处理综合而成的。它能够带来综合性的能力展现,给用户更好的融合性能体验。

  • 图像理解:GPT-4o处理和生成与图像相关的文本,进行图像描述、分析和生成相应的文字解释的能力进一步加强,更加准确。
  • 跨模态融合:具备在文本与其他形式数据(如图像、声音等)之间进行更有效的融合和转换的能力。

4. 对话管理和互动

  • 上下文保持:GPT-4在长对话中保持上下文一致性的能力更强,能够更好地理解和记住之前的对话内容。
  • 情感和语气控制:能够根据用户的情感和对话语境调整回应的语气,更加自然和人性化。

5. 编程与技术问答

  • 代码生成和理解:在编程帮助和技术问题解答方面,GPT-4o表现得更为出色,能够生成更高质量的代码并解释复杂的技术概念。
  • 多语言支持:支持更多的编程语言,并能够处理复杂的编程任务和跨语言的技术问题。
  • 用户体验上升:用户在编写代码的过程中对于GPT的使用更加顺滑和便捷。

6. 创造性任务

  • 创意写作:在写作小说、剧本、诗歌等创造性任务方面,GPT-4o展现了更强的创造力和连贯性。
  • 内容生成:能够生成更有创意和原创性的内容,满足用户多样化的内容需求。

7. 用户体验

  • 响应速度:处理和生成文本的速度更快,提升了用户的整体体验。
  • 提供了更好的UI:通过更直观和用户友好的界面,增强用户的互动体验。
  • API的开放

8.人工智能之间的互相对话

这次官网的展示视频中,有一个视频很有趣,那就是两个GPT-4o之间的对话。

在这里插入图片描述

第一个点:互动

第二个点:唱歌

这倒也是实现了机机交互。

GPT-4 Turbo 与 GPT-4o

GPT-4o 具有相同的高智商,但比 GPT-4 Turbo 更快、更便宜,并且具有更高的速率限制。具体说来:

  • 定价:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入 5 美元/月,输出代币 15 美元/M)。
  • 速率限制:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万个代币。
  • 速度:GPT-4o 的速度是 GPT-2 Turbo 的 4 倍。
  • 视觉:GPT-4o 的视觉能力在与视觉能力相关的评估中表现优于 GPT-4 Turbo。
  • 多语言:GPT-4o 改进了对非英语语言的支持,而不是 GPT-4 Turbo。

GPT-4o 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。

思考与找出其不足

在这里插入图片描述

当我们聊完了它的优点之后,特别是对比它的前辈GPT-4之后,我们不得不想去找出它的缺点、或者是不足来证明它为啥免费提供、为啥在套餐中的限用额度还是比GPT-4高——也就是说相较于4它更便宜。

首先从模型的名字上来看,GPT-4和4o仅仅只差了一个字母o,而3和4却是直接差了一代。为什么不将其直接命名为5呢?可以猜测,OpenAI这次发布的新产品,实际上也是在为他们的下一代旗舰模型——GPT-5做准备,这次的4o只是预热,就如当年GPT-3.5的免费紧随着GPT-4的发布。很有可能在接下来的一年(保守)之内,OpenAI将会释放出他们的全新模型,并且是一次新的提升,在某个我们难以预料又或许常用的方面具有巨大的提升,所以我们拭目以待。

在这里插入图片描述

另外,其实相较于GPT-4o,4的训练模型已经足够成熟,并且能够胜任大部分工作,所以它依旧是作为工作辅助的首选。从人们的接受度来看也会选择更加老练的版本,这样更为靠谱,那么公司为了盈利,当然就会将他们更熟练的模型定价更高,从而获得更多利润,这是从公司盈利的角度。

那么从这次的更新上来看,确实也有些不足的地方:

例如在与其对话的过程中,打断说话时的处理方式较为生硬,我们可能还是需要按下暂停键才能打断GPT,我认为真正的语言交互或许是无差别对话:也就是不需要任何按键或者提示,你可以随时开启对话,随时打断对话,随时结束对话,甚至加上情境,何时结束对话较为合适,我们应该说些什么让气氛不那么尴尬等等。

奥特曼回应称,OpenAI会继续改进并提升语音功能的质量:“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”

另外其他例如语音生成的速度依旧不够快、语气处理有待加强、在较为复杂的问题上还是会有疏漏等等,实际上这些也算是老问题了——但这也算挑刺,毕竟这次的更新还是有着极大的飞跃的。

你好GPT,未来会怎样?

在这里插入图片描述

当我不带任何提示词问GPT时,给出的答案是有条有理——条条框框的。
而当我使用语音对话(基于3.5的模型)问它这个问题时,我发现与这次发布的4o确实有较大差距。无论是从回答上还是从语音的处理上。

或许人工智能的发展总是充满奇迹和想象力,而当我们沉溺于技术的发展时,总不能忘记我们时刻要保持清醒,理性看待——尽管这是这两年来老生常谈的问题,但我们依旧不可忽视。

未来会是如何?无人知晓,让我们期待GPT-5、6、7的到来,并且对此再去享受、去适应、去思考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1804958.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linuxDNS域名解析

文章目录 DNS 是域名系统的简称正向解析反向解析主从服务器解析bond网卡 DNS 是域名系统的简称 域名和IP地址之间的映射关系 互联网中,IP地址是通信的唯一标识,逻辑地址 访问网站 域名解析的目的就是为了实现,访问域名就等于访问IP地址 …

Linux---进程/磁盘管理

文章目录 目录 文章目录 一.Linux中进程的概念 二.显示系统执行的进程 2.1: ps 命令 2.2 top 命令 三.终止进程 四.磁盘分区 一.Linux中进程的概念 在Linux中,进程是指操作系统中正在执行的程序的实例。每个进程都由操作系统分配了独立的内存空间,用于…

安装node

下载地址 Node.js — Run JavaScript Everywhere 按照下面的图操作即可 然后就下载完了。

Audio PsyChat:web端语音心理咨询系统

Github:GitHub - EthanLifeGreat/AudioPsyChat: 这是一个在服务器本地运行的web语音心理咨询系统,咨询系统内核使用[PsyChat],我们为其制作了Web前端,并拼接了ASR和TTS组件,使局域网内用户可以通过单纯的语音进行交互。…

Vue09-事件处理

一、一个简单的示例 v-on&#xff1a;当xxx的时候。 二、事件处理 2-1、参数说明 <div id"root"><h1>你好呀&#xff0c;{{name}}</h1><button v-on:click"showinfo">点击我</button></div><script>new Vue({e…

专业的数据分析软件

一、简介 1、由OriginLab公司开发的专业数据分析和科学绘图软件,广泛应用于科研、教育和工业领域。它不仅能够处理和分析各种类型的数据,还能创建高质量的图表和图形,帮助用户更好地理解和展示数据。OriginPro提供了丰富的统计分析工具、数据处理功能、多种绘图类型和自定义…

手把手AI实战(一)治愈系动画视频

手把手AI实战(一)治愈系动画视频 一、成果展示 二、步骤拆解 2.1 AI出图 可以使用你顺手的AI绘图工具&#xff0c;国外的像Midjouney、Stable Diffusion&#xff0c;国内的像扣子、智普清言等等。我这里用了剪映的&#xff0c;地址是&#xff1a;https://jimeng.jianying.com/a…

Centos7系统禁用Nouveau内核驱动程序【笔记】

在CentOS系统中,Nouveau是开源的NVIDIA显卡驱动程序,但它与NVIDIA的官方驱动程序NVIDIA Proprietary Driver存在兼容性问题。 如果你想要禁用Nouveau并使用NVIDIA官方驱动,可以按照以下步骤操作: 1、创建一个黑名单文件以禁用Nouveau驱动。 echo blacklist nouveau | su…

上海安全员C证继续教育题库(附答案)

1.从业人员经过安全教育培训&#xff0c;了解岗位操作规程&#xff0c;但未遵守而造成事故的&#xff0c;行为人应负( )责任&#xff0c;有关负责人应负( )责任。 A.直接 间接 B.直接 领导 C.间接 管理D.直接 管理 2.对生产附着式升降脚手架产品的单位&#xff0c;必须…

无限可能LangChain——构建代理

单独来看&#xff0c;语言模型无法采取行动 - 它们只能输出文本。LangChain的一个重要用例是创建代理。代理是使用LLM作为推理引擎的系统&#xff0c;用于确定要采取的行动以及这些行动的输入应该是什么。然后&#xff0c;这些行动的结果可以反馈给代理&#xff0c;并确定是否需…

探索智慧农业系统架构的设计与应用

随着科技的不断进步和农业现代化的推进&#xff0c;智慧农业正逐渐成为农业发展的重要趋势。智慧农业系统架构的设计与应用&#xff0c;将农业生产与信息技术相结合&#xff0c;为农业生产提供了新的思路和解决方案。本文将深入探讨智慧农业系统架构的设计与应用&#xff0c;从…

【C语言】动态内存经典笔试题(下卷)

前言 如果说动态内存是C语言给我们的一个工具&#xff0c;那么只有掌握了工具的特点我们才能更好地使用。 紧随上卷&#xff0c;我们再来看看动态内存另外两道经典的笔试题。 &#xff08;建议没看过上卷的朋友可以先看完上卷再回来&#xff1a;【C语言】动态内存经典笔试题…

【MySQL】(基础篇二) —— MySQL初始用

MySQL初始用 目录 MySQL初始用基本语法约定选择数据库查看数据库和表其它的SHOW 在Navicat中&#xff0c;大部分数据库管理相关的操作都可以通过图形界面完成&#xff0c;这个很简单&#xff0c;大家可以自行探索。虽然Navicat等图形化数据库管理工具为操作和管理数据库提供了非…

Kali Linux 2024.2

Kali Linux 2024.2 版本&#xff08;t64、GNOME 46 和社区包&#xff09; 比平常晚了一点&#xff0c;但 Kali 2024.2 来了&#xff01;延迟是由于实现这一目标的幕后变化所致&#xff0c;这也是人们关注的焦点。社区提供了大量帮助&#xff0c;这次他们不仅添加了新的软件包&…

腾讯医疗大模型,不止大模型

“千呼万唤始出来&#xff0c;腾讯健康终于祭出医疗大模型。但或许这只是新故事的开始。下一步通过应用场景的打磨&#xff0c;全面嵌入生态合作伙伴&#xff0c;才能让医疗行业加速全面拥抱「数智化」工具。 在今年几乎所有企业都卷入AI大模型这场豪赌时&#xff0c;腾讯健康…

刘强东的拼搏哲学与产品创新的启示

在当今这个快速变化的时代&#xff0c;成功不再是偶然&#xff0c;而是需要一种敢于挑战、敢于拼搏的精神。正如京东创始人刘强东所说&#xff1a;“实现梦想&#xff0c;记住这句话就够了。敢于挑战&#xff0c;敢于拼搏的人不一定能成功&#xff0c;但成功的人一定是敢于挑战…

04 uboot 编译与调试

新手不需要详细掌握 uboot,只需要知道它是一个什么东西即可,工作中也只是改一些参数而已。 1、uboot 是什么 Linux 系统要启动就必须需要一个 bootloader 程序,也就说芯片上电以后先运行一段 bootloader 程序。这段 bootloader 程序会先初始化 DDR 等外设,然后将 Linux 内…

超详解——python数字和运算——小白篇

目录 1.位运算 2. 常用内置函数/模块 math模块&#xff1a; random模块&#xff1a; decimal模块&#xff1a; 3.内置函数&#xff1a; 总结&#xff1a; 1.位运算 位运算是对整数在内存中的二进制表示进行操作。Python支持以下常见的位运算符&#xff1a; 按位与&…

【最新鸿蒙应用开发】——ArkUI两种开发范式

在进行鸿蒙应用开发&#xff0c;openHarmony提供了一种页面开发框架叫做ArkUI方舟框架来进行页面布局的开发。 ArkUI方舟UI框架 针对不同的应用场景及技术背景&#xff0c;方舟UI框架提供了两种开发范式&#xff0c;分别是基于ArkTS的声明式开发范式&#xff08;简称“声明式…

为什么会有虚像

本来我就打算写虚像相关的内容&#xff0c;实际上我看不懂光学的内容&#xff0c;我只是发觉书上没有使用变分法来做&#xff0c;而只是解析几何的变换&#xff0c;这个做法完全脱离实际&#xff0c;物理书为什么会这样写不知道原因&#xff0c;但是很明显这样的内容也非常的复…