OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo 新增视觉理解能力,可同时处理文本和图像信息

news2024/11/26 8:57:12

OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo with Vision新增视觉理解能力,可同时处理文本和图像信息,极大简化了开发流程。 OpenAI宣布GPT-4 Turbo全面升级!根据官方说法,这一波 GPT 的升级包括:

  • 更长的上下文长度:128k,相当于 300 页文本。

  • 更高的智能程度,更好的 JSON / 函数调用。

  • 更高的速度:每分钟两倍 token。

  • 知识更新:目前的截止日期为 2023 年 4 月。

  • 定制化:GPT3 16k、GPT4 微调、定制模型服务。

  • 多模态:Dall-E 3、GPT4-V 和 TTS 模型现已在 API 中。

  • Whisper V3 开源(即将推出 API)。

  • 与开发者分享收益的 Agent 商店。

  • GPT4 Turbo 的价格约是 GPT4 的 1/3。

一款具有视觉处理能力的最新GPT-4 Turbo模型——GPT-4 Turbo with Vision已通过OpenAI API正式上线。

虽然GPT-4-Turbo发布已久,但一直以“预览版”的方式提供,和其他 GPT-4 Turbo 预览版一样,GPT-4 Turbo支持128k上下文窗口,可以在单个 prompt中处理超过300页的文本,模型训练的数据截止日期为2023年12月,更长的上下文意味着模型输出结果更加准确。

发布会一开完,人们蜂拥而入开始尝试。GPT4 Turbo 的体验果然不同凡响。首先是快,快到和以前所有大模型拉开了代差:

然后是功能增多,画画的时候,你一有灵感就可以直接说话让 AI 负责实现:

设计个 UI,几个小时的工作变成几分钟:

我直接不装了,截个图复制粘贴别人的网站,生成自己的,只用 40 秒:

利用 ChatGPT 与 Bing 的浏览功能以及与 DALL-E 3 图像生成器的集成,沃顿商学院教授 Ethan Mollick 分享了一段视频,展示了他的名为「趋势分析器」的 GPT 工具,其可查找市场特定细分市场的趋势,然后创建新产品的原型图像。 Octane AI 首席执行官 Matt Schlicht 的 Simponize Me GPT 会自动应用提示来转换用户上传的个人资料照片,生成《辛普森一家》的风格,做这个小应用只用了不到十分钟。

GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。 至此,生成式 AI 的竞争似乎进入了新的阶段。很多人认为,当竞争对手们依然在追求更快、能力更强的大模型时,OpenAI 其实早就已经把所有方向都试过了一遍,这一波更新会让一大批创业公司作古。 在新模型发布的 24 小时内,就有研究者在 Aider 上进行了 AI 生成代码的能力测试。

  • 在 gpt-4-1106-preview 模型上,仅使用 diff 编辑方法对 GPT-4 模型进行基准测试得出的结论是:

  • 新的 gpt-4-1106-preview 模型似乎比早期的 GPT-4 模型快得多;

  • 第一次尝试时似乎更能生成正确的代码,能正确完成大约 57% 的练习,以前的模型在第一次尝试时只能正确完成 46-47% 的练习;

  • 在通过检查测试套件错误输出获得第二次纠正错误的机会后,新模型的表现 (~66%) 似乎与旧模型 (63-64%) 相似 。

  • 接下来是使用 whole 和 diff 编辑格式对 GPT-3.5 模型进行的基准测试。结果表明,似乎没有一个 gpt-3.5 模型能够有效地使用 diff 编辑格式,包括最新的 11 月出现的新模型( 简称 1106)。下面是一些 whole 编辑格式结果:

  • 新的 gpt-3.5-turbo-1106 型号完成基准测试的速度比早期的 GPT-3.5 型号快 3-4 倍;

  • 首次尝试后的成功率为 42%,与之前的 6 月 (0613) 型号相当。1106 模型和 0613 模型都比原来的 0301 第一次尝试的结果更差,为 50%;

  • 新模型在第二次尝试后的成功率为 56%,似乎与 3 月的模型相当,但比 6 月的模型要好一些,6 月的模型为 50% 得分。

这项测试是如何进行的呢,具体而言,研究者让 Aider 尝试完成 133 个 Exercism Python 编码练习。对于每个练习,Exercism 都提供了一个起始 Python 文件,文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。 基准测试分为两步:

  1. 第一次尝试时,Aider 向 GPT 提供要编辑的桩代码文件以及描述问题的自然语言指令。这些指令反映了用户如何使用 Aider 进行编码。用户将源代码文件添加到聊天中并请求更改,这些更改会被自动应用。

  2. 如果测试套件在第一次尝试后失败,Aider 会将测试错误输出提供给 GPT,并要求其修复代码。Aider 的这种交互式方式非常便捷,用户使用 /run pytest 之类的命令来运行 pytest 并在与 GPT 的聊天中共享结果。然后就有了上述结果。

  3. 至于 Aider ,对于那些不了解的小伙伴,接下来我们简单介绍一下。 Aider 是一个命令行工具,可以让用户将程序与 GPT-3.5/GPT-4 配对,以编辑本地 git 存储库中存储的代码。用户既可以启动新项目,也可以使用现有存储库。Aider 能够确保 GPT 中编辑的内容通过合理的提交消息提交到 git。Aider 的独特之处在于它可以很好地与现有的更大的代码库配合使用。

简单总结就是,借助该工具,用户可以使用 OpenAI 的 GPT 编写和编辑代码,轻松地进行 git commit、diff 和撤消 GPT 提出的更改,而无需复制 / 粘贴,它还具有帮助 GPT-4 理解和修改更大代码库的功能。 为了达到上述功能,Aider 需要能够准确地识别 GPT 何时想要编辑用户源代码,还需要确定 GPT 想要修改哪些文件并对 GPT 做出的修改进行准确的应用。然而,做好这项「代码编辑」任务并不简单,需要功能较强的 LLM、准确的提示以及与 LLM 交互的良好工具。 操作过程中,当有修改发生时,Aider 会依靠代码编辑基准(code editing benchmark)来定量评估修改后的性能。例如,当用户更改 Aider 的提示或驱动 LLM 对话的后端时,可以通过运行基准测试以确定这些更改产生多少改进。 此外还有人使用 GPT-4 Turbo 简单和其他模型对比了一下美国高考 SAT 的成绩:

同样,看起来聪明的程度并没有拉开代差,甚至还有点退步。不过必须要指出的是,实验的样本数量很小。 综上所述,GPT-4 Turbo 的这一波更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。业务落地速度慢的公司要小心了。

另一方面,从这次开发者日的发布内容来看,OpenAI 也从一个极度追求前沿技术的创业公司,变得开始关注起用户体验和生态构建,更像大型科技公司了。 再次颠覆 AI 领域的 GPT-5,我们还得再等一等。 此次发布的GPT-4-Turbo正式版最大的革新之处在于,其新增的视觉理解能力,且视觉请求支持JSON格式和函数调用方式。 开发者现在可以通过文本格式JSON和函数调用来运用模型的视觉识别和分析功能,生成的JSON代码片段可用于自动化连接应用中的操作,如发邮件、发帖、购物等。OpenAI建议在执行这类操作前先设置用户确认流程。

价格方面,本次发布的GPT-4-Turbo正式版和之前的 GPT-4-Turbo“预览版 保持一致:输入:$10.00 / 100万 tokens;输出:$30.00 / 100万 tokens; 读图:最低$0.00085 /图。

OpenAI发言人表示,在过去开发者需要调用不同的模型来处理文本和图像信息,而GPT-4 Turbo with Vision则将两者合二为一,极大简化了开发流程,同时可以分析图像和文本并应用推理。 OpenAI还重点介绍了客户使用GPT-4 Turbo with Vision的几个案例,如Cognition的AI编程助手——Devin,由GPT-4 Turbo提供支持,利用视觉功能来执行各种编程任务。 目前,GPT-4 Turbo with Vision尚未应用于ChatGPT或开放给大众使用,不过 OpenAI暗示该功能即将登陆ChatGPT。 从网友评价来看,有网友对于将视觉理解能力融入API表示赞赏,认为API中有了视觉识别功能很酷。

也有网友对于OpenAI在推文中用了“majorly improved”(显著改善)这一词表达了质疑,让OpenAI好好解释一下什么是显著改善。

也有网友称,请下一条推文发布和GPT-5有关的内容,否则就别发了。

当然,网友的评价里也少不了和Claude 3的比较,有网友称,现在可以看看到底能不能打败Claude 3 Opus了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1600086.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如果补货机器人也开始搬砖

过去几年,如果一位顾客的欲购商品疑似缺货,“请稍等,我去后台查一下”便是最常听到的一句话。随着过去几年劳动力短缺的加剧,货架并不总像许多人习惯的那样满满当当。为减轻不断补货的负担,使员工可以将精力集中于其他…

ArduPilot开源飞控之ROS系统简介

ArduPilot开源飞控之ROS系统简介 1. 源由2. ROS系统3. 安装2.1 安装Docker2.2 安装ROS2 4. 总结5. 补充资料 1. 源由 之前在ArduPilot开源飞控之硬件SBC分析中讨论过,个人角度最推荐其中两个系统是: Rpanion-server【推荐,简单】BlueOS【推…

OpenHarmony实战开发-如何实现发布图片评论功能。

介绍 本示例将通过发布图片评论场景,介绍如何使用startAbilityForResult接口拉起相机拍照,并获取相机返回的数据。 效果图预览 使用说明 通过startAbilityForResult接口拉起相机,拍照后获取图片地址。 实现思路 1.创建CommentData类&…

反转链表【java】

给定一个链表的头节点head反转链表 方法一:循环 1.定义三个指针: pre指针:刚开始指向空 prenull cur指针:刚开始指向head节点 curhead temp指针:保存cur指针指向节点的下一个节点 2. 不断循环改变相邻两个节点的指…

3.2 iHRM人力资源 - 组织架构 - 编辑及删除

iHRM人力资源 - 组织架构 文章目录 iHRM人力资源 - 组织架构一、编辑功能1.1 表单弹层并数据回显1.2 编辑校验1.3 编辑 二、删除功能 一、编辑功能 编辑功能和新增功能用的组件其实是一个,结构几乎是一样的,其实是复用了组件,我们也省去了很…

中国新质生产力水平(原始+测算+结果)-企业和各省数据集

新质生产力是一个至少涵盖科技、绿色和数字三大方面的集成体,对其评价测度需要依托多属性综合评价方法。文章构建了包含3个一级指标、6个二级指标和18个三级指标的综合体系,采用改进的熵权-TOPSIS方法对指标进行赋权,从而得到全国新质生产力发…

Github 2024-04-12 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-12统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目6TypeScript项目2Cuda项目1C++项目1C项目1HTML项目1Jupyter Notebook项目1JavaScript项目1Python - 100天从新手到大师 创建周期:22…

AV1:帧内预测(二)

在上一篇文章中介绍了AV1帧内预测的各个工具,本文进一步介绍其中的相关细节。 参考像素准备 帧内预测是利用当前帧已重建的像素预测当前块,和HEVC一样,AV1的帧内预测参考像素来自当前块上方和左侧的重建像素。 对于尺寸为wxh的块&#xff0…

Vue 阶段练习:记事本

将 Vue快速入门 和 Vue 指令的学习成果应用到实际场景中(如该练习 记事本),我们能够解决实际问题并提升对 Vue 的技能掌握。 目录 功能展示 需求分析 我的代码 案例代码 知识点总结 功能展示 需求分析 列表渲染删除功能添加功能底部统计…

正在海外乘风破浪的扫地机器人,手握怎样的发展利器?

“懒人经济”能造就多大的市场,可以从扫地机器人行业的发展窥见。 据国际数据分析机构捷孚凯报告,截至2022年底,我国扫地机器人已占据50%以上的海外市场份额。其中,科沃斯、石头科技等头部企业成为出海的“主力军”。 以石头科技…

网工内推 | 等保测评工程师,朝九晚六,周末双休,有相关认证优先

01 江苏国保测评中心 招聘岗位:等保测评工程师 职责描述: 1.测评类项目的物理安全测评、主机安全测评、数据安全测评、应用安全测评、风险评估、差距分析等并编制相关报告; 2.协助业务部门完成网络安全等级保护测评、信息安全咨询、信息安全风险评估等项…

4.配置USART串口实现printf打印

通过TTL转USB实现电脑和单片机连通,是我们调试必不可少的工具 查看原理图,使用USART1,它们的TX和RX分别在PA9和PA10 新建Usart.c存放串口模块的初始化 这段代码是复制了正点原子的工程,添加到前面 #if SYSTEM_SUPPORT_OS #include "includes.h" //ucos 使用 …

rhce.定时任务和延迟任务项目

一 . 在系统中设定延迟任务要求如下: 在系统中建立 easylee 用户,设定其密码为 easylee 延迟任务由 root 用户建立 要求在 5 小时后备份系统中的用户信息文件到/backup中 确保延迟任务是使用非交互模式建立 确保系统中只有 root 用户和easylee用户可以…

GitHub提交PR

本教程只做开源代码库Github工程提交pr的教程,不做其他的深入的讲解 Github和Gitlab的操作类似,只不过Github叫PR,GitLab叫MR,基本上做法是一致的 以开源项目QuickChat为例 https://github.com/Binx98/QuickChat https://github…

ShardingSphere:强大的分布式数据库中间件【图文】

ShardingSphere的诞生 ShardingSphere的结构 Sharding-JDBC :它提供了一个轻量级的 Java 框架,在 Java 的 JDBC 层提供额外的服务。使用客户端直连数据库,以 jar 包形式提供服务,无需额外部署和依赖,可理解为增强版的 JDBC 驱动&…

225 基于matlab的天牛须优化算法及其对BP神经网络的优化

基于matlab的天牛须优化算法及其对BP神经网络的优化,优化后的阀值权值赋予网络预测。最后输出BP和BAS-BP训练和预测结果。程序已调通,可直接运行。 225 天牛须优化算法 BP神经网络 - 小红书 (xiaohongshu.com)

如何降低漏测, 避免上线后出bug,6年测试心得分享

一、漏测原因总结 (1)需求评审质量低,需求设计简单、只是简单描述功能,功能逻辑较少   (2)需求变更频繁   (3)缺少需求分解(sql 文档、用例设计)   &…

2024.4.16

三个按键的中断 do_irq.c #include "mykey.h" extern void printf(const char *fmt, ...); unsigned int i 0; void do_irq(void) {//获取中断号unsigned int irqno (GICC->IAR&0x3ff);switch (irqno){case 99://中断处理逻辑printf("KEY1_INTC\n&q…

【免费领取源码】可直接复用的医院管理系统!

今天给大家分享一套基于SpringbootVue的医院管理系统源码,在实际项目中可以直接复用。(免费提供,文中自取) 系统运行图(设计报告和接口文档) 1、后台管理页面 2、排班管理页面 3、设计报告包含接口文档 源码免费领取方式 后台私信…

第一届AI Agent智能体现场开发大赛报名开启!8月上旬火热开赛~

由联想拯救者、AIGC开放社区、英特尔携手主办的“AI生成未来第二届拯救者杯OPENAIGC开发者大赛”已经正式启动,“2024 AI Agent极限挑战赛”作为特设专项赛道,也将同步于8月上旬开赛,参赛者将在更加紧张刺激的现场比赛中展现其技术与创造力。…