揭秘GPT-5,探索未来人工智能的无限可能

news2024/9/20 7:52:58

引言

在过去的几年里,人工智能领域的快速发展引发了全球范围内的广泛关注和讨论。作为这一浪潮的先锋,OpenAI 推出的 GPT 系列模型已经成为了生成式人工智能的代名词。随着 GPT-4 的发布,它在各种任务中表现出的强大能力进一步巩固了其在行业中的领导地位。然而,随着技术的进步和竞争的加剧,AI 的未来将走向何方?GPT-5 是否会成为下一代人工智能的里程碑?本篇文章将探讨 GPT 系列模型的发展历程,分析 GPT-5 可能带来的技术突破,以及人工智能在多模态性、个性化和代理能力等领域的未来趋势。

来源:传神社区

传神社区

大纲

  • GPT系列模型的回顾与展望

    • • GPT系列模型的发展历程

    • • GPT-5 类模型

    • • GPT-5 还是 GPT-4.5?

  • GPT-5的技术剖析

    • • GPT-5 和缩放定律的统治

      • • 模型大小

      • • 数据集大小

      • • 计算

      • • 对 GPT-5 大小的估计

    • • GPT-5 的算法突破

      • • 多模态

      • • 机器人

      • • 推理

      • • 个性化

      • • 可靠性

      • • 代理

  • GPT系列模型的回顾与展望

GPT系列模型的发展历程

GPT系列模型的发展历程见证了从2018年到2025年AI技术的飞速进步。自GPT-1发布以来,每一代模型都在参数规模和功能上实现了显著的飞跃。GPT-2引入了更大的参数量和生成能力,奠定了模型生成连贯文本的基础。GPT-3凭借其1750亿参数,极大地扩展了AI生成与人类写作相近的文本的能力。随后推出的GPT-3.5和GPT-4进一步优化了模型的性能与多模态处理能力,特别是GPT-4在处理图像与文本结合的任务上展现了强大能力。turbo的GPT-4提升了效率,专为商业应用场景而设计。而预计在2024年底至2025年初发布的GPT-5则将进一步提升推理能力和可靠性,迈向更高的智能化水平。这一系列模型的迭代不仅代表了技术的进步,也预示着AI在各种实际应用中的广泛前景。

图片

OpenAI的GPT模型的订阅定价随着每次迭代而演变。下面,我们汇总了所有过去GPT型号的所有订阅价格:

图片

GPT-5 类模型

在2023年3月至2024年1月期间,GPT-4一直是最先进的人工智能模型,几乎没有竞争对手。然而,自2024年2月以来,情况发生了变化。Google的Gemini系列(1.0 Ultra和1.5 Pro版本)和Anthropic的Claude 3 Opus已经达到GPT-4级别,而Meta的Llama 3 405B也即将加入这一行列。这些新模型的出现,使得市场上的竞争更加激烈,尽管各有优缺点,但在整体性能上,它们已经与GPT-4不相上下。

图片

GPT-4技术报告

早期用户甚至认为Claude 3 Opus在某些方面优于GPT-4,而Llama 3 405B在中期评估中表现也非常出色。这一切都让人们开始质疑OpenAI是否还能保持其在AI领域的领导地位。然而,我们不应忘记,OpenAI在技术上依然保持着一年的领先优势,尽管GPT-4已经发布了一段时间,但其最新的Turbo版本依然展示了强大的竞争力。

关键问题在于,随着GPT-5的即将发布,OpenAI能否继续保持其技术优势?还是说,竞争对手们已经成功缩小了差距?Google的Gemini 1.5 Ultra还未发布,但其潜力不可忽视,或许它将成为GPT-5的有力竞争者。

GPT-5 还是 GPT-4.5?

3月初有传言称GPT-4.5的公告泄露,预计其“知识截止时间”是2024年6月,这意味着它可能会推迟到年底发布。这引发了人们的疑问:GPT-5是否会在今年发布?事实上,GPT-4.5和GPT-5的名称只是OpenAI为不同能力水平的模型设置的占位符。OpenAI一直在改进模型,并根据内部结果和竞争对手的动向决定何时发布新版本。因此,我们听到的关于“GPT-5”的消息可能实际上是在谈论GPT-4.5。

发布GPT-4.5在竞争激烈的环境下可能没有太大意义,因为每一次新发布都会被视为“下一个重要版本”。如果用户对版本不满意,他们会质疑为什么不等到推出“GPT-5”。相反,OpenAI可能更倾向于直接发布一个突破性的GPT-5。

不过,OpenAI过去也有例外,如低调发布的GPT-3.5(后来被ChatGPT的成功所掩盖)。这种策略表明,除非有充分的理由,否则GPT-4.5的发布可能不会发生。

GPT-5的技术剖析

GPT-5 和缩放定律的统治

2020年,OpenAI提出了一种扩展定律,该定律自此成为AI公司发展的路线图,主要通过三个因素来预测模型性能:模型大小、训练token数量和计算/训练FLOPs。2022年,DeepMind进一步细化了这一定律,提出了“Chinchilla扩展定律”,强调在扩大模型规模的同时也要相应地增加数据集大小,以充分利用计算资源。

Altman在2023年表示,巨型模型的时代正在结束,未来的改进将通过其他方式实现。这一理念塑造了GPT-4,并将继续影响GPT-5的发展,特别是通过引入专家混合模型(MoE)来提高效率和性能。MoE通过激活专门处理特定任务的小型模型,从而在固定预算下提高了性能并缩短了推理时间。

在生成式AI中,扩展仍然是关键,OpenAI通过结合架构优化和其他技术,将扩展定律的优势发挥到了极致。GPT-5将是这一整体策略的产物,通过增加模型规模、训练数据集和计算能力,继续推动AI性能的提升。

模型大小
GPT-5预计将继续采用MoE(专家混合模型)架构,这种架构能够在提高性能的同时保持高效推理。与GPT-4相比,GPT-5可能会拥有更多的参数和更大的专家规模,从而进一步提升性能和效率。尽管目前还无法准确预测GPT-5的参数数量,但可以预见其规模将超越GPT-4。此前的一些估计表明,GPT-5的参数可能在2-5万亿之间,不过考虑到OpenAI可能使用更多的计算资源,实际规模可能会更大。此外,OpenAI通过访问大量的H100 GPU,进一步增强了其在训练和推理方面的计算能力,使GPT-5能够处理更复杂的任务。
数据集大小
根据Chinchilla扩展定律,如果没有更多数据来支撑,增加模型的参数规模是没有意义的。因此,即使GPT-5的参数数量与GPT-4相似,更多的数据仍然能够提升其性能。GPT-4预计使用了大约12-13万亿个token进行训练,而GPT-5可能需要多达100万亿个token才能充分发挥其潜力。OpenAI可能会通过转录视频或生成合成数据来获取这些额外的训练数据,这已成为AI公司的一种常见做法。通过这些手段,OpenAI希望在不增加模型规模的情况下,继续提升GPT-5的性能。
计算
更多的GPU能够支持更大的模型和更多的训练轮次,从而提升性能。相比GPT-4的训练期,OpenAI现在可以利用Azure数千台H100 GPU,大幅增加可用的计算能力。这可能使得他们能够进一步优化MoE架构,以更低的成本实现更高的参数规模和性能。虽然具体细节尚不明确,但Azure的H100资源给了OpenAI一个明显的优势。如果有一家公司能够应对GPU短缺问题,那就是OpenAI。目前,微软将继续为GPT-5的计算需求提供支持,只要它能够产生卓越的成果。
对GPT-5 大小的估计

假设OpenAI使用了25k H100 GPU来训练GPT-5(这是微软云为OpenAI保留的H100数量的平均值),H100在训练LLM时的速度比A100快2到4倍。如果GPT-5的训练时间为4-6个月,那么其参数规模可能在7-11万亿之间,是之前估计的两倍以上。然而,是否有必要将模型做到这么大,或者更小的模型在更多FLOPs上的训练效果更好,目前尚不确定。

在推理方面,假设这是限制因素,25k H100 GPU将使推理性能提高2到8倍,从而支持GPT-5的参数规模达到10-15万亿,约为GPT-4的10倍。另一种可能是,OpenAI可能利用新增的计算资源来进一步优化和降低GPT-4的成本,以吸引更多用户使用。

整体来看,GPT-5的最终规模和性能将取决于OpenAI如何在计算资源、模型架构和用户需求之间进行平衡。

GPT-5 的算法突破

这一部分最具趣味性,也最具推测性。从GPT-4推断GPT-5的算法进步虽然可行,但充满挑战。考虑到当前领域的高度不透明性,预测算法的进展尤为困难。

最佳的方法是关注与OpenAI紧密相关的人士,跟踪顶级实验室的最新研究。以下是我们可以期待的内容,也即是OpenAI自GPT-4以来可能在研究的领域。

虽然Altman的营销色彩浓厚,但我们仍可以从中提取有价值的见解。这些能力包括推理、代理、个性化等,所有这些都需要算法上的突破。问题在于,GPT-5是否会实现这些愿景?让我们做出合理的推测。

图片

多模态

几年前,多模态性还只是个梦想,如今已成为人工智能的必需品。顶级AI公司都在努力让模型能够处理和生成各种感官模态。GPT-4已经能处理文本和图像,并生成文本、图像和音频;而Gemini 1.5则可以处理文本、图像、音频和视频。

未来的关键问题是多模态性将如何发展?GPT-5可能会进一步扩展这些能力。OpenAI已经在Voice Engine中实现了情感化的合成音频,并在2月宣布了Sora,用于视频生成,尽管尚未正式发布。据报道,Sora在视频生成方面表现出色,有望整合到GPT-5中。预计OpenAI会先推出独立版本的Sora,最终再与GPT-5合并,从而实现更强的多模态生成和理解能力。

机器人

虽然Altman在“AI能力”中没有提到人形机器人或实体,但与Figure的合作暗示了OpenAI未来在该领域的布局。机器人技术结合了多模态性和代理行为,而身体是达到人类智力水平的重要条件。许多研究者认为,智能不仅存在于大脑中,身体在感知和认知中也起着关键作用。

Melanie Michell 写了一篇关于一般智力的科学评论,并谈到了具体化和社会化:

许多研究生物智能的人也怀疑所谓的“认知”智能方面是否可以与其他模式分离并被无形的机器捕获。心理学家已经 表明 ,人类智能的重要方面植根于一个人的具体身体和情感体验。证据还表明,个人智能在很大程度上依赖于一个人对 社会 和 文化 环境的参与。理解、协调和向他人学习的能力对于一个人实现目标的成功可能比个人的“优化能力”更重要。

OpenAI可能会重返机器人领域,尤其是通过与专注于机器人的合作伙伴合作。例如,内置GPT-5的Figure 02机器人,能够进行推理和代理行为,将是一个值得期待的技术成就。

推理

推理是GPT-5可能实现的重要突破。Altman提到GPT-5将具有更强的推理能力,这意味着它能够从现有知识中推导出新知识,类似于人类的逻辑推理。这种能力是人类构建世界模型和实现复杂目标的基础。

图片

当前的人工智能(如GPT-4)在推理方面仍有显著不足,特别是在处理新的、未见过的问题时表现不如人类。这主要是因为AI依赖于模仿学习,即从海量人类数据中学习,而忽略了实验、反复试验和自我对弈等其他学习方式。

DeepMind的AlphaGo Zero通过自我对弈和强化学习实现了显著的推理能力,这显示了AI推理的潜力。为了缩小当前LLM与人类推理能力之间的差距,OpenAI可能会将RL(强化学习)和搜索能力引入到GPT-5中,超越纯粹的模仿学习。推测GPT-5将整合这些技术,成为一个具有显著推理能力的模型。

个性化

个性化的目标是让用户与人工智能建立更紧密的联系。目前,用户无法完全定制ChatGPT的行为,尽管通过系统提示、微调和其他技术可以部分实现个性化。但这些方法在隐私和数据安全方面存在权衡。如果用户希望AI更好地了解自己,就需要提供更多数据,从而可能降低隐私。

AI公司必须在个性化和用户隐私之间找到平衡,否则用户可能转向开源技术。OpenAI并未将个性化作为GPT-5的主要功能之一,部分原因在于模型庞大且计算需求高,难以本地处理和保护隐私。然而,随着上下文窗口扩展到数百万个令牌,个性化的可能性大大增加。未来,GPT-5可能会通过更大的上下文窗口实现更高水平的个性化,允许用户更好地利用AI处理大量个人数据。

可靠性

可靠性是许多人对大型语言模型(LLM)持怀疑态度的主要原因之一,特别是由于幻觉问题。这种不可靠性使得许多人对生成式AI的实际价值产生怀疑,进而影响了其增长和使用。这并非每个人的体验,但足够普遍,足以成为一个必须解决的问题,尤其是在高风险应用场景中。

AI模型的可靠性难以保障,因为它们更像是“被发现的发明”,我们对其内部工作机制还知之甚少。这种不完全理解导致了所谓的“不可靠性”。虽然OpenAI正在通过强化学习、人类反馈(RLHF)、测试和红队测试来提高GPT-5的可靠性和安全性,但这些方法只能减少问题,无法彻底解决它们。换句话说,虽然GPT-5在可靠性方面可能会有所改进,但不应期望它完全消除幻觉或安全漏洞。

代理

GPT-5 是否具备代理能力,即自主推理、计划和行动的能力,是一个关键问题。代理是智能的核心,超越了纯粹的推理。目前的 LLM,如 GPT-4,缺乏这种能力,尽管有早期的尝试如 BabyAGI 和 AutoGPT。代理需要的不仅仅是显性知识,还需要隐性知识,这需要通过实践和经验获得。

OpenAI 一直在研究如何将 LLM 转变为具备代理能力的系统,但这并不容易实现。标记预测算法(TPA)是现代生成式 AI 的基础,OpenAI 认为它足够强大,可以发展出智能代理。然而,模拟世界的复杂性可能超出了 TPA 的能力。

尽管 AI 代理设备和软件代理已经有所尝试,如 Rabbit R1 和 Humane AI Pin,但效果并不理想。OpenAI 可能会在 GPT-5 中引入某种形式的代理能力,但预计仍需更多时间才能达到人类级别的智能代理。GPT-5 更可能是一个改进的多模态 LLM,而不是完整的 AI 代理。

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058441.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

精通推荐算法27:行为序列建模之BST— 代码实现

1 引言 上文 精通推荐算法26:行为序列建模之BST— Transformer建模用户行为序列-CSDN博客 讲解了BST的背景和模型结构,本文给出其代码实现,供大家参考。 2 BST核心代码 Transformer已经成为了算法工程师的必备技能,因此这一节给…

文档在线翻译软件推荐哪些?亲测好用的文档翻译器分享

处暑已至,秋风送爽,正是学习交流的好时节。想象一下,在翻阅外文文献或是与国际友人交流时,如果能有一款便捷的文档翻译软件免费版在手,是不是能让学习之路更加畅通无阻呢? 为了方便大家能够有更高效的学习…

UltraISO刻录Ubuntu镜像制作安装U盘

使用UltraISO 软件来刻录Ubuntu镜像启动盘: 首先下载UltraISO软件,然后点击试用,使用RAW的方式刻录就行!!!

【java】RuoYi-Vue前后端分离版本-登陆请求流程解析

【java】RuoYiBootstrap多模块版本-登陆请求流程解析 这里它用到了一个安全管理框架Spring Security 你可以通过这篇文章《Spring Security 详解》 去了解它,怎么使用 登陆请求流程逻辑图 Created with Raphal 2.3.0 (1)开始 (2&a…

基于yolov5猫狗检测

项目简介 该项目使用YOLOv5深度学习框架来检测图像或视频中的猫和狗。YOLOv5(You Only Look Once v5)是一种高效的物体检测模型,能够快速准确地识别出图像中的目标。本项目具有以下特点: 图像检测:用户可以通过上传图…

Nginx-企业高性能web服务器 超长完整版!只有你想不到 没有你学不到的满满干货!!

Web服务基础介绍 Web 服务器访问流程 按下回车时浏览器根据输入的 URL 地址发送请求报文给服务器。服务器接收到请求报文,会对请求报文进行处理。服务器将处理完的结果通过响应报文返回给浏览器。浏览器解析服务器返回的结果,将结果显示出来。 1. 输入…

苹果手机视频误删怎么恢复?看完拍手叫好的4个方法

试想一下,当你在翻看苹果手机相册的视频,正沉浸在过往的美好回忆中时,手指一不小心触碰到了屏幕上的删除按钮,手机上的视频就这样消失了……面对这样的意外情况,苹果手机视频误删怎么恢复呢?别急&#xff0…

Nuxt学习_基础知识(一)

文章学习来源,nuxt中文网 1. 安装nuxt 指令 npx create-nuxt-app t_nuxt或yarn create nuxt-app f_nuxt 执行指令后按需选择添加自己所需要的相关依赖,若安装出现报错等问题 清除npm、yarn缓存 npm cache clean --force yarn cache clean切换安装命令切…

NSIS - 创建桌面应用程序(Client-Side, CS 或者称为本地应用程序)的安装包

B站视频 C# winform Costura.Fody将多个dll打包生成一个可执行的exe文件中_哔哩哔哩_bilibili 博客 NSIS打包教程 Wnform程序打包-罗分明网络博客 补充:(以下面代码为例) ; 该脚本使用 HM VNISEdit 脚本编辑器向导产生; 安装程序初始定义常量 !define PRODUCT_NAME "sql…

9个超强查找下载化学学科文献的数据库 建议收藏

一、CAS(美国化学文摘社)数据库 CAS SciFinder Discovery Platform 是由全球科学信息引领者CAS(美国化学文摘社)出品的新一代的权威科学研究工具,是化学及相关学科智能研究平台,提供全球全面、可靠的化学及…

图片转PDF?小case!这几步操作,让你秒变职场小旋风

嘿,大家在忙碌的工作里,经常得处理一堆文件和照片,尤其是当你想把一堆照片弄成一个PDF文件时,这事儿就显得特别重要。不管是为了做报告、提项目建议还是整理日常工作资料,把照片转成PDF格式,都能让我们工作…

知识付费小程序引领线上直播

亲爱的朋友们,欢迎来到“探索未知领域,知识付费小程序引领知识新探索”线上直播课程! 在这个信息爆炸的时代,知识的获取从未如此便捷,但高质量、有深度的知识却仍需我们精心筛选。本次直播课程,将聚焦于知识…

conda切换32位运行环境,解决无法在64位系统中安装32位py

当前系统大部分都64位的,我的conda也是64位的,但是如果需要创建32位的py环境,会发现 conda create -n DouyinLive32 python3.7 --force创建的仍然是32位的,为此我们可以使用切换命令切换。 按一下Windows键,输入Prom…

大数据-94 Spark 集群 SQL DataFrame DataSet RDD 创建与相互转换 SparkSQL

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

数据资产入表,全流程实施指南!

数据成为生产要素已是社会共识,但不是所有数据都有资产价值。数据资源当中被重复使用的那部分才会资产化,具有流通中的定价,有些数据资产被专业开发变成数据产品,具有商品价值。从数据原始资源到数据产品,再到数据资产…

华为LTC流程体系的内涵(附PPT分享)

往期回顾: 企业4A架构:数字化转型的底层方法论(附TOGAF资料下载) PPT分享:数据治理的方法论、设计思路与方案(干货) 浅谈数字化转型方法论 110页PPT:xx业务流程优化(BPR&#xff…

Linux压缩和解压

目录 压缩和解压类 gzip/gunzip指令 zip/unzip指令 tar指令 压缩和解压类 gzip/gunzip指令 gzip用于压缩文件,gunzip用于解压缩文件。 解压后去掉了gz的后缀。 zip/unzip指令 ​​​​​​​ 将文件压缩后发给别人,别人再解压。 将整个文件压…

Python | Leetcode Python题解之第354题俄罗斯套娃信封问题

题目: 题解: class Solution:def maxEnvelopes(self, envelopes: List[List[int]]) -> int:if not envelopes:return 0n len(envelopes)envelopes.sort(keylambda x: (x[0], -x[1]))f [1] * nfor i in range(n):for j in range(i):if envelopes[j]…

利用srs进行视频流转发

框图如下 docker-compose.yaml如下 rtmp2rtc.conf的配置如下 就增加了 #配置如下 forward {enabled on;#开启转发backend http://192.168.0.131:6789/api/v1/forward; #有视频流数据后会调用这个接口} #回调的参数如下 Received payload: {actionon_forward, server_idvid-k2…

字节微前端框架Garfish

Garfish 是字节跳动开源的微前端框架,旨在应对现代 Web 应用在前端生态繁荣与应用日益复杂化背景下的挑战。本文将介绍如何使用 Garfish,提供代码示例,并与另一流行的微前端框架 Qiankun 进行对比分析。 安装 Garfish 首先,安装…