引言
在过去的几年里,人工智能领域的快速发展引发了全球范围内的广泛关注和讨论。作为这一浪潮的先锋,OpenAI 推出的 GPT 系列模型已经成为了生成式人工智能的代名词。随着 GPT-4 的发布,它在各种任务中表现出的强大能力进一步巩固了其在行业中的领导地位。然而,随着技术的进步和竞争的加剧,AI 的未来将走向何方?GPT-5 是否会成为下一代人工智能的里程碑?本篇文章将探讨 GPT 系列模型的发展历程,分析 GPT-5 可能带来的技术突破,以及人工智能在多模态性、个性化和代理能力等领域的未来趋势。
来源:传神社区
传神社区
大纲
-
GPT系列模型的回顾与展望
-
-
• GPT系列模型的发展历程
-
• GPT-5 类模型
-
• GPT-5 还是 GPT-4.5?
-
-
GPT-5的技术剖析
-
• GPT-5 和缩放定律的统治
-
• 模型大小
-
• 数据集大小
-
• 计算
-
• 对 GPT-5 大小的估计
-
-
• GPT-5 的算法突破
-
• 多模态
-
• 机器人
-
• 推理
-
• 个性化
-
• 可靠性
-
• 代理
-
-
-
GPT系列模型的回顾与展望
GPT系列模型的发展历程
GPT系列模型的发展历程见证了从2018年到2025年AI技术的飞速进步。自GPT-1发布以来,每一代模型都在参数规模和功能上实现了显著的飞跃。GPT-2引入了更大的参数量和生成能力,奠定了模型生成连贯文本的基础。GPT-3凭借其1750亿参数,极大地扩展了AI生成与人类写作相近的文本的能力。随后推出的GPT-3.5和GPT-4进一步优化了模型的性能与多模态处理能力,特别是GPT-4在处理图像与文本结合的任务上展现了强大能力。turbo的GPT-4提升了效率,专为商业应用场景而设计。而预计在2024年底至2025年初发布的GPT-5则将进一步提升推理能力和可靠性,迈向更高的智能化水平。这一系列模型的迭代不仅代表了技术的进步,也预示着AI在各种实际应用中的广泛前景。
OpenAI的GPT模型的订阅定价随着每次迭代而演变。下面,我们汇总了所有过去GPT型号的所有订阅价格:
GPT-5 类模型
在2023年3月至2024年1月期间,GPT-4一直是最先进的人工智能模型,几乎没有竞争对手。然而,自2024年2月以来,情况发生了变化。Google的Gemini系列(1.0 Ultra和1.5 Pro版本)和Anthropic的Claude 3 Opus已经达到GPT-4级别,而Meta的Llama 3 405B也即将加入这一行列。这些新模型的出现,使得市场上的竞争更加激烈,尽管各有优缺点,但在整体性能上,它们已经与GPT-4不相上下。
GPT-4技术报告
早期用户甚至认为Claude 3 Opus在某些方面优于GPT-4,而Llama 3 405B在中期评估中表现也非常出色。这一切都让人们开始质疑OpenAI是否还能保持其在AI领域的领导地位。然而,我们不应忘记,OpenAI在技术上依然保持着一年的领先优势,尽管GPT-4已经发布了一段时间,但其最新的Turbo版本依然展示了强大的竞争力。
关键问题在于,随着GPT-5的即将发布,OpenAI能否继续保持其技术优势?还是说,竞争对手们已经成功缩小了差距?Google的Gemini 1.5 Ultra还未发布,但其潜力不可忽视,或许它将成为GPT-5的有力竞争者。
GPT-5 还是 GPT-4.5?
3月初有传言称GPT-4.5的公告泄露,预计其“知识截止时间”是2024年6月,这意味着它可能会推迟到年底发布。这引发了人们的疑问:GPT-5是否会在今年发布?事实上,GPT-4.5和GPT-5的名称只是OpenAI为不同能力水平的模型设置的占位符。OpenAI一直在改进模型,并根据内部结果和竞争对手的动向决定何时发布新版本。因此,我们听到的关于“GPT-5”的消息可能实际上是在谈论GPT-4.5。
发布GPT-4.5在竞争激烈的环境下可能没有太大意义,因为每一次新发布都会被视为“下一个重要版本”。如果用户对版本不满意,他们会质疑为什么不等到推出“GPT-5”。相反,OpenAI可能更倾向于直接发布一个突破性的GPT-5。
不过,OpenAI过去也有例外,如低调发布的GPT-3.5(后来被ChatGPT的成功所掩盖)。这种策略表明,除非有充分的理由,否则GPT-4.5的发布可能不会发生。
GPT-5的技术剖析
GPT-5 和缩放定律的统治
2020年,OpenAI提出了一种扩展定律,该定律自此成为AI公司发展的路线图,主要通过三个因素来预测模型性能:模型大小、训练token数量和计算/训练FLOPs。2022年,DeepMind进一步细化了这一定律,提出了“Chinchilla扩展定律”,强调在扩大模型规模的同时也要相应地增加数据集大小,以充分利用计算资源。
Altman在2023年表示,巨型模型的时代正在结束,未来的改进将通过其他方式实现。这一理念塑造了GPT-4,并将继续影响GPT-5的发展,特别是通过引入专家混合模型(MoE)来提高效率和性能。MoE通过激活专门处理特定任务的小型模型,从而在固定预算下提高了性能并缩短了推理时间。
在生成式AI中,扩展仍然是关键,OpenAI通过结合架构优化和其他技术,将扩展定律的优势发挥到了极致。GPT-5将是这一整体策略的产物,通过增加模型规模、训练数据集和计算能力,继续推动AI性能的提升。
模型大小
GPT-5预计将继续采用MoE(专家混合模型)架构,这种架构能够在提高性能的同时保持高效推理。与GPT-4相比,GPT-5可能会拥有更多的参数和更大的专家规模,从而进一步提升性能和效率。尽管目前还无法准确预测GPT-5的参数数量,但可以预见其规模将超越GPT-4。此前的一些估计表明,GPT-5的参数可能在2-5万亿之间,不过考虑到OpenAI可能使用更多的计算资源,实际规模可能会更大。此外,OpenAI通过访问大量的H100 GPU,进一步增强了其在训练和推理方面的计算能力,使GPT-5能够处理更复杂的任务。
数据集大小
根据Chinchilla扩展定律,如果没有更多数据来支撑,增加模型的参数规模是没有意义的。因此,即使GPT-5的参数数量与GPT-4相似,更多的数据仍然能够提升其性能。GPT-4预计使用了大约12-13万亿个token进行训练,而GPT-5可能需要多达100万亿个token才能充分发挥其潜力。OpenAI可能会通过转录视频或生成合成数据来获取这些额外的训练数据,这已成为AI公司的一种常见做法。通过这些手段,OpenAI希望在不增加模型规模的情况下,继续提升GPT-5的性能。
计算
更多的GPU能够支持更大的模型和更多的训练轮次,从而提升性能。相比GPT-4的训练期,OpenAI现在可以利用Azure数千台H100 GPU,大幅增加可用的计算能力。这可能使得他们能够进一步优化MoE架构,以更低的成本实现更高的参数规模和性能。虽然具体细节尚不明确,但Azure的H100资源给了OpenAI一个明显的优势。如果有一家公司能够应对GPU短缺问题,那就是OpenAI。目前,微软将继续为GPT-5的计算需求提供支持,只要它能够产生卓越的成果。
对GPT-5 大小的估计
假设OpenAI使用了25k H100 GPU来训练GPT-5(这是微软云为OpenAI保留的H100数量的平均值),H100在训练LLM时的速度比A100快2到4倍。如果GPT-5的训练时间为4-6个月,那么其参数规模可能在7-11万亿之间,是之前估计的两倍以上。然而,是否有必要将模型做到这么大,或者更小的模型在更多FLOPs上的训练效果更好,目前尚不确定。
在推理方面,假设这是限制因素,25k H100 GPU将使推理性能提高2到8倍,从而支持GPT-5的参数规模达到10-15万亿,约为GPT-4的10倍。另一种可能是,OpenAI可能利用新增的计算资源来进一步优化和降低GPT-4的成本,以吸引更多用户使用。
整体来看,GPT-5的最终规模和性能将取决于OpenAI如何在计算资源、模型架构和用户需求之间进行平衡。
GPT-5 的算法突破
这一部分最具趣味性,也最具推测性。从GPT-4推断GPT-5的算法进步虽然可行,但充满挑战。考虑到当前领域的高度不透明性,预测算法的进展尤为困难。
最佳的方法是关注与OpenAI紧密相关的人士,跟踪顶级实验室的最新研究。以下是我们可以期待的内容,也即是OpenAI自GPT-4以来可能在研究的领域。
虽然Altman的营销色彩浓厚,但我们仍可以从中提取有价值的见解。这些能力包括推理、代理、个性化等,所有这些都需要算法上的突破。问题在于,GPT-5是否会实现这些愿景?让我们做出合理的推测。
多模态
几年前,多模态性还只是个梦想,如今已成为人工智能的必需品。顶级AI公司都在努力让模型能够处理和生成各种感官模态。GPT-4已经能处理文本和图像,并生成文本、图像和音频;而Gemini 1.5则可以处理文本、图像、音频和视频。
未来的关键问题是多模态性将如何发展?GPT-5可能会进一步扩展这些能力。OpenAI已经在Voice Engine中实现了情感化的合成音频,并在2月宣布了Sora,用于视频生成,尽管尚未正式发布。据报道,Sora在视频生成方面表现出色,有望整合到GPT-5中。预计OpenAI会先推出独立版本的Sora,最终再与GPT-5合并,从而实现更强的多模态生成和理解能力。
机器人
虽然Altman在“AI能力”中没有提到人形机器人或实体,但与Figure的合作暗示了OpenAI未来在该领域的布局。机器人技术结合了多模态性和代理行为,而身体是达到人类智力水平的重要条件。许多研究者认为,智能不仅存在于大脑中,身体在感知和认知中也起着关键作用。
Melanie Michell 写了一篇关于一般智力的科学评论,并谈到了具体化和社会化:
许多研究生物智能的人也怀疑所谓的“认知”智能方面是否可以与其他模式分离并被无形的机器捕获。心理学家已经 表明 ,人类智能的重要方面植根于一个人的具体身体和情感体验。证据还表明,个人智能在很大程度上依赖于一个人对 社会 和 文化 环境的参与。理解、协调和向他人学习的能力对于一个人实现目标的成功可能比个人的“优化能力”更重要。
OpenAI可能会重返机器人领域,尤其是通过与专注于机器人的合作伙伴合作。例如,内置GPT-5的Figure 02机器人,能够进行推理和代理行为,将是一个值得期待的技术成就。
推理
推理是GPT-5可能实现的重要突破。Altman提到GPT-5将具有更强的推理能力,这意味着它能够从现有知识中推导出新知识,类似于人类的逻辑推理。这种能力是人类构建世界模型和实现复杂目标的基础。
当前的人工智能(如GPT-4)在推理方面仍有显著不足,特别是在处理新的、未见过的问题时表现不如人类。这主要是因为AI依赖于模仿学习,即从海量人类数据中学习,而忽略了实验、反复试验和自我对弈等其他学习方式。
DeepMind的AlphaGo Zero通过自我对弈和强化学习实现了显著的推理能力,这显示了AI推理的潜力。为了缩小当前LLM与人类推理能力之间的差距,OpenAI可能会将RL(强化学习)和搜索能力引入到GPT-5中,超越纯粹的模仿学习。推测GPT-5将整合这些技术,成为一个具有显著推理能力的模型。
个性化
个性化的目标是让用户与人工智能建立更紧密的联系。目前,用户无法完全定制ChatGPT的行为,尽管通过系统提示、微调和其他技术可以部分实现个性化。但这些方法在隐私和数据安全方面存在权衡。如果用户希望AI更好地了解自己,就需要提供更多数据,从而可能降低隐私。
AI公司必须在个性化和用户隐私之间找到平衡,否则用户可能转向开源技术。OpenAI并未将个性化作为GPT-5的主要功能之一,部分原因在于模型庞大且计算需求高,难以本地处理和保护隐私。然而,随着上下文窗口扩展到数百万个令牌,个性化的可能性大大增加。未来,GPT-5可能会通过更大的上下文窗口实现更高水平的个性化,允许用户更好地利用AI处理大量个人数据。
可靠性
可靠性是许多人对大型语言模型(LLM)持怀疑态度的主要原因之一,特别是由于幻觉问题。这种不可靠性使得许多人对生成式AI的实际价值产生怀疑,进而影响了其增长和使用。这并非每个人的体验,但足够普遍,足以成为一个必须解决的问题,尤其是在高风险应用场景中。
AI模型的可靠性难以保障,因为它们更像是“被发现的发明”,我们对其内部工作机制还知之甚少。这种不完全理解导致了所谓的“不可靠性”。虽然OpenAI正在通过强化学习、人类反馈(RLHF)、测试和红队测试来提高GPT-5的可靠性和安全性,但这些方法只能减少问题,无法彻底解决它们。换句话说,虽然GPT-5在可靠性方面可能会有所改进,但不应期望它完全消除幻觉或安全漏洞。
代理
GPT-5 是否具备代理能力,即自主推理、计划和行动的能力,是一个关键问题。代理是智能的核心,超越了纯粹的推理。目前的 LLM,如 GPT-4,缺乏这种能力,尽管有早期的尝试如 BabyAGI 和 AutoGPT。代理需要的不仅仅是显性知识,还需要隐性知识,这需要通过实践和经验获得。
OpenAI 一直在研究如何将 LLM 转变为具备代理能力的系统,但这并不容易实现。标记预测算法(TPA)是现代生成式 AI 的基础,OpenAI 认为它足够强大,可以发展出智能代理。然而,模拟世界的复杂性可能超出了 TPA 的能力。
尽管 AI 代理设备和软件代理已经有所尝试,如 Rabbit R1 和 Humane AI Pin,但效果并不理想。OpenAI 可能会在 GPT-5 中引入某种形式的代理能力,但预计仍需更多时间才能达到人类级别的智能代理。GPT-5 更可能是一个改进的多模态 LLM,而不是完整的 AI 代理。
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区