大模型相关:ChatGPT的原理与架构

news2025/1/16 2:06:42

一、大模型面临的挑战

1.1 Transformer模型的缺陷:

与RNN相比Transformer面临以下挑战:

  1. 并行计算能力不足。RNN需要按序处理序列数据中的每个时间步,这限制了它在训练过程中充分利用现代GPU的并行计算能力,从而影响训练效率。
  2. 长程依赖问题。尽管LSTM和GRU在处理长程依赖上比基本的RNN更为出色但在处理非常长的序列时,它们依然存在困难。
  3. 模型容量限制。LSTM和GRU的模型容量相对较小,这在大语言模型训练中限制了模型的规模,使获取更丰富的语义信息和构建更复杂的表示变得困难。

Transformer模型的结构如下图所示:
Transformer模型结构

1.2 大模型发展的三个瓶颈

算力瓶颈

  • 预训练阶段:chatGPT 3.5参数量1750亿以上,显存占用350G~500G,预训练需要1000个以上的A100 GPU算力。单次训练成本500万美元
  • 推理与部署阶段1750亿,假设有1300万个日活跃用户,每个GPU每小时成本1美元,日均计算硬件成本69万美元,每次查询成本0.69美分

数据瓶颈

  • LLaMA使用数据集4.6TB
  • GPT-3使用数据集45TB(文本)
  • 全球最大中文语料库WuDaoCorpora:3TB,公开200G

工程瓶颈

专业研究人员和工程师的技能标准要求高、培养和雇佣成本高

二、大模型的评估

GPT-4的智能水平可从以下几个关键方面进行评估:

  1. 任务表现
  2. 知识理解与应用
  3. 泛化能力
  4. 自主学习和推理能力

三、大模型的演变和架构

3.1 GPT-1

GPT-1的模型架构如下图所示:
在这里插入图片描述

3.2 GPT-2

GPT-2模型的自回归过程:
在这里插入图片描述

3.3 GPT-3

GPT-3的模型架构示意图:
在这里插入图片描述

3.4 GPT系列

总结GPT的技术栈和模型结构。
大语言模型的技术栈如下图所示:
在这里插入图片描述
GPT系列的模型架构示意图:

3.5 应用流程

在这里插入图片描述

四、大模型的未来发展

在探索GPT-5及后续版本的可能性与发展前景时,有几个关键因素必须予以重点考数据量数据质量以及数据来源。这些可能决定了GPT-5及后续版本是否能够接近虑:或超越人类智能的关键要素

4.1 数据量

有媒体开始预测GPT-5的发布日期,并预测GPT-5在多模态处理能力方面将有重大突破。据现有资料表明,GPT-5可能会在约25000个GPU的规模上进行训练。据TechRadar的报道,ChachiBT已经在10000个性能超越A100 GPU的NVIDIA GPU上进行了训练。对于GPT-5的发布时间,GeordieRybass的预测可以作为参考,他预测GPT-5或类似模型可能在2024年春末或初夏发布。
一项对 DeepMind研究的总结指出,模型的参数规模与训练数据量之间存在一种优化平衡。例如,GPT-3和Palm 等模型的参数数量远超出其实际需求,它们实际上更需要大量高质量的数据。
因此,GPT-4需要1万亿参数的说法似乎并不准确。事实上,GPT-5的参数可能与GPT-4相同,甚至可能更少。根据2022年7月的一篇LessWrong博客文章,当前的语言建模性能主要受到数据量的限制,而不是模型规模。只要获得足够多的数据,就无须运行拥有5000亿参数,甚至1万亿或更大规模参数的模型。

4.2 数据质量

在GPT模型的提升过程中,数据质量至关重要,然而,获取高质量的数据仍然是一个挑战。目前,GPT-3和其他一些模型在大约3000亿个token上进行了训练。考虑到DeepMind的 Chinchila模型在大约1.4万亿个token上进行了训练,GPT-5在数据量方面可能会有显著的提升。高质量数据的已知来源包括科学论文、书籍、网络爬取的内容新闻、代码以及维基百科。目前已知的高质量数据大约在4.6万亿17万亿个词之间。这表明距离耗尽高质量数据仅有一个数量级的距离,这种情况可能出现在2023-2027年,对人工智能的近期发展将产生深远影响。

4.3 数据来源

此外,数据来源的不确定性仍是一个问题。例如,Google和OpenAI并未透露他们的数据来源,可能是为了避免所有权和补偿的争议。同时,随着AI图像生成等领域的法律问题日益突出,确定数据来源将成为重要议题。尽管如此,GPT-5仍然会借鉴过去的经验,尽可能获取更多的高质量数据。自GPT-4交给微软以来,在没有进一步提高数据利用或提取效率的情况下,高质量数据的存量每年增长约10%

4.4 技术突破

除数据问题以外,GPT-5在各方面都有可能取得技术突破。一方面,研究者或许能发现从质量较低的数据源中提取高质量数据的方法。另一方面,引入自动化链式思维引导(ChainofThoughtPrompting)策略,有望显著提升模型的表现。尽管性能和成本因素可能限制模型训练,但多轮利用同一数据训练模型是行之有效的策略。人工生成并筛选数据集也是一个提升模型在复杂数学问题等方面表现的有效方法。
如果GPT-5能有效利用9万亿高质量token数据,其性能预期将实现数量级的提升这可能对就业市场产生深远影响。在阅读理解、逻辑和批判性思考、高中物理以及数学等领域,GPT-5有望超过人类评估者。并且,随着文本到语音、图像到文本、文本到图像以及文本到视频虚拟形象等技术的进步,AI教师的出现可能近在咫尺。然而,GPT-5的发布时间尚不确定,其中一个原因是它的发布可能取决于OpenAl内部的安全研究进展。OpenAI的首席执行官Sam Altman表示,只有在完成对齐工作、进行安全考量并与外部审计机构合作之后,相关模型才会发布。

参考文献

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程 程戈 著 机械工业出版社 2023年12月

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1804829.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【qt】项目移植

项目移植 一.前言二.同名问题三.具体操作1.修改文件名2.修改类名3.修改一些不能自动改的名4.修改.ui文件5.删除原来自动生成的ui_xxx.h文件6.修改头文件 四.导入项目五.使用导入的项目六.项目建议 一.前言 终于概率论考完了,有时间了,接着上个项目,我们继续来完成我们的多窗口开…

新材料正不断推动模具3D打印行业发展

随着工业4.0的浪潮席卷全球,模具制造行业也迎来了技术革新的新纪元。3D打印技术以其独特的制造优势,正逐渐在模具制造领域崭露头角。然而,要实现模具3D打印技术的广泛应用,高性能的打印材料是不可或缺的关键因素。 材料是模具3D打…

【机器学习】我们该如何评价GPT-4o?GPT-4o的技术能力分析以及前言探索

目录 🤦‍♀️GPT-4o是什么? 🚍GPT-4o的技术能力 1. 自然语言理解 2. 自然语言生成 3. 对话系统 4. 语言翻译 5. 文本纠错 6. 知识问答 7. 定制和微调 8. 透明性和可解释性 9. 扩展性 🚐版本对比分析 1. GPT-4标准版 …

AMD GPU ISA 阅读

Reading AMD GPU ISA — ROCm Blogs 对于应用开发者来说,了解用于执行其计算的 GPU 架构的指令集架构(ISA)通常是非常有帮助的。理解感兴趣的代码区域的指令可以帮助调试和实现应用程序的性能优化。 在这篇博客文章中,我们将讨论…

智能变电站网络报文记录及故障录波分析装置

是基于Intel X86、PowerPC、FPGA等技术的高度集成化的硬件平台,采用了高性能CPU无风扇散热、网络数据采集、高速数据压缩存储加密等多种技术,实现了高性能计算、多端口同步高速数据采集、数据实时分析、大容量数据存储等功能。 ● 在满足工业标准的同时&…

深度学习笔记: 最详尽广告点击预测系统设计

欢迎收藏Star我的Machine Learning Blog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star, 有问题可以随时与我交流, 谢谢大家! 广告点击预测 1. 问题描述 建立一个机器学习模型来预测广告是否会被点击。 为了简化,我们不…

保姆级 | MySQL的安装配置教程(非常详细)

一、下载Mysql 官网步骤 MySQLhttps://www.mysql.com/进入官网首页 点击DOWNLOADS 点击MySQL Community (GPL) Downloads 点击 小页面直接进入 MySQL :: Download MySQL Installerhttps://dev.mysql.com/downloads/installer/点击“Download”下载最新版本,其他…

Java进阶_抽象类与方法

抽象类概念 在面向对象的概念中,所有的对象都是通过类来描绘的,但是反过来,并不是所有的类都是用来描绘对象的,如果一个类中没有包含足够的信息来描绘一个具体的对象,这样的类就是抽象类。 抽象类除了不能实例化对象之…

程序员学习Processing和TouchDesigner视觉编程相关工具

Proessing Processing 是一种用于视觉艺术和创意编程的开发环境和编程语言。它最初是为了帮助非专业程序员学习编程,特别是那些对于创意编程和视觉表达感兴趣的人。Processing 提供了简单易用的 API,使得绘制图形、创建动画和交互式应用变得相对容易。 …

ssm615基于ssm的房源管理系统+vue【已测试】

前言:👩‍💻 计算机行业的同仁们,大家好!作为专注于Java领域多年的开发者,我非常理解实践案例的重要性。以下是一些我认为有助于提升你们技能的资源: 👩‍💻 SpringBoot…

DALL·E2最详细解读篇章

CLIP被证明其可以学习到鲁棒的图像特征,可以有效的捕获图像的语义和风格,且具有很强的zero-shot能力。另外,Diffusion是目前最优的生成式框架,其推动了图像、视频生成任务的最先进性能。Classifier-Free Diffusion指导技术以样本多…

H.264官方文档下载

H.264是ITU(International Telecommunication Union,国际通信联盟)和MPEG(Motion Picture Experts Group,运动图像专家组)联合制定的视频编码标准。其官方文档可以在ITU官网上下载:https://www.…

Python一些小操作

矢量图 from matplotlib_inline import backend_inline backend_inline.set_matplotlib_formats(svg)matplotlib中文问题 import matplotlib.pyplot as plt plt.rcParams["font.sans-serif"]["SimHei"] #设置字体 plt.rcParams["axes.unicode_minus…

wps:样式集的使用【笔记】

wps:样式集的使用【笔记】 前言版权推荐wps:样式集的使用1拿到一个内容模板2修改样式集3修改样式的详细说明4保存样式集5应用样式集 说明另外最后 前言 2024-6-5 23:36:20 以下内容源自《【笔记】》 仅供学习交流使用 版权 禁止其他平台发布时删除以…

未来AI大模型的发展趋势

大家好,我是小悟 未来AI大模型的发展趋势无疑将是多元化、高效化、普及化以及人性化。随着技术的飞速进步,AI大模型将在各个领域中展现出更加广泛和深入的应用,成为推动社会进步的重要力量。 多元化是AI大模型发展的重要方向。随着数据量的…

自然语言处理:第三十三章FILCO:过滤内容的RAG

文章链接: [2311.08377] Learning to Filter Context for Retrieval-Augmented Generation (arxiv.org) 项目地址: zorazrw/filco: [Preprint] Learning to Filter Context for Retrieval-Augmented Generaton (github.com) 在人工智能领域,尤其是在开放域问答和事…

10. MySQL 用户

文章目录 【 1. 权限表 】1.1 user 权限表1.1.1 用户列1.1.2 权限列1.1.3 安全列1.1.4 资源控制列 1.2 db 表用户列权限列 1.3 tables_priv 表1.4 columns_priv 表1.5 procs_priv表 【 2. 用户管理 】2.1 创建用户 CREATE USER2.2 用户的登陆、退出登陆 MySQL退出 MySQL 2.3 重…

React+TS前台项目实战(四)-- layout整体布局搭建

文章目录 前言一、Layout组件代码注释说明二、Content全局组件注释说明三、Header基础布局组件1. Header父级组件注释说明2. NavMenu导航子组件详细说明 四、效果展示总结 前言 本文主要讲Layout整体布局的构建以及全局内容盒子Content组件的使用。还包括了导航栏组件的基本封…

unity3d:GameFramework+xLua+Protobuf+lua-protobuf,生成.cs,.pb工具流

概述 1.区分lua,cs用的proto 2.proto生成cs,使用protogen.exe,通过csharp.xslt修改生成cs样式 3.proto生成lua加载.pb二进制文件,并生成.pb列表文件,用于初始化加载 4.协议id生成cs,lua中枚举 区分cs&…

Java Web学习笔记20——Ajax-Axios

Axios: 介绍:Axios对原生的Ajax进行封装,简化书写,快速开发。 官网:https://www.axios-http.cn Axios 入门: {}是Js的对象。 get的请求参数是在URL后面?和相关参数值。 post的请求参数是在请…