深入浅出,大模型的规模与训练成本揭秘

news2024/9/21 4:31:37

导读

大模型是近几年非常火的一个AI名词,很多公司也在训练自己的大模型,但是训练一个大模型需要多少钱呢?本文从多个角度为大家拆解。

图片

Title: Visualizing the size of Large Language Models
Paper: https://medium.com/@georgeanil/visualizing-size-of-large-language-models-ec576caa5557

导读

决定语言模型大小的三个重要因素是:

  • 模型大小(Model Size)
  • 训练规模(Training Size)
  • 计算规模(Compute Size)

图片

模型大小可视化

模型大小取决于模型中可学习参数的数量

  • 这些参数包括与模型神经网络中各个神经元相关联的权重(和偏置)。
  • 在训练之前,这些参数被设置为随机值。随着训练过程的进行,它们会被更新以优化模型在特定任务上的性能。
  • 用“旋钮”和“开关”的类比来说,这可以比作调整设备中的各种旋钮来正确调整它。

一旦训练完成,最终的参数值可以被想象成填充到一个“巨型Excel表格“中的单元格。

图片模型参数 = 巨型Excel表格中的值.

以足球场为单位来表示模型大小

  • 如果我们假设每个Excel单元格的大小为(1厘米 x 1厘米)
  • 一个足球场大小的Excel表格(100米 x 60米)将包含大约6000万个参数。这大致相当于2017年发布的原始Transformer模型的参数数量

图片1个足球场 = 6000万参数

  • GPT-1,2018年发布,包含大约1.17亿参数。相当于2个足球场大小的Excel表格(2FFs)。
  • 最近由谷歌发布的PALM 1和2(参数量为3.4亿到5.4亿)模型,可以想象为一个巨型Excel表格,大小相当于6000到7000个足球场!

按模型大小和发布年份排序

2017年 - 原始Transformer - 6500万参数(或1个足球场)

2018年 - GPT 1 - 1.17亿参数(或2个足球场)

2019年 - GPT 2 - 1.5亿参数(或20个足球场)

2020年 - GPT 3 - 1750亿参数(或2500个足球场)

2021年 - Gopher - 280亿参数(或4000个足球场)

2022年 - PALM - 540亿参数(或7700个足球场)

图片模型参数与发布年份(对数刻度)

训练规模可视化

训练规模取决于训练数据集中的Tokens数量。

  • Token可以是一个单词、子词或字符——这取决于训练文本是如何被分割成 Token 的(Tokenization)。
  • 训练数据集被分成Batches,每个Batch内的tokens一起处理,然后更新模型的参数。
  • 整个训练数据集通过模型的一次完整遍历称为一个Epoch
  • 最近的大多数语言模型,Epoch = 1。因此,这样的模型在训练数据集中只会“看到”一次Token 。

以图书馆书架为单位进行可视化

  • 如果我们假设一本典型的书,包含大约10万个Token,一个典型的图书馆书架可以容纳大约100本书。那么每个图书馆书架将包含大约1000万Token。
  • 原始的Transformer模型用于英德翻译,使用了WMT数据集,包含450万句对(大约1亿Token或10个图书馆书架)。
  • GPT-1是在Book Corpus数据集上的7000本书上进行训练的(大约6亿Token或60个图书馆书架)。
  • 最近由谷歌发布的PALM模型是在780亿Token上进行训练的,相当于78,000个图书馆书架!

按训练规模和发布年份排序

2017年 - 原始Transformer - 1亿Token(或10个图书馆书架)

2018年 - GPT 1 - 6亿Token(或60个书架)

2019年 - GPT 2 - 280亿Token(或2800个书架)

2020年 - GPT 3 - 3万亿Token(或3万个书架)

2021年 - Gopher - 3万亿Token(或3万个书架)

2022年 - PALM - 780万亿Token(或7.8万个书架)

图片训练规模与发布年份(对数刻度)

计算规模可视化

计算规模取决于在模型训练的不同阶段所需的浮点运算(FLOPs)或计算的数量。

在FP32精度下,不同设备典型的FLOPs容量 (1GFLOP = 10亿FLOPs = 1E+9 FLOPs)

💻 现代中型笔记本电脑 ~ 100 GFLOPs

📱 苹果iPhone 14 Pro ~ 2000 GFLOPs

🎮 索尼PlayStation 5 ~ 10000 GFLOPs

🖥️ Nvidia H100 NVL GPU ~ 134,000 GFLOPs

训练过程中的阶段包括:

  1. 前向传播(Forward Pass)—— 模型接收一系列训练Token作为输入,并进行预测(例如,序列中的下一个词)
  2. 损失计算(Loss Computation)—— 通过损失函数计算预测值与实际值之间的差异。
  3. 反向传播和参数更新(Backpropagation and Parameter Update)—— 损失函数的梯度通过反向传播计算(Back propagation),并用于更新模型参数以最小化损失。
  4. 多轮迭代(Multiple Epochs)—— 前向传播、损失计算、反向传播和参数更新的过程在整个训练数据集中的所有batches上重复进行,跨越多个“运行”或Epochs
  5. 在大多数现代大型语言模型(LLMs)中,Epoch等于1,这意味着模型只处理整个训练数据集一次。

整个训练过程所需的近似计算量由以下经验法则给出:

Ct ~ 6.N.D

Ct = 训练所需的计算量

N = 模型参数的数量

D = 训练Token的数量

使用6ND公式进行训练计算

  1. 原始的Transformer模型(用于英语到德语任务)在1个Epoch中会消耗3.9 E+16 FLOPs,假设有10个Epoch,总共会消耗3.9 E+17 FLOPs。(相当于在中等配置的笔记本电脑上训练45天,即100GFLOPs)
  2. GPT-1在1个Epoch中会消耗4.2 E+17 FLOPs,假设有100个Epoch,总共会消耗4.2 E+19 FLOPs。(相当于在中等配置的笔记本电脑上训练13年)
  3. GPT-2在1个Epoch中会消耗2.5 E+20 FLOPs,假设有20个Epoch,总共会消耗5 E+21 FLOPs。(相当于在中等配置的笔记本电脑上训练1600年)
  4. 更近期的PALM模型假设Epoch = 1,会消耗2.53 E+24 FLOPs。(相当于在中等配置的笔记本电脑上训练800,000年!)

推理计算:在推理(Inference)时所需的近似计算量由以下经验法则给出:

Ci ~ 2.N.l

Ci = 推理计算量

N = 模型参数的数量

l = 输入/输出长度

图片典型笔记本电脑 = 100 GFLOPs = 1.0 E+11 FLOPs

那最火的 GPT-4 呢?

模型大小

  • GPT-4采用了一个专家混合 (Mixture of Experts, MoE) 模型,包含16个专家(每个专家有1110亿参数),总共约有 1.8万亿参数
  • 为了将GPT-4的参数放入一个巨大的Excel表格中,它需要有30,000个足球场那么大,或者180平方公里(比孟买市还要大!)

训练规模

  • GPT-4在大约13万亿个tokens(跨越多个时期)上进行了训练。
  • 这相当于阅读了130万个图书馆书架上的所有书籍,或者650公里长的图书馆书架

计算规模

  • 估计GPT-4的训练FLOPs约为2.15 E+25 FLOPs。
  • 在中等配置的笔记本电脑(100GFLOPs)上训练GPT-4需要7百万年!

估计训练成本约为 6400万美元

  • A100 GPU 的峰值 FLOPs = 312 TFLOPS(对于 TF32,稀疏性已启用)
  • Azure 对 A100 GPU(ND96asrA100 v4)的按需费用 = 3.40 美元/小时
  • 估计最低训练成本(对于 2.15 E+25 FLOPs)= 6400万美元
  • 这接近 Sam Altman 对 GPT-4 训练成本的估计 = 1亿美元

估计推理成本约为 0.3 美分,用于 1000 个token

  • 假设:提示和响应 = 1024 token长度
  • 估计推理 FLOPs = 3 * GPT3 推理 FLOPs = 3 * 350 TFLOPs = 1000 TFLOPs(对于 1024 输入和输出token)
  • Azure 对 A100 GPU(ND96asrA100 v4)的按需费用 = 3.40 美元/小时
  • 估计推理成本(对于 1024 输入和输出token)= 0.003 美元,或者每 330 对输入/输出token,将花费 1 美元

图片GPT-4 模型估计

AI视觉编推一体机已上市,支持自上传算法模型,并通过逻辑组件的方式,根据业务场景需求,快速优化算法功能。

适用于现场项目需求快速POC,算法功能调优验证。目前已支持多款边缘设备,GPU服务器版本。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1967480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学会这个Python库,接口测试so easy

前言 我们在做接口测试时,大多数返回的都是json属性,我们需要通过接口返回的json提取出来对应的值,然后进行做断言或者提取想要的值供下一个接口进行使用。 但是如果返回的json数据嵌套了很多层,通过查找需要的词,就…

【IEEE出版 | 高录用率 | 快速检索 | 有ISBN号!】2024年智能计算与数据挖掘国际学术会议 (ICDM 2024,9月20-22)

智能计算与数据挖掘是当今信息技术领域的研究热点,并在众多领域都有着广泛的应用,如金融、医疗、教育、交通等。随着大数据时代数据量爆炸式增长,如何从海量数据中提取有价值的信息,一直是需要迭代解决的问题。 2024年智能计算与…

Ampere推出512核AmpereOne Aurora处理器-定制AI引擎,支持HBM内存

随着各超大规模云服务商和主要云基础设施构建商纷纷设计自己的CPU和AI加速器,这让那些向他们销售计算引擎的厂商感受到了巨大压力。这其中不仅包括英特尔、AMD和英伟达,还包括Arm服务器芯片领域的新秀Ampere Computing,Ampere Computing与Int…

ICC2:如何报告sdc中的set_load

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 来自星球提问: 如果要报告set_load设置的值,其实只要write_sdc就行,要是想在报告中看set_load产生的violation和影响,可以使用ICC2命令去报告。 report_delay_calculation

idea thymeleaf 热更新

1. **添加依赖**&#xff08;jeecgboot框架这步省略,不然报错&#xff09;&#xff1a; 确保在 pom.xml 中添加了 spring-boot-devtools 依赖&#xff1a; xml <dependency> <groupId>org.springframework.boot</groupId> <artifactI…

聊聊《思考,快与慢》

这是鼎叔的第一百零四篇原创文章。行业大牛和刚毕业的小白&#xff0c;都可以进来聊聊。 欢迎关注本专栏和微信公众号《敏捷测试转型》&#xff0c;星标收藏&#xff0c;大量原创思考文章陆续推出。 丹尼尔卡尼曼&#xff0c;是常年热门书籍《思考&#xff0c;快与慢》的作者…

MQTTX和Kimi集成

目录 概述 文本生成模型 Moonshot-v1 MQTTX Copilot的功能 一键错误分析 代码生成器 自动生成测试数据 解释器 点评 概述 MQTTX是我教学中使用的MQTT客户端&#xff0c;从两年来开课的情况看&#xff0c;还是相当好用的。昨天发现MQTTX现在已经支持和OpenAI API和Moons…

Docker安装OwnCloud私有云盘对接ceph

一、安装OwnCloud 我的安装包链接&#xff1a;https://pan.baidu.com/s/1cJO8WEonsw4gGQWgQaYzpw?pwd6bak 提取码&#xff1a;6bak 启动OwnCloud容器&#xff0c;没有镜像会自动下载 docker run -d -p 80:80 -v /home/owncloud:/var/www/html --name owncloud --restartalway…

SenseVoice实现语音转文字

之前使用了阿里的CosyVoice实现了文字生成语音和声音的复刻&#xff0c;这章使用阿里的的另一个工具&#xff0c;SenseVoice实现语音转文字&#xff0c;首先需要下载好软件&#xff0c;这里使用docker部署&#xff0c;下载好整合包后&#xff1a; 按照顺序执行 docker load -…

手把手教你用Windows安装Python,轻松开启编程之旅

大家好&#xff01;随着人工智能、大数据等领域的飞速发展&#xff0c;Python已成为最受欢迎的编程语言之一。今天&#xff0c;我就来教大家如何在Windows系统上轻松安装Python&#xff0c;让你迈出编程的第一步&#xff01; 一、准备工作 1. 确认你的Windows系统版本&#xf…

vue3配置permission.js和router、pinia实现路由拦截

场景 网站中&#xff0c;通常用户登录后后端返回token给前端&#xff0c;前端存储在本地并且在每次发送请求时携带&#xff0c;如果用户未登录&#xff08;没有token&#xff09;就想访问网站内部的网页&#xff0c;我们就需要做对应拦截。 配置Pinia 首先命令行下载pinia …

Web页面基础

Web页面基础 文章目录 Web页面基础一、HTML&#xff08;hyper text markup language&#xff09;的介绍二、HTML的标签一、基础标签二、其他标签1、基本类&#xff1a;2、文本类标签&#xff1a;3、列表标签&#xff1a;4、表格标签&#xff1a;5、媒体标签&#xff1a;6、嵌入…

小程序购物商城系统2024

小程序购物商城系统2024,编号weixin001 下载在最后 技术栈: js,java,mysql 展示: 下载地址: CSDN现在上传有问题,有兴趣的朋友先收藏.正常了贴上下载地址 备注:

非全尺寸婴儿床和游戏围栏美国CPC认证16CFR1121测试 ASTM F406报告

非全尺寸婴儿床和游戏围栏美国CPC认证16CFR1121测试 ASTM F406报告办理 什么是婴儿游戏围栏&#xff1f; 婴儿游戏围栏是一种框架式围栏&#xff0c;由网状织物或布料材质的非刚性护栏和底板组成。本政策适用于专为儿童提供睡眠和游戏环境而设计的游戏围栏&#xff08;高度低…

Stack Rolling Shutter是什么技术?

我们常见的有卷帘快门&#xff08;Rolling Shutter&#xff09;与全局快门&#xff08;Global Shutter&#xff09;&#xff0c;那思特威对外宣传的Stack Rolling Shutter是个什么技术&#xff1f; 官网查询不到相关信息。 英文百度查询结果是一些宣传性质的软文&#xff0c;bi…

Springboot 开发之 Scheduled 定时任务详解及实战

引言 Spring Boot中的Scheduled注解用于配置定时任务&#xff0c;使得方法可以按照规定的时间间隔或特定的时间点定时执行。下面将详细解释Scheduled注解的使用方法及其实战应用。 一、Scheduled注解的基本用法 Scheduled注解可以应用于方法上&#xff0c;并通过不同的参数来…

无心剑七绝《潘展乐神》

七绝潘展乐神 潘江陆海忘情游 展志凌云筑玉楼 乐创全球新纪录 神姿英发舞金钩 2024年8月1日 平水韵十一尤平韵 潘展乐神&#xff0c;这四个字&#xff0c;如同四座矗立的丰碑&#xff0c;分别代表了潘展乐在游泳领域的卓越成就、豪情壮志、快乐创新和非凡风采。无心剑的这首…

日本央行首次加息,同时缩减国债购买规模

KlipC报道&#xff1a;7月31日&#xff0c;日本央行在结束了为期两天的货币政策会议上决定加息&#xff0c;这也是日本央行从今年3月19日结束负利率政策后的首次加息。同时&#xff0c;将逐步缩减国债购买规模&#xff0c;还列出了具体的时间表。 对于加息&#xff0c;日本央行…

第十八天内容

上午 1、复习 &#xff08;1&#xff09;tomcat服务器需要jdk环境 版本对应 tomcat9》jdk1.8 tomcat10》jdk17 配置系统变量JAVA_HOME spring-boot3 > jdk17以上的版本 &#xff08;2&#xff09;nginx平滑升级&#xff0c;不停服升级nginx服务1.26.1> 1.27.0 1、…