LLMs 缩放法则和计算最优模型Scaling laws and compute-optimal models

news2025/4/9 21:31:33

在上一个视频中,您探讨了训练大型语言模型的计算挑战。在这里,您将了解关于模型大小、训练、配置和性能之间关系的研究,以确定模型需要多大。请记住,预训练期间的目标是最大化模型的学习目标性能,即在预测令牌时最小化损失。您有两种选择来实现更好的性能:增加您训练模型的数据集大小和增加模型中的参数数量。理论上,您可以扩展这两个数量中的任何一个来提高性能。

但是,还需要考虑的另一个问题是您的计算预算,其中包括您可以访问的GPU数量和用于训练模型的可用时间等因素。
在这里插入图片描述

为了帮助您理解接下来的讨论,让我们首先定义一个计算单位,用于量化所需的资源。每秒petaFLOP每天是测量浮点操作的数量,以每秒一个petaFLOP的速度执行,持续一整天。请注意,一个petaFLOP对应于每秒一千万亿次浮点运算。当特别考虑训练变压器时,每秒每天一个petaFLOP大约相当于八个NVIDIA V100 GPU,全天全效率运行。
在这里插入图片描述

如果您有一个更强大的处理器,可以一次执行更多的操作,那么每秒每天一个petaFLOP需要的芯片更少。例如,两个NVIDIA A100 GPU提供与八个V100芯片相当的计算能力。
在这里插入图片描述

为了给您一个这些计算预算规模的概念,这个图表显示了预训练Bert和Roberta的不同变体所需的每秒每天的petaFLOP的比较,这两者都是仅编码器模型。T5和编码器-解码器模型,以及GPT-3,这是一个仅解码器模型。

每个家族中的模型之间的区别是被训练的参数数量,从Bert基础的几亿到最大的GPT-3变体的1750亿。请注意,y轴是对数的。每个垂直增量是10的幂。在这里,我们看到T5 XL有30亿参数,需要接近100每秒每天的petaFLOP。而更大的GPT-3 1750亿参数模型需要大约3700每秒每天的petaFLOP。
在这里插入图片描述

这个图表清楚地表明,训练最大的模型需要大量的计算机。您可以看到,更大的模型需要更多的计算资源来训练,并且通常还需要更多的数据来实现良好的性能。

事实证明,这三种扩展选择之间实际上存在明确定义的关系。研究人员已经探讨了训练数据集大小、模型大小和计算预算之间的权衡。这是OpenAI的研究人员在一篇论文中探讨计算预算对模型性能影响的图表。y轴是测试损失,您可以将其视为模型性能的代理,其中较小的值更好。
在这里插入图片描述

x轴是以每秒每天的petaFLOP为单位的计算预算。如您所见,更大的数字可以通过使用更多的计算能力或训练更长时间或两者兼而有之来实现。
在这里插入图片描述

这里的每条薄蓝线都显示了单次训练运行的模型损失。查看每次运行的损失开始更慢地下降的位置,揭示了计算预算与模型性能之间的明确关系。这可以通过幂律关系来近似,由这条粉红线表示。幂律是两个变量之间的数学关系,其中一个与另一个的某个幂成正比。当在两个轴都是对数的图上绘制时,幂律关系显示为直线。
在这里插入图片描述

只要模型大小和训练数据集大小不妨碍训练过程,这里的关系就会保持。

从字面上看,这似乎表明您可以增加计算预算以实现更好的模型性能。
在这里插入图片描述

然而,实际上,您用于训练的计算资源通常是由

  1. 您可以访问的硬件、
  2. 训练的可用时间
  3. 项目的财务预算等因素设定的硬约束。

如果您将计算预算固定,那么您可以改进模型性能的两个杠杆是训练数据集的大小和模型中的参数数量。

OpenAI的研究人员发现,当其他两个变量保持固定时,这两个数量也与测试损失显示幂律关系。
在这里插入图片描述

这是另一张从论文中探讨训练数据集大小对模型性能影响的图表。在这里,计算预算和模型大小保持不变,训练数据集的大小是变化的。图表显示,随着训练数据量的增加,模型的性能继续提高。
在这里插入图片描述

在第二张图中,计算预算和训练数据集大小保持恒定。训练了不同数量参数的模型。随着模型大小的增加,测试损失减少,表示性能更好。
在这里插入图片描述

此时,您可能会问,这三个数量之间的理想平衡是什么?事实证明,很多人对这个问题感兴趣。

研究和行业社区都发布了大量预训练计算最佳模型的实证数据。在2022年发表的一篇论文中,由Jordan Hoffmann、Sebastian Borgeaud和Arthur Mensch领导的研究小组对各种大小和训练数据量的语言模型的性能进行了详细研究。目标是找到给定计算预算的参数数量和训练数据量的最佳值。作者的名字,得出的计算最佳模型是Chinchilla。
在这里插入图片描述

这篇论文通常被称为Chinchilla论文。

让我们看看他们的一些发现。Chinchilla论文暗示,许多1000亿参数的大型语言模型,如GPT-3,实际上可能是过度参数化的,这意味着它们的参数比实现良好的语言理解所需的更多,
在这里插入图片描述

并且训练不足,因此它们将受益于查看更多的训练数据。
在这里插入图片描述

作者假设,如果在更大的数据集上训练,较小的模型可能能够实现与更大的模型相同的性能。

在这个表格中,您可以看到一些模型以及它们的大小和它们被训练的数据集的信息。
在这里插入图片描述

Chinchilla论文的一个重要结论是,对于给定模型的理想训练数据集大小大约是模型中参数数量的20倍。
在这里插入图片描述

对于一个700亿参数的模型,理想的训练数据集包含1.4万亿令牌,或参数数量的20倍。
在这里插入图片描述

表中的最后三个模型是在小于Chinchilla最佳大小的数据集上训练的。这些模型实际上可能是训练不足的。
在这里插入图片描述

相比之下,LLaMA是在1.4万亿令牌的数据集大小上训练的,这接近于Chinchilla推荐的数字。
在这里插入图片描述

论文的另一个重要结果是,计算最佳的Chinchilla模型在大范围的下游评估任务上胜过非计算最佳的模型,如GPT-3。

有了Chinchilla论文的结果,团队最近开始开发较小的模型,这些模型实现了与以非最佳方式训练的较大模型相似,如果不是更好的结果。
在这里插入图片描述

展望未来,随着更多的团队或开发者像您这样开始优化模型设计,您可能会期望看到与过去几年的“更大总是更好”的趋势有所偏离。

这张幻灯片上显示的最后一个模型,Bloomberg GPT,是一个非常有趣的模型。它是以计算最佳的方式训练的,遵循Chinchilla的损失,因此以500亿参数的大小实现了良好的性能。
在这里插入图片描述

这也是一个情况的有趣例子,从头开始预训练模型是实现良好任务性能所必需的。让我们继续观看本周的最后一个视频,讨论为什么。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/SmRNp/scaling-laws-and-compute-optimal-models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/918069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode-中等题】53. 最大子数组和

题目 题解一&#xff1a;暴力解法&#xff1a; //暴力解法 每个元素为都循环一次&#xff0c;持续更新最大值int maxS Integer.MIN_VALUE;for(int i 0;i<nums.length;i){int num 0;for(int j i;j<nums.length;j){num numnums[j];maxS Math.max(maxS,num);}}retur…

数据库——事务,事务隔离级别

文章目录 什么是事务?事务的特性(ACID)并发事务带来的问题事务隔离级别实际情况演示脏读(读未提交)避免脏读(读已提交)不可重复读可重复读防止幻读(可串行化) 什么是事务? 事务是逻辑上的一组操作&#xff0c;要么都执行&#xff0c;要么都不执行。 事务最经典也经常被拿出…

DNQ算法原理(Deep Q Network)

1.强化学习概念 学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为 必须在尝试了之后才能发现哪些行为会导致奖励的最大化 当前的行为可能不仅仅会影响即时奖励&#xff0c;还会影响下一步的奖励以及后续的所有奖励 每一个动作(action)都能影响代理将来的…

Java中Date日期类的使用方法

一、构造器实例化对象 //使用无参构造器 Date date1 new Date(); System.out.println(date1);//使用有参构造器&#xff0c;参数为long类型的时间戳&#xff0c;将时间戳自动转为时间对象 Date date2 new Date(60000); System.out.println(date2); 运行结果&#xff1a; 说…

直击软博会|润和软件国产操作系统HopeStage助力行业数字化实践

2023年8月22日下午&#xff0c;2023中国&#xff08;南京&#xff09;软博会信息技术应用创新大会在南京国际博览会议中心顺利召开&#xff0c;润和软件作为信创操作系统领域的核心力量受邀参会并发表演讲。 会上&#xff0c;润和软件云计算事业部总经理蔡志旻发表了《HopeStag…

电压放大器有什么特点和作用

电压放大器是一种常见的电子设备&#xff0c;具有许多特点和作用。下面安泰电子来详细介绍电压放大器的特点和作用。 电压放大器具有以下几个特点&#xff1a; 增益高&#xff1a;电压放大器能够将输入信号的电压放大到较高的水平。这意味着它可以增加信号的强度&#xff0c;使…

身份证号、姓名脱敏(*隐藏关键信息)

// 过滤器 filters: {// 加密身份证明号码encryptSfzmhmHandler(val) {// 加密年月日return val ? val.replace(val.slice(6, -4), ********) : }// 加密姓名encryptXmHandler(val) {let value if (val && val.length 2) {// 两个字的*最后一个字value val.replace…

数据管道的重要性:为什么您需要关注!

一、引言 在当今的信息时代&#xff0c;数据已经成为了企业的生命线。无论是商业决策&#xff0c;还是产品研发&#xff0c;都离不开对数据的依赖。然而&#xff0c;如何有效地管理和使用这些数据&#xff0c;却是许多企业面临的难题。这时&#xff0c;数据管道的重要性就显现出…

四川玖璨电子商务有限公司:短视频运营的关键

​短视频运营作为当前互联网行业的热点之一&#xff0c;具有广阔的发展前景。然而&#xff0c;要在激烈的竞争中脱颖而出&#xff0c;就需要掌握一些关键点。下面将从内容创作、用户增长、社交互动和商业变现等几个方面来探讨短视频运营的关键。 一、内容创作。 内容是短视频…

【leetcode 力扣刷题】交换链表中的节点

24. 两两交换链表中的节点 24. 两两交换链表中的节点两两节点分组&#xff0c;反转两个节点连接递归求解 24. 两两交换链表中的节点 题目链接&#xff1a;24. 两两交换链表中的节点 题目内容&#xff1a; 题目中强调不能修改节点内部值&#xff0c;是因为如果不加这个限制的话…

跨境电商shopee平台怎么样?Shopee选品工具是什么?

跨境电商shopee平台市场可以说是相当活跃和竞争激烈的电商市场。作为东南亚地区最大的电商平台之一&#xff0c;跨境电商shopee平台覆盖了多个国家和地区&#xff0c;包括新加坡、马来西亚、泰国、印度尼西亚、越南、菲律宾和台湾。 跨境电商shopee平台市场的活跃程度体现在以下…

广州华锐互动:3D航天科学网上展馆让你沉浸式体验航天文化

3D航天科学网上展馆是一种利用先进的3D技术和虚拟现实技术展示航天科技的场所。与传统的展馆相比&#xff0c;3D航天科学网上展馆具有许多独特的特色。以下是3D航天科学网上展馆的一些主要特色&#xff1a; 1.沉浸式体验&#xff1a;3D航天科学网上展馆通过虚拟现实技术为观众提…

Windows10查看图片的分辨率

文章目录 查看方法 查看方法 鼠标悬停在想查看分辨率大小的图片上&#xff0c;稍等那么零点几秒&#xff0c;就会弹出图片的分辨率信息&#xff0c;如图所示&#xff1a;

单片机系统的电磁兼容设计

目录 1.什么是单片机 2.单片机的应用领域 3.单片机系统常见的电磁干扰 4.电磁干扰对单片机造成的影响 5.如何消除单片机系统的电磁干扰 1.什么是单片机 单片机是一种集成电路芯片&#xff0c;也被称为微控制器。它集成了中央处理器&#xff08;CPU&#xff09;、存储器、输…

湘潭大学 湘大 XTU OJ 1441 平衡三进制2 题解(非常详细)

前置知识 很多时候我们觉得一件事情难&#xff0c;其实并不是这一整件事情难&#xff0c;而是中间有一部分&#xff08;极端情况是几乎所有&#xff09;东西我们不知道&#xff0c;没有相关的经验&#xff0c;所以我们不断地学习 这道题目的前置知识是十进制转三进制怎么转换…

朋友圈发圈文案防折叠不折叠转换流量主小程序开发

朋友圈发圈文案防折叠不折叠转换流量主小程序开发 不折叠&#xff1a;转发此条动态&#xff0c;帮我解锁朋友圈新技能&#xff0c;让你的朋友圈更加精彩&#xff01;折叠转不折叠&#xff1a;转发此动态&#xff0c;即可开启朋友圈折叠转不折叠的功能&#xff0c;让你的朋友圈…

第七章 类、结构体、指针与引用

目录 1.基础知识2.练习题2.1 斐波那契数列2.2 替换空格2.3 求12…n2.3.1 方法一&#xff1a;2.3.2 方法二&#xff1a; 2.4 在O(1)时间删除链表结点2.5 合并两个排序的链表2.6 左旋转字符串2.7 把字符串转换成整数2.8 反转链表2.9 两个链表的第一个公共结点2.10 删除链表中重复…

错误代码0xc0000225要怎么解决?一招教你快速搞定

在运行 Windows 10 操作系统时&#xff0c;您可能会遇到一个错误代码为 0xc0000225 的问题&#xff0c;导致无法正常启动系统。这个错误通常与系统引导文件或硬盘驱动器有关。在本文中&#xff0c;我们将详细介绍多种解决方法来解决 0xc0000225 错误&#xff0c;以帮助您重新恢…

如何选择图像标注工具?

图像标注属于数据标注的一种类型。也许数据标注是人工智能领域不为人知的工作&#xff0c;但也是取得人工智能项目的成功不可或缺的一个环节。数据标注平凡而不平庸&#xff0c;标注的数据质量将直接影响模型的质量。选择恰当高效的标注工具也决定着数据的产出质量。 图像标注作…

AI 绘画Stable Diffusion 研究(十四)SD 图生图+剪映制作人物说话视频

大家好&#xff0c;我是风雨无阻。 前一篇&#xff0c;我们详细介绍了使用 SadTlaker制作数字人视频案例&#xff0c;感兴趣的朋友请前往查看:AI 绘画Stable Diffusion 研究&#xff08;十三&#xff09;SD数字人制作工具SadTlaker使用教程。 对于没有安装 SadTlaker 插件的朋友…