扩展语言,扩展思维:LLM 词汇量缩放

news2025/1/11 7:39:05

“我的语言的极限意味着我的世界的极限。”——维特根斯坦

大型语言模型 (LLM)已实现可靠的性能。这一切都归功于 Transformer 及其以自监督方式从大量文本中学习的能力。显然,这种简单的方法允许模型学习越来越复杂的文本表示,而无需人工解释。这使得收集大量文本语料库并使用越来越大的数据集训练模型成为可能。

随后,人们注意到,通过增加参数数量和训练集中的标记数量,模型的能力得到了改善。这导致研究人员专注于寻找模型能力与参数数量之间的关系。这些经验定律通常称为缩放定律:

一组经验公式,用于预测模型性能如何扩展,主要是随着计算浮点运算 (FLOP)、模型参数和训练数据量的变化而变化。这些研究表明,幂律拟合可以有效预测语言建模损失,进而预测下游性能。 —来源

LLM缩放定律

图片来源:这里

这些缩放定律具有实际意义,因为它们不仅与性能有关,而且与所谓的突现属性有关(尽管这仍然是一个有争议的话题)。

无论如何,这些缩放定律似乎与性能有某种关系。问题是,今天我们在架构上存在差异,而且也有关于我们真正需要计算哪些参数的讨论。例如,与词汇表相关的参数通常不被考虑。词汇表的大小对模型的影响是无差别的,应该是需要考虑的重要参数。例如,更大的词汇表允许更大的标记化生育力(将文本减少为更少的标记的能力)。此外,更大的词汇量增加了模型的表示能力,使其能够捕捉文本中更多的概念和细微差别。但另一方面,更大的词汇量会导致较罕见的标记更缺乏代表性。因此,必须取得平衡,选择合适的词汇量。可惜的是,我们没有词汇量大小的缩放定律。

对于 LLM 来说,计算最优词汇量的大小是多少?

刚刚发表的一篇论文讨论了这个问题:尝试为词汇量定义一个缩放规律。

使用词汇表扩展规律:更大的模型需要更大的词汇表

扩展大型语言模型 (LLM) 的研究主要集中在模型参数和训练数据大小……

arxiv.org

如何定义缩放定律?

从经验上看。通常,您要做的是通过改变变量来训练不同的模型,然后选择损失较低的模型。例如,如果我们想通过词汇量定义缩放定律,我们会训练具有不断增加的参数数量的不同模型。同时,对于具有多个参数的模型,我们会训练几个变体,其中我们改变词汇量(称为 IsoFLOP)。完成后,我们可以拟合幂律并建立关联(这种方法并不便宜)。

对于一个模型,我们有参数的数量N(Nv 是词汇表参数,加上 Nnv 是与词汇无关的参数,如 Transformer 块)。训练数据可以用标记数量(D)或字符数量(H)来衡量。由于标记数量取决于词汇表大小,因此最好使用训练字符。D/H 的比率是标记器的压缩比(因此,我们用来表示 H 的标记越多,D 就越大)。然后我们必须校正损失,因为词汇表越大,预测的机会就越大,因此错误的可能性也就越大(因此,在计算损失时我们必须考虑词汇表的大小,这是一种标准化)。

作者提出的第一个问题是最佳词汇量是否受计算限制(换句话说,他们询问它是否取决于一个人的计算预算)。

作者注意到一些有趣的结果:

  • 增加词汇量很容易提高标记化能力,换句话说,模型可以学习更多字符,从而表现更好。但是,当词汇量过大时,性能就会下降。换句话说,模型无法用有限的数据进行充分训练,因此词汇量过大是有害的。
  • 有了更多的计算资源(更多的参数),你也可以扩大词汇量。损失先减少然后增加,因此词汇量的最佳值存在一个软点。这表明模型复杂度和计算约束之间存在权衡(如果模型太小,它就无法有效处理太大的词汇量)。

LLM缩放定律

图片来源:这里

对于给定的 FLOPs 预算,非词汇参数、词汇参数和训练数据的最佳分配是什么?

作者测试了从 33M 到 1.13B 的模型,只改变了词汇量(从 4K 到 96K)。之后,他们根据获得的曲线进行拟合,得出参数大小、字符数和词汇量的比例定律。结果显示:

  • 确认 LLM 需要大量数据,因此为训练数据分配计算预算非常重要(标记越多越好)。词汇量随幂律变化。
  • 模型参数(而非词汇参数)的数量越多,词汇量就应该越大。然而,这些参数的扩展速度应该比其他参数慢(一旦拥有了具有大量词汇量的丰富嵌入空间,使用 transformer 块增加模型的大小就变得更加关键)。
  • 你也可以进行逆向计算,给定一个损失值,你就可以计算出最佳词汇量

LLM缩放定律

图片来源:这里

通过了解模型的参数(也依赖于Chinchilla 缩放定律),可以计算出词汇参数的最佳数量。对于当前模型中的作者来说,这个值被低估了

LLM缩放定律

图片来源:这里

作者提供了一个表格,说明应该为词汇表分配多少个参数:

值得注意的是,主流法学硕士 (LLM) 分配给词汇的参数通常比最佳值要少。—来源

LLM缩放定律

图片来源:这里

当数据稀缺时,最好使用参数尽可能少的模型。然而,对于作者来说,这会导致次优模型,必须选择具有适合训练预算的正确参数的模型,同时也要选择具有正确词汇的模型:

LLM缩放定律

图片来源:这里

因此,词汇表应根据标记数量和参数数量进行调整。标记数量越多,建议词汇表越大。此外,词汇表越大会增加推理成本,因此应该研究模型的最佳情况

图片来源:这里

我们研究了词汇量在扩展语言模型时的影响。我们分析并验证了给定 FLOP 预算下存在最佳词汇量。在所有方法中,我们发现虽然词汇量参数的扩展速度应该比其他参数慢,但它们对性能仍然至关重要,我们可以准确预测它们的最佳分配。——来源

这项工作很有趣,因为它表明词汇量会影响模型性能,并且可以推导出缩放规律。

作者利用缩放定律表明,当前模型的词汇量通常与模型的大小不相称。然而,最新模型的词汇量似乎更大,更接近其最佳词汇量。然而,作者重申了训练标记数量的重要性。

LLM缩放定律

图片来源:这里

如果您有兴趣,可以在这里获取代码。

有趣的是,词汇量与模型的自我表达能力之间存在关联。从某种意义上说,尽管这个因素被忽视了,但更大的词汇量也让人类能够表达更多种类的概念和细微差别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2065115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

考研资讯平台

TOC springboot0767考研资讯平台 绪论 1.1课题研究背景与意义 随着现代网络技术的快速发展,互联网的应用对学生的生活和工作有着很大的影响,特别是在当今计算机的应用下的人更加需要这样的环境,所以我们根据这个要求来开发了本课题。该课…

集团数字化转型方案(十)

集团数字化转型方案将通过全面部署云计算、大数据分析、人工智能和物联网技术,构建一个全方位的数据驱动平台,实现从战略规划到运营管理的数字化升级,以优化业务流程、提高决策效率、增强客户体验和提升运营灵活性。该方案包括智能化的供应链…

Docker!!!

⼀、Docker 1、Docker介绍.pdf 1、Docker 是什么? Docker 是⼀个开源的应⽤容器引擎,可以实现虚拟化,完全采⽤“沙盒”机制,容器之间不会存在任何接⼝。Docker 通过 Linux Container(容器)技术将任意类型…

5步掌握Python Django+Vue二手房项目,实现房价预测与知识图谱系统

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

破晓科技与神话:三防平板与《黑神话:悟空》的创新交响

当全球游戏圈因《黑神话:悟空》的震撼预告而沸腾,一款代表中国游戏顶尖制作水平的作品,正以它独特的文化魅力与技术创新,向世界宣告着中国游戏产业的崛起。 点击添加图片描述(最多60个字)编辑 震撼视觉体验…

解题—求两数的最大公约数与最小公倍数 #辗转相除法

文章目录 前言 一、最大公约数 方法一:硬解 方法二:辗转相除法 1、图形理解: 2、公式理解: 二、最小公倍数 方法一:硬解 方法二:巧解 总结 前言 路漫漫其修远兮,吾将上下而求索。 一、…

spring security 入门基础,表单认证web页面跳转

一、导入所需依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.6.2</version></parent><!-- web 支持 --><dependency><groupId>…

机械学习—零基础学习日志(如何理解概率论5)

这里我们学习随机变量的独立性 我们这里也来一个习题。 《概率论与数理统计期末不挂科|考研零基础入门4小时完整版&#xff08;王志超&#xff09;》学习笔记 王志超老师 &#xff08;UP主&#xff09;

旧物上门回收系统架构分析

随着环保意识的增强和资源循环利用的重视&#xff0c;旧物上门回收系统逐渐成为现代城市生活的一部分。这些系统通过先进的技术架构&#xff0c;实现了废品的高效回收与再利用&#xff0c;为环境保护和可持续发展做出了积极贡献。本文将从系统架构的角度&#xff0c;对旧物上门…

Linux--网络层 IP协议

目录 0.往期文章 1.IP基本概念 2. IP协议报头格式 3.网段划分 两种网段划分的方式 为什么要进行网段划分 4.特殊的IP 地址 5.IP 地址的数量限制 6.私有 IP 地址和公网 IP 地址*** NAT技术 认识公网 运营商扮演的角色 7.路由 8.16位标识&#xff0c;3为标志和13位…

leetcode:2733. 既不是最小值也不是最大值(python3解法)

难度&#xff1a;简单 给你一个整数数组 nums &#xff0c;数组由 不同正整数 组成&#xff0c;请你找出并返回数组中 任一 既不是 最小值 也不是 最大值 的数字&#xff0c;如果不存在这样的数字&#xff0c;返回 -1 。 返回所选整数。 示例 1&#xff1a; 输入&#xff1a;nu…

vue3【组件封装】日历 (默认标注今日,可选择日期,可标注日期,可切换月份,样式仿 Win11)

效果预览 技术要点 获取每个月最后一天 下个月的第0天,自动会被解析为本月的最后一天 let lastDay = computed(() => new Date(year.value, month.value, 0).getDate());flex 布局末行左对齐 最靠谱的方式是想办法将末行缺失元素填满 本范例中,因星期固定7列,按每月最…

Centos7.6-DNS服务安装与配置

1、安装bind 软件包 首先&#xff0c;需要安装 bind 软件包&#xff0c;这可以通过运行以下命令来完成&#xff1a; [rootlocalhost ~]# yum install bind 已加载插件&#xff1a;fastestmirror, langpacks Loading mirror speeds from cached hostfile* base: mirrors.aliyun…

string转nlohmann::json问题

如果用字符串赋值构造函数&#xff0c;出现如下问题&#xff1a; std::string message; ​​nlohmann::json info(message); 如果按照如下代码则是正常的&#xff1a; std::string message; ​​nlohmann::json info nlohmann::json::parse(message);

Vue项目创建和使用

快速上手 | Vue.js (vuejs.org) nodejs.org/ vue项目实质上是index.html页面和多个js文件的集合&#xff0c;最终解析后的html和js代码可以由浏览器解析运行&#xff1a; vue项目的创建&#xff0c;需要脚手架工具来搭建&#xff1b; 在编译的源码阶段&#xff0c;文件格式为.…

FPGA开发——verilog的运算符以及相关优先级的介绍

一、简介 在我们学习任何一门编程语言时&#xff0c;不可避免的都会遇见运算符和相关的运算优先级的问题&#xff0c;只有掌握了各个运算符的优先级关系我们才能进行更好的代码编写。在前面的时候因为我没有遇到因为优先级而导致的工程结果错误&#xff0c;所以没有过多注意&am…

振兴杯全国青年职业技能大赛职业技能标准——物联网安装调试员

一、大赛概述 1.1 振兴杯全国青年职业技能大赛简介 振兴杯全国青年职业技能大赛是一项国家级的职业技能竞赛&#xff0c;自2005年首届大赛成功举办以来&#xff0c;已逐渐成为国内规模最大、影响力最广的青年职业技能竞赛之一。这项竞赛旨在推动青年技能人才的培养和发展&…

软件测试面试题与经验分享【附文档】

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 测试技术面试题 1、什么是兼容性测试&#xff1f;兼容性测试侧重哪些方面&#xff1f; 参考答案&#xff1a; 兼容测试主要是检查软件在不同的硬件平台、软…

黄金市场波动加剧美联储降息预期与数据修正共舞

美联储鸽派信号提振金价 周四亚市盘中&#xff0c;现货黄金价格突然加速回落&#xff0c;逼近2500美元/盎司关键支撑位&#xff0c;日内重挫逾10美元。尽管如此&#xff0c;美联储周三发布的鸽派会议纪要显示&#xff0c;政策制定者普遍倾向于9月降息&#xff0c;为金价提供了…

linux系统,ubuntu安装英伟达NVIDIA4090显卡驱动

文章目录 前言下载英伟达NVIDIA官方驱动安装NVIDIA驱动远程安装关闭交互界面设置权限&#xff08;自己确认版本号5&#xff09;安装&#xff08;自己确认版本号5&#xff09;打开交互界面&#xff0c;并重启系统验证是否安装成功 异常处理问题1问题2问题3&#xff08;可能没解决…