“我的语言的极限意味着我的世界的极限。”——维特根斯坦
大型语言模型 (LLM)已实现可靠的性能。这一切都归功于 Transformer 及其以自监督方式从大量文本中学习的能力。显然,这种简单的方法允许模型学习越来越复杂的文本表示,而无需人工解释。这使得收集大量文本语料库并使用越来越大的数据集训练模型成为可能。
随后,人们注意到,通过增加参数数量和训练集中的标记数量,模型的能力得到了改善。这导致研究人员专注于寻找模型能力与参数数量之间的关系。这些经验定律通常称为缩放定律:
一组经验公式,用于预测模型性能如何扩展,主要是随着计算浮点运算 (FLOP)、模型参数和训练数据量的变化而变化。这些研究表明,幂律拟合可以有效预测语言建模损失,进而预测下游性能。 —来源
图片来源:这里
这些缩放定律具有实际意义,因为它们不仅与性能有关,而且与所谓的突现属性有关(尽管这仍然是一个有争议的话题)。
无论如何,这些缩放定律似乎与性能有某种关系。问题是,今天我们在架构上存在差异,而且也有关于我们真正需要计算哪些参数的讨论。例如,与词汇表相关的参数通常不被考虑。词汇表的大小对模型的影响是无差别的,应该是需要考虑的重要参数。例如,更大的词汇表允许更大的标记化生育力(将文本减少为更少的标记的能力)。此外,更大的词汇量增加了模型的表示能力,使其能够捕捉文本中更多的概念和细微差别。但另一方面,更大的词汇量会导致较罕见的标记更缺乏代表性。因此,必须取得平衡,选择合适的词汇量。可惜的是,我们没有词汇量大小的缩放定律。
对于 LLM 来说,计算最优词汇量的大小是多少?
刚刚发表的一篇论文讨论了这个问题:尝试为词汇量定义一个缩放规律。
使用词汇表扩展规律:更大的模型需要更大的词汇表
扩展大型语言模型 (LLM) 的研究主要集中在模型参数和训练数据大小……
arxiv.org
如何定义缩放定律?
从经验上看。通常,您要做的是通过改变变量来训练不同的模型,然后选择损失较低的模型。例如,如果我们想通过词汇量定义缩放定律,我们会训练具有不断增加的参数数量的不同模型。同时,对于具有多个参数的模型,我们会训练几个变体,其中我们改变词汇量(称为 IsoFLOP)。完成后,我们可以拟合幂律并建立关联(这种方法并不便宜)。
对于一个模型,我们有参数的数量N(Nv 是词汇表参数,加上 Nnv 是与词汇无关的参数,如 Transformer 块)。训练数据可以用标记数量(D)或字符数量(H)来衡量。由于标记数量取决于词汇表大小,因此最好使用训练字符。D/H 的比率是标记器的压缩比(因此,我们用来表示 H 的标记越多,D 就越大)。然后我们必须校正损失,因为词汇表越大,预测的机会就越大,因此错误的可能性也就越大(因此,在计算损失时我们必须考虑词汇表的大小,这是一种标准化)。
作者提出的第一个问题是最佳词汇量是否受计算限制(换句话说,他们询问它是否取决于一个人的计算预算)。
作者注意到一些有趣的结果:
- 增加词汇量很容易提高标记化能力,换句话说,模型可以学习更多字符,从而表现更好。但是,当词汇量过大时,性能就会下降。换句话说,模型无法用有限的数据进行充分训练,因此词汇量过大是有害的。
- 有了更多的计算资源(更多的参数),你也可以扩大词汇量。损失先减少然后增加,因此词汇量的最佳值存在一个软点。这表明模型复杂度和计算约束之间存在权衡(如果模型太小,它就无法有效处理太大的词汇量)。
图片来源:这里
对于给定的 FLOPs 预算,非词汇参数、词汇参数和训练数据的最佳分配是什么?
作者测试了从 33M 到 1.13B 的模型,只改变了词汇量(从 4K 到 96K)。之后,他们根据获得的曲线进行拟合,得出参数大小、字符数和词汇量的比例定律。结果显示:
- 确认 LLM 需要大量数据,因此为训练数据分配计算预算非常重要(标记越多越好)。词汇量随幂律变化。
- 模型参数(而非词汇参数)的数量越多,词汇量就应该越大。然而,这些参数的扩展速度应该比其他参数慢(一旦拥有了具有大量词汇量的丰富嵌入空间,使用 transformer 块增加模型的大小就变得更加关键)。
- 你也可以进行逆向计算,给定一个损失值,你就可以计算出最佳词汇量
图片来源:这里
通过了解模型的参数(也依赖于Chinchilla 缩放定律),可以计算出词汇参数的最佳数量。对于当前模型中的作者来说,这个值被低估了
图片来源:这里
作者提供了一个表格,说明应该为词汇表分配多少个参数:
值得注意的是,主流法学硕士 (LLM) 分配给词汇的参数通常比最佳值要少。—来源
图片来源:这里
当数据稀缺时,最好使用参数尽可能少的模型。然而,对于作者来说,这会导致次优模型,必须选择具有适合训练预算的正确参数的模型,同时也要选择具有正确词汇的模型:
图片来源:这里
因此,词汇表应根据标记数量和参数数量进行调整。标记数量越多,建议词汇表越大。此外,词汇表越大会增加推理成本,因此应该研究模型的最佳情况
图片来源:这里
我们研究了词汇量在扩展语言模型时的影响。我们分析并验证了给定 FLOP 预算下存在最佳词汇量。在所有方法中,我们发现虽然词汇量参数的扩展速度应该比其他参数慢,但它们对性能仍然至关重要,我们可以准确预测它们的最佳分配。——来源
这项工作很有趣,因为它表明词汇量会影响模型性能,并且可以推导出缩放规律。
作者利用缩放定律表明,当前模型的词汇量通常与模型的大小不相称。然而,最新模型的词汇量似乎更大,更接近其最佳词汇量。然而,作者重申了训练标记数量的重要性。
图片来源:这里
如果您有兴趣,可以在这里获取代码。
有趣的是,词汇量与模型的自我表达能力之间存在关联。从某种意义上说,尽管这个因素被忽视了,但更大的词汇量也让人类能够表达更多种类的概念和细微差别。