LLM:《第 3 部分》从数学角度评估封闭式LLM的泛化能力

一、说明

在 OpenAI 或 Anthropic 等封闭式大型语言模型 (LLM) 领域，对智能和多功能性的真正考验在于它们处理高特异性查询并在响应中表现出独特性的能力。在这篇博客中，我的目标是提供测试这些模型泛化能力的机制。

封闭式LLM意味着您不知道训练语料库的语言特征、语料库容量的多样性是什么，也不知道LLM的内部运作方式（例如模型权重或注意力分数）。

延续之前的帖子：

在第 1 部分中，我介绍了有效的泛化如何需要具有广泛语言特征的多样化训练语料库。
在第 2 部分中，我介绍了从动态注意机制和连续空间操作到梯度下降优化和深度神经网络结构的数学模型，强调了它们相对于传统记忆模型的优越性。

我还建议您熟悉我在本博客中编写的模型幻觉和测试技术：以数学方式评估 LLM 中的幻觉（例如 GPT4）

二、高特异性查询的概念

高特异性查询是指非常详细的问题或提示，通常涉及利基或晦涩的主题。从数学角度来看，这些查询在几个方面对LLM提出了挑战：

2.1 稀有Token处理

此类查询通常涉及罕见单词或独特的单词组合。该模型处理这些标记的能力依赖于其嵌入空间，其中单词在高维空间中表示为向量。

为了严格测试封闭式 LLM 的泛化能力，您可以使用通过自己学习的嵌入创建的稀有单词来创建查询。

2.1.1 学习嵌入表示

对于查询中的每个标记t ，其在高维空间中的向量表示直接从预先训练的嵌入矩阵E获得：

这里，E是嵌入矩阵，idx( t )是返回标记t在嵌入矩阵中的索引的函数。该方法利用E 中嵌入的预先训练的上下文信息，直接从E检索t的嵌入向量。

如上式所示，使用预训练嵌入的向量空间表示与大型语言模型 (LLM) 中稀有词查询的创建和处理的相关性在以下几个方面具有重要意义：

更丰富的语义表示：预训练的嵌入为每个单词（包括稀有单词）提供了更丰富、更细致的表示。与单独处理每个单词的单热编码不同，嵌入根据单词在大型数据集中的使用情况来捕获单词之间的语义关系。这使得法学硕士能够更好地理解和响应涉及稀有单词的查询，因为这些嵌入编码了有关每个单词的更多信息。
生僻字的上下文感知：在高级LLM中，尤其是那些使用 Transformer 架构的LLM，令牌的嵌入会根据其上下文进一步细化。这意味着罕见词的表示可以根据查询中的周围词动态调整。这种语境调整对于理解稀有词至关重要，这些词在不同的语境中可能有不同的含义或含义。
处理数据稀疏性：根据定义，生僻词很少出现在训练数据集中，从而导致数据稀疏性问题。预先训练的嵌入通过提供对这些单词的实质性基础理解来帮助缓解这种情况。由于这些嵌入是在大型且多样化的数据集上进行训练的，因此它们很可能遇到了许多罕见的单词，从而使模型在对特定任务进行微调之前就对这些单词有了基本的了解。
改进稀有词的泛化：使用预先训练的嵌入有助于泛化。当法学硕士在查询中遇到罕见单词时，它不仅仅依赖于该单词在训练数据中的具体出现情况。相反，它利用嵌入的广义表示，使其能够做出更明智的预测或响应，即使特定的罕见单词在其训练中没有广泛覆盖。
应用示例：考虑涉及罕见医学术语或利基领域技术术语的查询。预先训练的嵌入有助于模型掌握这个罕见术语的基本语义。然后，该模型可以使用其上下文理解机制将这种含义整合到整体响应中，从而得到更准确和连贯的答复。

2.1.2 通过平滑技术处理生僻词：

为了解决稀有词的稀疏性，可以应用拉普拉斯平滑等平滑技术：

在哪里，

P_ smooth( t ) 表示标记t的平滑概率。
N ( t ) 是数据中标记t出现的次数。
α是平滑参数，通常是一个很小的正数。
N是数据中标记的总数。
∣ V ∣ 是词汇表的大小（数据中唯一标记的数量）。

这种形式的平滑通常用于自然语言处理中，通过将罕见或看不见的单词的概率调整为非零来处理它们。

2.2 独特性因素

评估LLM对极不可能出现在其训练数据集中的查询的响应，可以测试其创造力和泛化能力。这涉及：

2.2.1 创新的响应生成

从数学上讲，这意味着模型敢于超越训练期间学到的常见模式，并探索所学概念的新组合。

给定响应r的新颖性得分 N( r )定义为：

在哪里，

N( r ) 表示响应r的新颖性得分。
对响应中由i索引的所有单词进行求和。
P ( wi ∣ w 1,…, wi −1) 是在给定响应中前面的单词的情况下单词wi的条件概率。
该条件概率的对数乘以概率本身并对所有单词求和，量化了响应的整体新颖性。负号确保分数越高表示新颖性越高。

2.2.2 数学解释

概率基础：

这个方程植根于信息论，特别是自我信息或意外的概念。
术语 log P ( wi ∣ w 1,…, wi −1) 衡量在给定先前上下文的情况下与单词wi 的出现相关的惊喜量或信息内容。

上下文相关性：

条件概率P ( wi ∣ w 1,…, wi −1) 反映了每个单词wi 的可能性如何受到其先前上下文的影响。
较低的概率表明前面单词的上下文中的可预测性较低且新颖性较高。

信息内容汇总：

响应中所有单词的总和汇总了惊喜或信息内容，提供了响应整体新颖性的综合衡量标准。

2.2.3 对LLM的影响

评估生成文本的新颖性：

该分数有效地量化了响应与基于训练数据的可预测模式的偏差程度。
较高的 N( r ) 表明LLM能够生成的响应不仅是其训练数据的释义或重复，还包括意想不到的或不太常见的单词序列。

创造性和多样化的语言使用：

新颖性得分高的回答可能会表现出对语言的创造性使用，可能会包含罕见的单词、独特的短语或创新的想法。
它表明模型以新的和原始的方式综合和组合学习信息的能力。

2.2.4 实际考虑

平衡新颖性与连贯性：

虽然高新颖性分数对于创造力来说是可取的，但它必须与给定上下文或查询的连贯性和相关性相平衡。
如果没有适当的限制，极高的新颖性分数有时可能会导致无意义或不相关的响应。

不同领域的应用：

该指标在故事生成、诗歌创作或构思等创造性应用中特别有用，在这些应用中，原创性是关键要求。

基准测试和模型比较：

新颖性得分可以作为比较不同模型或同一模型的不同版本创意能力的基准。

2.3 统计稀有度

从统计的角度来看，独特的查询推动模型在其概率分布的尾部生成响应，而不是更熟悉的中心区域。

给定响应的稀有度分数 R 定义为：

在这里，

R 代表响应的稀有度分数。
该产品会遍历响应中由i索引的所有单词。
P ( wi ) 是根据模型训练数据出现单词wi的概率。
1− P ( wi ) 反映了每个单词的稀有度。响应中所有单词的这些值的累积乘积给出了总体稀有性得分 R，值越低表示响应的稀有性或唯一性越高。

2.3.1 数学基础

基于概率的稀有度测量：

该公式植根于概率论，特别是序列中独立事件的概念。
P ( wi ) 表示根据模型的训练数据，单词wi 出现的概率。因此，项 1− P ( wi ) 表示单词wi在模型的语言框架中的稀有性或不寻常性。

稀有产品：

这些术语在响应中所有单词上的乘法汇总了各个稀有度，从而提供了响应整体稀有度的累积度量。

较低分数的解释：

R 值较低表示响应由单独罕见或不寻常的单词组成，表示生成的文本具有高度的唯一性。

2.3.2 对LLM的影响

检测响应的唯一性：

低稀有度分数表明LLM能够生成与其训练数据中常见或经常出现的模式不同的响应。
它表明该模型有能力探索不太常见的语言路径，可能综合新颖的想法或概念。

稀有性和相关性之间的平衡：

虽然稀有性是创造力的一个理想属性，但它必须与上下文相关性和连贯性相平衡。极其罕见的单词组合可能很新颖，但也可能导致无意义或偏离主题的反应。

在创意和多样化环境中的应用：

在创意写作或头脑风暴等独特性至关重要的领域，较低的稀有度分数可能是模型有效性的重要指标。

2.3.3 高级注意事项

统计解释：

从统计学的角度来看，这个分数可以被视为概率的乘积，类似于统计学中用于评估组合事件可能性的度量。

上下文依赖性的调整：

在实践中，可能需要进行调整以考虑单词的上下文依赖性，因为单词的稀有性可能会根据其使用的上下文而发生显着变化。

标准化和缩放：

考虑到公式的乘法性质，可以应用归一化或缩放技术来确保分数在可管理的范围内，特别是对于较长的响应。

三、测量泛化

为了定量评估LLM处理特异性和独特性的能力，我们可以采用几种数学和统计方法：

3.1 多样性指标

像困惑度这样的指标可以衡量模型处理特定和独特查询中固有的不确定性和可变性的程度。

单词序列W的困惑度定义为：

在哪里，

Perplexity( W ) 表示单词序列W的困惑度。
指数函数内的表达式计算序列中每个单词wi的平均负对数概率（给定其前面的单词）。
N是序列中的单词总数。
较低的困惑度值表明该模型能够更好地预测单词序列，反映了处理语言的更高水平的流畅性和多样性。

3.1.1 理论基础

植根于信息论：

困惑度源自信息论，特别是熵的概念，它衡量概率分布中的不确定性或意外程度。
术语 log P ( wi ∣ w 1,…, wi −1) 计算每个单词wi在给定上下文的情况下的惊喜或意外程度。概率越低，惊喜就越大。

平均对数概率：

该方程计算单词序列的平均负对数概率。该平均值表明模型在给定上下文中预测每个后续单词的效果如何。

3.1.2 对LLM的影响

量化响应多样性：

较低的困惑度分数表明LLM可以有效地预测序列中的单词，这表明模型的训练和测试数据之间具有良好的拟合度。
较低的困惑度通常与更好的语言流畅性和连贯性相关，这意味着该模型可以处理各种查询，同时保持上下文的适当性。

建模语言不确定性：

困惑度有效地捕捉了模型语言生成过程中的不确定性或随机性。在响应多样性的背景下，它衡量模型在广阔的语言可能性领域中的驾驭能力。

评估语言模型性能：

困惑度是比较不同语言模型或同一模型的不同版本的关键指标。它提供了一种标准化的方法来评估模型理解和生成语言的程度。

3.1.3 先进的分析视角

统计解释：

从统计学上来说，困惑度可以被视为概率模型预测样本有效性的衡量标准。它类似于测试集逆概率的几何平均值，按单词数进行归一化。

处理长序列：

对于较长的序列，低概率预测对困惑度的影响更加明显，使其成为衡量模型在扩展文本上保持一致性的能力的敏感指标。

局限性和情境化：

虽然困惑度是一个有用的指标，但它应该与其他指标（如连贯性、相关性和新颖性）结合起来。它不直接衡量响应的语义适当性或创造性。

3.2 嵌入空间分析

通过检查模型响应的向量表示，我们可以评估响应与常见模式的偏离程度，表明更高水平的创造力和泛化能力。

偏差分数定义为：

在这里，

DeviationScore 表示响应中的词向量与平均词向量的平均偏差。
N是响应中的总字数。
v ( wi ) 是单词wi的向量表示。
v_ avg是平均词向量，通常在大型语料库上计算。
范数 ∥ v ( wi )− v_ avg∥ 衡量词向量v ( wi ) 和平均向量v_ avg 之间的欧氏距离（或其他适当的范数），量化每个词相对于平均值的偏差。响应中所有单词的这些距离的平均值给出了偏差分数。

3.2.1 数学解释

向量空间分析：

该方程在向量空间中运算，其中单词（或标记）表示为向量。这里，v ( wi )表示单词wi的向量表示。
vavg v avg是平均向量，通常在大型文本语料库上计算，表示语义空间中的“常见”或“平均”单词。

基于规范的距离测量：

术语 ∥ v ( wi )− v avg∥ 测量每个单词向量与平均向量之间的欧几里德距离（或其他适当的范数），量化每个单词与语言范数的“远”程度。

距离聚合：

N （响应中的单词数）的求和和归一化提供了整个响应偏差的聚合度量。

3.2.2 对语言建模的影响

评估独特性和创造力：

较高的偏差分数表明，平均而言，响应中的单词与常见的语言用法相距较远，表明语言使用的独特性或创造性。
对于需要使用新颖或创造性语言的任务（例如诗歌生成或创造性写作），这种测量方法特别有洞察力。

了解模型行为：

该指标揭示了LLM如何驾驭语义空间。它表明模型是否倾向于生成常见或预期的单词选择的响应，或者是否冒险进入更独特的语言领域。

平衡新颖性与连贯性：

虽然高偏差分数可能表明新颖性，但平衡这一点与响应的连贯性和上下文适当性至关重要。极高的分数可能表明反应无意义或与上下文无关。

3.2.3 高级注意事项

语义空间动力学：

由训练数据和模型架构塑造的语义空间的性质对于词向量的分布方式起着至关重要的作用。这会影响偏差分数的解释。

规范化和标准化：

根据模型和数据集，在计算偏差分数之前可能需要对向量进行归一化或标准化，以确保不同模型或数据集之间的比例一致。

上下文和动态词向量：

在 BERT 或 GPT 等模型中，词向量是根据上下文确定的。这意味着单词的向量可能会根据其周围的单词而变化，从而为偏差分析增加了一层复杂性。

四、适应性评估策略

在探索了评估闭箱LLM的方法后，我们认识到，尽管对其培训数据和内部运作的可见性有限，但有效的评估是可以实现的。

通过关注输出分析，我们可以解释这些模型生成的响应，深入了解它们的新颖性、创造力和泛化能力。

尽管模型设计和训练数据缺乏透明度带来了挑战，但我们建立的方法可以通过有针对性和多样化的测试策略来全面了解模型的优势和局限性。

多样化、全面的查询设计：

如图所示，为了克服这些挑战，评估者必须设计一系列涵盖不同主题和语言结构的测试查询。这种方法有助于探索模型处理不同类型输入并生成不同响应的能力。
在测试中包含边缘案例、罕见场景或创意提示可以深入了解模型的新颖性生成和泛化能力。

根据已知标准进行基准测试：

利用既定基准并与已知模型进行比较可以提供闭箱LLM绩效的相对衡量标准。这种比较分析可以深入了解模型的一般功能和局限性。

利用外部工具和框架

自动分析工具：

使用外部工具进行语言和语义分析可以帮助量化LLM回答的连贯性、创造力和相关性等方面，即使无需直接访问模型的内部结构。
情感分析、主题建模和其他 NLP 工具可以提供定量测量来补充定性评估。

持续监控和迭代测试：

随着时间的推移进行持续评估，并对测试方法进行迭代调整，有助于更全面地了解模型的功能，并根据观察到的性能调整评估策略。

五、结论

与任何其他 NLP 或机器学习技术相比，LLM士能够有效响应高特异性查询并在响应中表现出独特性，这证明了它们的泛化能力。通过采用数学和统计方法，我们可以深入了解这些模型的理解和创造力的深度和广度。随着LLM的不断发展，探索他们在这些条件下的行为不仅可以衡量他们的表现，还可以指导我们为未来设计更好、更稳健的模型。