LLM:《第 3 部分》从数学角度评估封闭式LLM的泛化能力

news2024/12/26 0:33:38

一、说明

        在 OpenAI 或 Anthropic 等封闭式大型语言模型 (LLM) 领域,对智能和多功能性的真正考验在于它们处理高特异性查询并在响应中表现出独特性的能力。在这篇博客中,我的目标是提供测试这些模型泛化能力的机制。

        封闭式LLM意味着您不知道训练语料库的语言特征、语料库容量的多样性是什么,也不知道LLM的内部运作方式(例如模型权重或注意力分数)。

        

延续之前的帖子:

  • 在第 1 部分中,我介绍了有效的泛化如何需要具有广泛语言特征的多样化训练语料库。
  • 在第 2 部分中,我介绍了从动态注意机制和连续空间操作到梯度下降优化和深度神经网络结构的数学模型,强调了它们相对于传统记忆模型的优越性。

        我还建议您熟悉我在本博客中编写的模型幻觉和测试技术:以数学方式评估 LLM 中的幻觉(例如 GPT4)

二、高特异性查询的概念

        高特异性查询是指非常详细的问题或提示,通常涉及利基或晦涩的主题。从数学角度来看,这些查询在几个方面对LLM提出了挑战:

2.1 稀有Token处理

        此类查询通常涉及罕见单词或独特的单词组合。该模型处理这些标记的能力依赖于其嵌入空间,其中单词在高维空间中表示为向量。

        为了严格测试封闭式 LLM 的泛化能力,您可以使用通过自己学习的嵌入创建的稀有单词来创建查询。

2.1.1 学习嵌入表示

对于查询中的每个标记t ,其在高维空间中的向量表示直接从预先训练的嵌入矩阵E获得:

        这里,E是嵌入矩阵,idx( t )是返回标记t在嵌入矩阵中的索引的函数。该方法利用E 中嵌入的预先训练的上下文信息,直接从E检索t的嵌入向量。

        如上式所示,使用预训练嵌入的向量空间表示与大型语言模型 (LLM) 中稀有词查询的创建和处理的相关性在以下几个方面具有重要意义:

  • 更丰富的语义表示:预训练的嵌入为每个单词(包括稀有单词)提供了更丰富、更细致的表示。与单独处理每个单词的单热编码不同,嵌入根据单词在大型数据集中的使用情况来捕获单词之间的语义关系。这使得法学硕士能够更好地理解和响应涉及稀有单词的查询,因为这些嵌入编码了有关每个单词的更多信息。
  • 生僻字的上下文感知:在高级LLM中,尤其是那些使用 Transformer 架构的LLM,令牌的嵌入会根据其上下文进一步细化。这意味着罕见词的表示可以根据查询中的周围词动态调整。这种语境调整对于理解稀有词至关重要,这些词在不同的语境中可能有不同的含义或含义。
  • 处理数据稀疏性:根据定义,生僻词很少出现在训练数据集中,从而导致数据稀疏性问题。预先训练的嵌入通过提供对这些单词的实质性基础理解来帮助缓解这种情况。由于这些嵌入是在大型且多样化的数据集上进行训练的,因此它们很可能遇到了许多罕见的单词,从而使模型在对特定任务进行微调之前就对这些单词有了基本的了解。
  • 改进稀有词的泛化:使用预先训练的嵌入有助于泛化。当法学硕士在查询中遇到罕见单词时,它不仅仅依赖于该单词在训练数据中的具体出现情况。相反,它利用嵌入的广义表示,使其能够做出更明智的预测或响应,即使特定的罕见单词在其训练中没有广泛覆盖。
  • 应用示例:考虑涉及罕见医学术语或利基领域技术术语的查询。预先训练的嵌入有助于模型掌握这个罕见术语的基本语义。然后,该模型可以使用其上下文理解机制将这种含义整合到整体响应中,从而得到更准确和连贯的答复。

2.1.2 通过平滑技术处理生僻词:

        为了解决稀有词的稀疏性,可以应用拉普拉斯平滑等平滑技术:

在哪里,

  • P_ smooth​( t ) 表示标记t的平滑概率。
  • N ( t ) 是数据中标记t出现的次数。
  • α是平滑参数,通常是一个很小的正数。
  • N是数据中标记的总数。
  • ∣ V ∣ 是词汇表的大小(数据中唯一标记的数量)。

        这种形式的平滑通常用于自然语言处理中,通过将罕见或看不见的单词的概率调整为非零来处理它们。

2.2 独特性因素

        评估LLM对极不可能出现在其训练数据集中的查询的响应,可以测试其创造力和泛化能力。这涉及:

2.2.1 创新的响应生成

        从数学上讲,这意味着模型敢于超越训练期间学到的常见模式,并探索所学概念的新组合。

给定响应r的新颖性得分 N( r )定义为:

在哪里,

  • N( r ) 表示响应r的新颖性得分。
  • 对响应中由i索引的所有单词进行求和。
  • P ( wi ∣ w 1​,…, wi −1​) 是在给定响应中前面的单词的情况下单词wi​的条件概率。
  • 该条件概率的对数乘以概率本身并对所有单词求和,量化了响应的整体新颖性。负号确保分数越高表示新颖性越高。

2.2.2  数学解释

概率基础:

  • 这个方程植根于信息论,特别是自我信息或意外的概念。
  • 术语 log P ( wi ∣ w 1​,…, wi −1​) 衡量在给定先前上下文的情况下与单词wi​ 的出现相关的惊喜量或信息内容。

上下文相关性:

  • 条件概率P ( wi ∣ w 1​,…, wi −1​) 反映了每个单词wi​ 的可能性如何受到其先前上下文的影响。
  • 较低的概率表明前面单词的上下文中的可预测性较低且新颖性较高。

信息内容汇总:

  • 响应中所有单词的总和汇总了惊喜或信息内容,提供了响应整体新颖性的综合衡量标准。

2.2.3 对LLM的影响

        评估生成文本的新颖性:

  • 该分数有效地量化了响应与基于训练数据的可预测模式的偏差程度。
  • 较高的 N( r ) 表明LLM能够生成的响应不仅是其训练数据的释义或重复,还包括意想不到的或不太常见的单词序列。

创造性和多样化的语言使用:

  • 新颖性得分高的回答可能会表现出对语言的创造性使用,可能会包含罕见的单词、独特的短语或创新的想法。
  • 它表明模型以新的和原始的方式综合和组合学习信息的能力。

2.2.4 实际考虑

平衡新颖性与连贯性:

  • 虽然高新颖性分数对于创造力来说是可取的,但它必须与给定上下文或查询的连贯性和相关性相平衡。
  • 如果没有适当的限制,极高的新颖性分数有时可能会导致无意义或不相关的响应。

不同领域的应用:

  • 该指标在故事生成、诗歌创作或构思等创造性应用中特别有用,在这些应用中,原创性是关键要求。

基准测试和模型比较:

  • 新颖性得分可以作为比较不同模型或同一模型的不同版本创意能力的基准。

2.3 统计稀有度

        从统计的角度来看,独特的查询推动模型在其概率分布的尾部生成响应,而不是更熟悉的中心区域。

        给定响应的稀有度分数 R 定义为:

在这里,

  • R 代表响应的稀有度分数。
  • 该产品会遍历响应中由i索引的所有单词。
  • P ( wi ​) 是根据模型训练数据出现单词wi​的概率。
  • 1− P ( wi ​) 反映了每个单词的稀有度。响应中所有单词的这些值的累积乘积给出了总体稀有性得分 R,值越低表示响应的稀有性或唯一性越高。

2.3.1 数学基础

基于概率的稀有度测量:

  • 该公式植根于概率论,特别是序列中独立事件的概念。
  • P ( wi ​) 表示根据模型的训练数据,单词wi​ 出现的概率。因此,项 1− P ( wi ​) 表示单词wi​在模型的语言框架中的稀有性或不寻常性。

稀有产品:

  • 这些术语在响应中所有单词上的乘法汇总了各个稀有度,从而提供了响应整体稀有度的累积度量。

较低分数的解释:

  • R 值较低表示响应由单独罕见或不寻常的单词组成,表示生成的文本具有高度的唯一性。

2.3.2 对LLM的影响

检测响应的唯一性:

  • 低稀有度分数表明LLM能够生成与其训练数据中常见或经常出现的模式不同的响应。
  • 它表明该模型有能力探索不太常见的语言路径,可能综合新颖的想法或概念。

稀有性和相关性之间的平衡:

  • 虽然稀有性是创造力的一个理想属性,但它必须与上下文相关性和连贯性相平衡。极其罕见的单词组合可能很新颖,但也可能导致无意义或偏离主题的反应。

在创意和多样化环境中的应用:

  • 在创意写作或头脑风暴等独特性至关重要的领域,较低的稀有度分数可能是模型有效性的重要指标。

2.3.3 高级注意事项

统计解释:

  • 从统计学的角度来看,这个分数可以被视为概率的乘积,类似于统计学中用于评估组合事件可能性的度量。

上下文依赖性的调整:

  • 在实践中,可能需要进行调整以考虑单词的上下文依赖性,因为单词的稀有性可能会根据其使用的上下文而发生显着变化。

标准化和缩放:

  • 考虑到公式的乘法性质,可以应用归一化或缩放技术来确保分数在可管理的范围内,特别是对于较长的响应。

三、测量泛化

        为了定量评估LLM处理特异性和独特性的能力,我们可以采用几种数学和统计方法:

3.1 多样性指标

        像困惑度这样的指标可以衡量模型处理特定和独特查询中固有的不确定性和可变性的程度。

单词序列W的困惑度定义为:

在哪里,

  • Perplexity( W ) 表示单词序列W的困惑度。
  • 指数函数内的表达式计算序列中每个单词wi​的平均负对数概率(给定其前面的单词)。
  • N是序列中的单词总数。
  • 较低的困惑度值表明该模型能够更好地预测单词序列,反映了处理语言的更高水平的流畅性和多样性。

3.1.1 理论基础

植根于信息论:

  • 困惑度源自信息论,特别是熵的概念,它衡量概率分布中的不确定性或意外程度。
  • 术语 log P ( wi ∣ w 1​,…, wi −1​) 计算每个单词wi​在给定上下文的情况下的惊喜意外程度。概率越低,惊喜就越大。

平均对数概率:

  • 该方程计算单词序列的平均负对数概率。该平均值表明模型在给定上下文中预测每个后续单词的效果如何。

3.1.2 对LLM的影响

量化响应多样性:

  • 较低的困惑度分数表明LLM可以有效地预测序列中的单词,这表明模型的训练和测试数据之间具有良好的拟合度。
  • 较低的困惑度通常与更好的语言流畅性和连贯性相关,这意味着该模型可以处理各种查询,同时保持上下文的适当性。

建模语言不确定性:

  • 困惑度有效地捕捉了模型语言生成过程中的不确定性或随机性。在响应多样性的背景下,它衡量模型在广阔的语言可能性领域中的驾驭能力。

评估语言模型性能:

  • 困惑度是比较不同语言模型或同一模型的不同版本的关键指标。它提供了一种标准化的方法来评估模型理解和生成语言的程度。

3.1.3 先进的分析视角

统计解释:

  • 从统计学上来说,困惑度可以被视为概率模型预测样本有效性的衡量标准。它类似于测试集逆概率的几何平均值,按单词数进行归一化。

处理长序列:

  • 对于较长的序列,低概率预测对困惑度的影响更加明显,使其成为衡量模型在扩展文本上保持一致性的能力的敏感指标。

局限性和情境化:

  • 虽然困惑度是一个有用的指标,但它应该与其他指标(如连贯性、相关性和新颖性)结合起来。它不直接衡量响应的语义适当性或创造性。

3.2 嵌入空间分析

        通过检查模型响应的向量表示,我们可以评估响应与常见模式的偏离程度,表明更高水平的创造力和泛化能力。

偏差分数定义为:

在这里,

  • DeviationScore 表示响应中的词向量与平均词向量的平均偏差。
  • N是响应中的总字数。
  • v ( wi ​) 是单词wi​的向量表示。
  • v_ avg​是平均词向量,通常在大型语料库上计算。
  • 范数 ∥ v ( wi ​)− v_ avg​∥ 衡量词向量v ( wi ​) 和平均向量v_ avg​ 之间的欧氏距离(或其他适当的范数),量化每个词相对于平均值的偏差。响应中所有单词的这些距离的平均值给出了偏差分数。

3.2.1 数学解释

向量空间分析:

  • 该方程在向量空间中运算,其中单词(或标记)表示为向量。这里,v ( wi ​)表示单词wi​的向量表示。
  • vavg v avg​是平均向量,通常在大型文本语料库上计算,表示语义空间中的“常见”或“平均”单词。

基于规范的距离测量:

  • 术语 ∥ v ( wi ​)− v avg​∥ 测量每个单词向量与平均向量之间的欧几里德距离(或其他适当的范数),量化每个单词与语言范数的“远”程度。

距离聚合:

  • N (响应中的单词数)的求和和归一化提供了整个响应偏差的聚合度量。

3.2.2 对语言建模的影响

评估独特性和创造力:

  • 较高的偏差分数表明,平均而言,响应中的单词与常见的语言用法相距较远,表明语言使用的独特性或创造性。
  • 对于需要使用新颖或创造性语言的任务(例如诗歌生成或创造性写作),这种测量方法特别有洞察力。

了解模型行为:

  • 该指标揭示了LLM如何驾驭语义空间。它表明模型是否倾向于生成常见或预期的单词选择的响应,或者是否冒险进入更独特的语言领域。

平衡新颖性与连贯性:

  • 虽然高偏差分数可能表明新颖性,但平衡这一点与响应的连贯性和上下文适当性至关重要。极高的分数可能表明反应无意义或与上下文无关。

3.2.3 高级注意事项

语义空间动力学:

  • 由训练数据和模型架构塑造的语义空间的性质对于词向量的分布方式起着至关重要的作用。这会影响偏差分数的解释。

规范化和标准化:

  • 根据模型和数据集,在计算偏差分数之前可能需要对向量进行归一化或标准化,以确保不同模型或数据集之间的比例一致。

上下文和动态词向量:

  • 在 BERT 或 GPT 等模型中,词向量是根据上下文确定的。这意味着单词的向量可能会根据其周围的单词而变化,从而为偏差分析增加了一层复杂性。

四、适应性评估策略

        在探索了评估闭箱LLM的方法后,我们认识到,尽管对其培训数据和内部运作的可见性有限,但有效的评估是可以实现的。

        通过关注输出分析,我们可以解释这些模型生成的响应,深入了解它们的新颖性、创造力和泛化能力。

        尽管模型设计和训练数据缺乏透明度带来了挑战,但我们建立的方法可以通过有针对性和多样化的测试策略来全面了解模型的优势和局限性。

多样化、全面的查询设计:

  • 如图所示,为了克服这些挑战,评估者必须设计一系列涵盖不同主题和语言结构的测试查询。这种方法有助于探索模型处理不同类型输入并生成不同响应的能力。
  • 在测试中包含边缘案例、罕见场景或创意提示可以深入了解模型的新颖性生成和泛化能力。

根据已知标准进行基准测试:

  • 利用既定基准并与已知模型进行比较可以提供闭箱LLM绩效的相对衡量标准。这种比较分析可以深入了解模型的一般功能和局限性。

利用外部工具和框架

自动分析工具:

  • 使用外部工具进行语言和语义分析可以帮助量化LLM回答的连贯性、创造力和相关性等方面,即使无需直接访问模型的内部结构。
  • 情感分析、主题建模和其他 NLP 工具可以提供定量测量来补充定性评估。

持续监控和迭代测试:

  • 随着时间的推移进行持续评估,并对测试方法进行迭代调整,有助于更全面地了解模型的功能,并根据观察到的性能调整评估策略。

五、结论

        与任何其他 NLP 或机器学习技术相比,LLM士能够有效响应高特异性查询并在响应中表现出独特性,这证明了它们的泛化能力。通过采用数学和统计方法,我们可以深入了解这些模型的理解和创造力的深度和广度。随着LLM的不断发展,探索他们在这些条件下的行为不仅可以衡量他们的表现,还可以指导我们为未来设计更好、更稳健的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1277097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

matlab操作方法(二)——基本作图

matlab提供很多灵活的二维作图功能函数。这些作图函数分为3类:图形处理、曲线和曲面图的创建、注释和图形特性。作图函数虽多,但语法大致相同 在 MATLAB 中,figure 函数用于创建或选择图形窗口。 matlab figure函数的用法_matlab中figure-C…

【数据结构】环形队列

环形队列 1. 定义 环形队列就是将队列在逻辑上看作环形结构、物理上仍是数组形式存储的一种数据结构。 其实现主要分为两种情况: 浪费空间法记录空间法 2. 实现 实现要考虑的是成员变量 2.1 记录空间法 使用used标识当前存储了多少元素,如果为空&a…

数据结构(三)——算法和算法分析

😀前言 数据结构和算法是计算机科学领域中至关重要的概念。它们为解决实际问题提供了有效的方法和步骤。算法作为解决问题的方法和步骤,在计算机中以指令的有限序列的形式表达。本文将介绍算法的定义、描述和程序设计等方面的内容,帮助您深入…

Hdoop学习笔记(HDP)-Part.13 安装Ranger

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

【Linux】信号概念和信号的产生

文章目录 一、什么是信号?1.signal系统调用2.从硬件解析键盘数据如何输入给内核3.同步和异步 二、信号的产生1.键盘组合键2. kill命令3.系统调用接口3.1kill3.2 raise3.3abort 4.异常5.软件条件 重谈core dump标志位 一、什么是信号? 以日常为例&#x…

边缘数据中心和5G的融合彻底改变数据传输和物联网

伴随着数字化时代的飞速发展,边缘数据中心和5G技术的联袂崛起,正深刻塑造着人们对数据的创造、传输和处理方式。据Gartner公司的预测,到2025年,企业数据的三分之二将在边缘计算设施中涌现,而非传统的集中式数据中心。这…

leetcode 209. 长度最小的子数组(优质解法)

代码&#xff1a; //时间复杂度 O(N) ,空间复杂度 O(1) class Solution {//采用滑动窗口的方法解决public int minSubArrayLen(int target, int[] nums) {int numsLengthnums.length;int minLengthInteger.MAX_VALUE;int left0;int right0;int sum0;while (right<numsLengt…

全栈冲刺 之 一天速成MySQL

一、为什么使用数据库 数据储存在哪里&#xff1f; 硬盘、网盘、U盘、光盘、内存&#xff08;临时存储&#xff09; 数据持久化 使用文件来进行存储&#xff0c;数据库也是一种文件&#xff0c;像excel &#xff0c;xml 这些都可以进行数据的存储&#xff0c;但大量数据操作…

vue 解决响应大数据表格渲染崩溃问题

如果可以实现记得点赞分享&#xff0c;谢谢老铁&#xff5e; 1.场景描述 发起请求获取上万条数据&#xff0c;进行表格渲染&#xff0c;使浏览器卡顿&#xff0c;导致网页崩溃。 2.分析原因 1.大量数据加载&#xff0c;过多操作Dom&#xff0c;消耗性能。 2.表格中包含其他…

uniapp是否可以用elementUI等前端UI库、使用步骤以及需要注意的问题

文章目录 uniapp是否可以用elementUI等前端UI库使用方法和步骤问题如何解决 uniapp是否可以用elementUI等前端UI库 在PC端开发uniapp&#xff0c;可以用elementUI&#xff0c;因为elementUI就是PC端的。 在使用uniapp&#xff0c;选择vue2.0时&#xff0c;实测可以用nodejs16的…

校园局域网规划与设计(cisco仿真模拟)

摘 要 随着网络技术的发展&#xff0c;校园网的建设已经进入到一个蓬勃发展的阶段。校园网的建成和使用&#xff0c;对于提高教学和科研的质量、改善教学和科研条件、加快学校的信息化进程&#xff0c;开展多媒体教学与研究以及使教学多出人才、科研多出成果有着十分重要而深远…

Sock0s1.1

信息收集 探测存活主机 发现存活主机为192.168.217.133 探测开放端口 nmap -sT -p- 192.168.217.133 -oA ./ports 发现两个端口开放&#xff0c;分别是22 3128&#xff0c;同时探测到了8080端口&#xff0c;但是显示是关闭的状态。 UDP端口探测 nmap -sU --top-ports 20 1…

CTF-虚拟机-QEMU-前置知识-操作流程与源码阅读

文章目录 总览内存PCI设备PCI配置空间前64个字节对应源码Memorry空间的BARIO空间的BAR MMIOPMIOIspci访问PCI设备配置空间中的Memory空间和IO空间MMIOPMIO QQM&#xff08;qemu object model&#xff09;简洁概要将 TypeInfo 注册 TypeImpl&#xff1a;ObjectClass的初始化&…

linux学习资源

linux书籍资源&#xff08;pdf版&#xff09;&#xff1a; 有需要的请在评论区留言。 《Linux Basics for Hackers》 kaiwan的三部曲&#xff1a; 《Hands-On System Programming with Linux》 《Linux Kernel Programming》 《Linux Kernel Programming Part 2》 《Ma…

电子商务网站规划

摘 要 随着我国网民数量的不断增长&#xff0c;在关于互联网政策的大力支持下&#xff0c;国内的电子商务已经发展为全民网购的热潮。什么是电子商务&#xff0c;就是在互联网中盲目投资的网名有一个稳定的有规则的平台&#xff0c;有了电子商务平台后&#xff0c;多数商家选择…

使用 kubeadm 部署 Kubernetes 集群(三)kubeadm 初始化 k8s 证书过期解决方案

一、延长k8s证书时间 查看 apiserver 证书有效时间&#xff1a;默认是一年的有效期 [rootxuegod63 ~]# openssl x509 -in /etc/kubernetes/pki/apiserver.crt -noout -text |grep Not 延长证书过期时间 1.把 update-kubeadm-cert.sh 文件上传到 xuegod63 节点 vim update-…

.net framwork4.6操作MySQL报错Character set ‘utf8mb3‘ is not supported 解决方法

文章目录 .net framwork4.6操作MySQL报错Character set ‘utf8mb3‘ is not supported 解决方法详细报错内容解决方案修改数据修改表修改字段 .net framwork4.6操作MySQL报错Character set ‘utf8mb3‘ is not supported 解决方法 详细报错内容 System.NotSupportedException…

【WPF.NET开发】WPF.NET桌面应用开发概述

本文内容 为何从 .NET Framework 升级使用 WPF 进行编程标记和代码隐藏输入和命令控件布局数据绑定图形和动画文本和版式自定义 WPF 应用 Windows Presentation Foundation (WPF) 是一个与分辨率无关的 UI 框架&#xff0c;使用基于矢量的呈现引擎&#xff0c;构建用于利用现…

【matlab程序】画海洋流场

【matlab程序】画海洋流场 clear;clc; file ( ‘0227.nc’); latncread(file,‘latitude’); lonncread(file,‘longitude’); uncread(file,‘water_u’); vncread(file,‘water_v’); [x,y]meshgrid(lon,lat); xx’; yy’; interval4; figure (1) set(gcf,‘color’,[1 1 1…

工业机器视觉megauging(向光有光)使用说明书(二,轻量级的visionpro)

测试程序暂时支持80万&#xff08;包含1024*768&#xff09;以上的gige工业相机&#xff0c;以后会支持640*480分辨率相机。 我们程序中使用注意力机制&#xff0c;其实就是感兴趣区域&#xff08;roi&#xff0c;你看过我前面博文&#xff0c;就应该明白&#xff09;精神的延…