LLM:大模型的正则化

news2025/1/11 7:47:33

主流大模型使用的Normalization主要有三类,分别是Layer Norm,RMS Norm,以及Deep Norm。 

小模型的正则化参考:

l1l2正则和dropout正则化[https://youzipi.blog.csdn.net/article/details/75307522]

LN和BN归一化 [深度学习:批归一化Batch Normalization] 

Post-Norm和Pre-Norm

根据Normalization在结构中的位置,也可分为Post-Norm和Pre-Norm。

一般认为,Post-Norm在残差之后做归一化,对参数正则化的效果更强,进而模型的收敛性也会更好;

而Pre-Norm有一部分参数直接加在了后面,没有对这部分参数进行正则化,可以在反向时防止梯度爆炸或者梯度消失,大模型的训练难度大,因而使用Pre-Norm较多。

目前比较明确的结论是:同一设置之下,Pre Norm结构往往更容易训练,但最终效果通常不如Post Norm。Pre Norm更容易训练好理解,因为它的恒等路径更突出,但为什么它效果反而没那么好呢?[为什么Pre Norm的效果不如Post Norm? - 科学空间|Scientific Spaces]

[【重新了解Transformer模型系列_1】PostNorm/PreNorm的差别 - 知乎]

RMS Norm

2019年的论文《Root Mean Square Layer Normalization》比较了去掉center后的Layer Normalization,文章称之为RMS Norm,但这篇论文总的结果显示:RMS Norm比Layer Normalization更快,效果也基本一致。RMS Norm还被Google用在了T5中,并且在另外的一篇文章《Do Transformer Modifications Transfer Across Implementations and Applications?》中做了比较充分的对比实验,显示出RMS Norm的优越性。这样看来,未来RMS Norm很可能将会取代Layer Normalization而成为Transformer的标配。

与layerNorm相比,RMS Norm的主要区别在于去掉了减去均值的部分。计算公式为:

这里的 ai与Layer Norm中的 x等价,作者认为这种模式在简化了Layer Norm的同时,可以在各个模型上减少约 7%∼64% 的计算时间

代码实现:https://github.com/bzhangGo/rms

 [ 昇腾大模型|结构组件-1——Layer Norm、RMS Norm、Deep Norm]

Deep Norm

 (Deep Normalization)

Deep Norm是对Post-LN的的改进,具体的:

  • DeepNorm在进行Layer Norm之前会以 α参数扩大残差连接
  • 在Xavier参数初始化过程中以 β减小部分参数的初始化范围

一些模型的具体参数使用方法如下:

这里N和M分别指编码和解码器的层数

论文中,作者认为 Post-LN 的不稳定性部分来自于梯度消失以及太大的模型更新,同时,有以下几个理论分析

  • 定义了“预期模型更新”的概念表示 模型更新的规模量级
  • 证明了 WQ和 WK不会改变注意力输出大小数量级的界限,因而 β 并没有缩小这部分参数
  • 模型倾向于累积每个子层的更新,从而导致模型更新量呈爆炸式增长,从而使早期优化变得不稳定
  • 使用Deep Norm 的 "预期模型更新",在参数 α,β 取值适当的时候,以常数为界

同时,作者通过实验证实了Deep Norm在训练深层transformer模型的时候具备近乎恒定的更新规模,成功训练了1000层transformer的模型,认为Deep Norm在具备 Post-LN 的良好性能 的同时又有 Pre-LN 的稳定训练

代码实现:https://github.com/microsoft/to

from:深度学习:大模型的正则化_-柚子皮-的博客-CSDN博客

ref: 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/605350.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【3000字帮你深度剖析数据在内存中的存储】

本节重点 -- 重中之重 数据类型详细介绍 整形在内存中的存储:原码、反码、补码 大小端字节序介绍及判断 浮点型在内存中的存储解析 准备好了,开始啰,在小小的花园里面......最近被这个歌曲洗脑,但是我们并不是要唱歌,而…

linux基础知识学习记录

这里写自定义目录标题 一、 计算机基础知识二 、 Linux操作系统的介绍三、 Linux的安装四、Linux命令使用汇总 一、 计算机基础知识 计算机组成:计算机主要硬件和软件2部分组成。计算机软硬件的概念:硬件是可以看得见的物理实体,软件是运行在…

还在担心期末挂科吗? 期末必备复习资料-----“树“的概念

🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏: 🍔🍟🌯C语言进阶 🔑个人信条: 🌵知行合一 🍉本篇简介:>:记录期末复习 数据结构中有关树的一些知识 金句分享: ✨我将…

2023最新150道渗透测试面试题

前言 眨眼间2023年快过去一半了,不知道大家有没有找到心仪的工作呀,今天我给大家整理了150道渗透测试面试题给大家,需要答案的话可以在评论区给我留言哦~ 第一套渗透测试面试题 你了解什么是网络安全渗透测试吗? 你的网络安全渗…

Stream相关知识点

这里写目录标题 Stream流体验Stream流Stream流的常见生成方式流程分类具体操作 Stream流常见中间操作之filter简介具体操作 Stream流常见中间操作之limit&skip简介具体操作 Stream流常见中间操作之concat&distinct简介具体操作 Stream流常见中间操作之concat&disti…

什么是SSO

1. 什么是SSO? 「SSO」(单一登录single sign on)是一种身份验证机制,它允许用户使用单一的凭据登录到多个相关应用程序或系统中。换句话说,用户只需一次登录,就可以访问多个不同的应用程序,无需…

并发专栏-CAS

从 Atomic 到 CAS CAS 知道吗,如何实现? 讲一讲 AtomicInteger,为什么要用 CAS 而不是 synchronized? CAS 底层原理,谈谈你对 UnSafe 的理解? AtomicInteger 的ABA问题,能说一下吗,原…

自学黑客(网络安全/Web安全),一般人我还是劝你算了吧

由于我之前写了不少网络安全技术相关的文章,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人私信问我: 我刚入门网络安全,该怎么学? 要学哪些东西? 有哪些方向? 怎么选&a…

自学网络安全(黑客)该如何系统学习

一、自学网络安全学习的误区和陷阱 1.不要试图以编程为基础的学习开始学习 我在之前的回答中,我都一再强调不要以编程为基础再开始学习网络安全,一般来说,学习编程不但学习周期长,而且实际向安全过渡后可用到的关键知识并不多 一…

layui(1)

Layui镜像站-经典开源模块化前端 UI 框架(官方文档完整镜像) 下载框架包 点击文档&#xff0c;可进入学习界面 1.引入框架包 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-C…

『赠书活动 | 第八期』《ChatGpt全能应用一本通》

&#x1f497;wei_shuo的个人主页 &#x1f4ab;wei_shuo的学习社区 &#x1f310;Hello World &#xff01; 『赠书活动 &#xff5c; 第八期』 本期书籍&#xff1a;《ChatGpt全能应用一本通》 赠书规则&#xff1a;评论区&#xff1a;点赞&#xff5c;收藏&#xff5c;留言 …

深度学习(卷积神经网络)

文章目录 动物视觉神经&#xff0c;以及脑科学视网膜——视觉第一站外膝体——信息中转站视皮层——中央处理器小tips 人工神经网络神经认知机模型卷积神经网络结构&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09;卷积层池化层全连接层输出层softmax函数…

智能离网微逆变系统

文章目录 一、功能描述二、硬件部分2.1、单片机选型及中断号2.1.1、引脚分配 2.2、EG80102.3、控制电路图2.4、主电路图 三、代码流程图四、代码部分展示4.1、主函数4.2、modbus 五、项目演示 一、功能描述 把风光能&#xff0c;逆变为可调压调频的交流电可通过串口屏&#xf…

通过python封装采集商品ID请求获取京东商品详情数据,京东商品详情接口,京东API接口

使用Python封装采集商品ID请求获取京东商品详情数据。具体步骤如下&#xff1a; 使用Python中的requests库发送HTTP请求&#xff0c;获取商品ID列表。采集方法可根据需求选择&#xff0c;如爬虫框架Scrapy、Selenium等。导入京东API的Python SDK&#xff0c;如jdapi&#xff0…

YARN【工作机制】

Yarn概念 Yarn 是一个资源调度平台&#xff0c;负责为运算程序提供服务器运算资源&#xff0c;相当于一个分布式 的 操作系统平台 &#xff0c;而 MapReduce 等运算程序则相当于运行于 操作系统之上的应用程序 。 Yarn的四大组件 YARN 主要由 ResourceManager&#xff08;…

javascript基础十九:说说你对正则表达式的理解?应用场景?

一、是什么 正则表达式是一种用来匹配字符串的强有力的武器 它的设计思想是用一种描述性的语言定义一个规则&#xff0c;凡是符合规则的字符串&#xff0c;我们就认为它“匹配”了&#xff0c;否则&#xff0c;该字符串就是不合法的 在 JavaScript中&#xff0c;正则表达式也是…

MySQL架构简介

MySQL是系统架构中最常见的中间件&#xff0c;主要由Server层&#xff08;连接器Connectors、连接池Connection Pool、查询缓存query cache、分析器Parser、优化器Optimizer、执行器、binlog&#xff09;以及存储引擎层组成。 MySQL架构简介 连接器 与客户端建立连接、认证身…

0803平面及其方程-向量代数与空间解析几何

文章目录 1 曲面方程与空间曲线方程的概念1.1 曲面方程1.2 空间曲线的方程 2 平面的点法式方程3 平面的一般方程4 两平面的夹角4.1 两平面夹角的定义4.2 夹角的余弦公式4.3 点到平面的距离 结语 1 曲面方程与空间曲线方程的概念 1.1 曲面方程 如果曲面与三元方程 ​ F ( x …

安捷伦MSOX4104A示波器/Agilent MSO-X4104A

安捷伦MSOX4104A示波器/Agilent MSO-X4104A 简介&#xff1a; 1GHz带宽 4个模拟通道 集成逻辑计时分析仪 配有业界*大的 12.1 英寸电容触摸屏 产品特点&#xff1a; 五合一的仪器 示波器 逻辑分析仪&#xff08;可选&#xff09; 串行协议分析仪&#xff08;USB2.0、ARIN…

柔性车间作业调度

1柔性车间作业调度 n n n个工件 { J 1 , J 2 , ⋯ , J n } \{J_1,J_2,\cdots,J_n\} {J1​,J2​,⋯,Jn​}要在 m m m台机器 { M 1 , M 2 , ⋯ , M m } \{M_1,M_2,\cdots,M_m\} {M1​,M2​,⋯,Mm​}上加工。每个工件包含一道或多道工序&#xff0c;工序顺序是预先确定的&#xf…