大语言模型训练

news2024/11/25 0:30:01

大语言模型训练

  • 1.两大问题
  • 2.并行训练
    • 2.1数据并行
    • 2.2模型并行
    • 2.3张量并行
    • 2.4混合并行
  • 3.权重计算
    • 3.1浮点数
    • 3.2混合精度训练
    • 3.3deepspeed(微软)
      • 3.3.1 ZeRO
      • 3.3.2ZeRO-offload
    • 3.3总结
  • 4.PEFT
    • 4.1Prompt Tuning
    • Prefix-tuning
    • 4.2P-tuning & P-tuning v2
  • 5.Adapter
  • 6.LoRA
  • 7.模型推理加速(KV cache 技术)

1.两大问题

  1. 效率问题
    数据量大,如何快速完成训练
  2. 显存问题
    模型太大,如何在GPU上完成运算

2.并行训练

2.1数据并行

思路: 复制模型到多个GPU上,将训练的数据也拆分成相同份数,交由不同的GPU模型上训练,各自计算梯度后,传到某台机器上,累加,求平均,再反传到各个模型中,进行更新。这样每台机器的模型权重是一致的。

优点: 效率高,相当于一份工作分给多个人做,完成的也就块。
缺点: 要求单卡就能训练整个模型(显存够大)。

示意图:
在这里插入图片描述

2.2模型并行

思路:模型的不同层放在不同的GPU上由前往后,依次计算,最后一层计算完成后,计算loss值,则由后到前依次计算,完成各层更新。

优点: 解决单块卡不够大的问题(模型比显存大)。
缺点: 需要更多的通讯时间(卡之间互相传输数据)。并且是单向串行,因为后面的模型层必须等前面传递数据才能计算。

示意图:
在这里插入图片描述

2.3张量并行

思路: 将张量划分到不同GPU上进行运算,其本质也是一种模型并行,只是它的并行的粒度更小,小到某层网络的权重计算拆分到不同的GPU上。

优点: 进一步减少对单卡显存的需求
缺点: 需要更多的数据通讯

示意图1:最后两部分,前后拼接起来
在这里插入图片描述
示意图2:最后两部分,对位相加
在这里插入图片描述
在transformer中多头机制,每个头在一个GPU上计算。

2.4混合并行

介绍: BLOOM模型训练时采用的并行计算结构,并且是混合并行,即采用数据并行:将数据拆分为4组,又采用模型并行,将模型层拆分到12组GPU上,进行流水线计算;在每一组GPU上,将分到该组上的模型层,再采用张量并行的原则进行计算。

示意图:
在这里插入图片描述

3.权重计算

3.1浮点数

三种浮点数的格式:
在这里插入图片描述
简介: FP32、FP16都是原有计算的浮点数数据格式,为了机器学习的,设计了BF16的格式。8个bit为1字节。

浮点数表示公式:
在这里插入图片描述
注意: 指数E影响的是浮点数的大小范围,而尾数M则影响浮点数的小数位数,即浮点数精确度。

举例:

例:25.125 D = 十进制 B = 二进制
整数部分:25(D) = 11001(B)
小数部分:0.125(D) = 0.001(B)
用二进制科学计数法表示:25.125(D) = 11001.001(B) = 1.1001001 * 2^4(B)
符号位 S = 0
尾数 M = 1.001001 = 001001(去掉1,隐藏位)
指数 E = 4 + 127(中间数) = 135(D) = 10000111(B)

图示如下:
在这里插入图片描述
精度损失举例:

将0.2(十进制)转化为二进制数:
0.2 * 2 = 0.4 -> 0
0.4 * 2 = 0.8 -> 0
0.8 * 2 = 1.6 -> 1
0.6 * 2 = 1.2 -> 1
0.2 * 2 = 0.4 -> 0(发生循环)

0.2(D) = 0.00110…(B)

由于浮点数尾数位数有限,最后只能截断,导致精度损失

例如: 0.00…(800个0)…01 + 1 = 1

3.2混合精度训练

原理: 模型在训练时,采用的是FP16位的浮点数进行的计算,在进行梯度计算,更新权重时,则采用FP32的浮点数更新。

原因: 模型在训练或者是推理时,FP16精度,一般情况下够用,为了节省资源,则不使用FP32的;但是在权重更新,计算loss时,由于有很多位小数,如果浮点数精度太低,可能导致计算出的梯度为0;无法更新权重。

在这里插入图片描述
释义:

  1. 上面图中,在模型更新这块,完整保留了一份FP32浮点数的模型权重,计算loss和更新时,是更新的该参数。
  2. 完成FP32浮点数的权重更新后,再转为FP16位的权重,放到训练中去,进行第二轮训练。

3.3deepspeed(微软)

3.3.1 ZeRO

简介: deepspeed是微软提供的一个加速框架,里面提供了数据并行、模型并行、张量并行、混合并行策略,这是主要介绍其:零冗余优化器 ZeRO。

示意图:
在这里插入图片描述
释义:

  1. stage0 指的就是数据并行模式。由于模型权重、梯度都是BF16,即2个字节,即代表MemoryConsumed的前两个2;K是指优化器的不同参数会不同,这里的优化器是adam,有3个初始化参数:m、v、t;并且都是FP32的浮点数,即4字节,所以是12
  2. stage1指的是模型并行,这里只是将Optimizer States分散到不同的机器中,这里是Nd=64,即分到64张卡上,所以MemoryConsumed最后一个参数是除以Nd。
  3. stage2指的是模型并行,这里不仅将优化器,还把梯度也分散到不同的机器/卡中,计算同上。
  4. stage3指的是模型并行,这里将优化器,梯度、参数都分散到不同的机器/卡中,是完整的模型并行模式。
    5.上面的计算都是基于全量微调的资源计算方式。

3.3.2ZeRO-offload

简介: 把一部分计算放到内存中,用CPU计算;目的是解决显存不足问题,但是CPU并行计算比较慢。
在这里插入图片描述

3.3总结

  1. 训练速度
    Stage 0 > Stage 1 > Stage 2 > Stage 2 + offload > Stage 3 > Stage 3 + offloads

  2. 显存效率(指固定显存下,能够训练的模型大小)
    Stage 0 < Stage 1 < Stage 2 < Stage 2 + offload < Stage 3 < Stage 3 + offloads

4.PEFT

简介: Parameter-Efficient Fine-Tuning;当训练整个大模型不能实现时,可以采取的一种策略;即通过最小化微调参数的数量缓解大型预训练模型的训练成本。

4.1Prompt Tuning

在这里插入图片描述
释义:

  1. 原理:即将各类任务较好的提示词进行整理,将提示词与任务问题结合,多个不同类型的任务材料和对应提示词加在一起,作为微调的语料,只是这个时候冻结模型的权重,只让embedding可以进行训练;使得embedding的结果在这些任务上能够更好的拟合后面的模型权重,使得模型能够更好的处理这些token,从而完成这些任务。

Prefix-tuning

在这里插入图片描述

4.2P-tuning & P-tuning v2

在这里插入图片描述

5.Adapter

在这里插入图片描述
释义:

  1. 上图中,左侧是一个原有的transformer结构中,添加了Adapter模型层
  2. 训练时调整的是Adapter中的FeedFoward层的参数,这样调整的参数就很小,需要的资源就可以降低。
  3. 上图中,右侧是即为Adapter的模型结构,包含两个Feedfoward层和一个激活函数
  4. Adapter中的两个FF就是训练的参数,这里会通过降维升维操作,再次降低参数量
    a. 输入Feedfowarddown-project时,矩阵为:768 * 768;FFDP为:768 * 8;FFUP为:8 * 768;
    这样就比两个FFDP和FFUP都为768 * 768参数要小的多。

优点:

  1. 加入的Adapter的参数的变化对模型的影响深远,因为添加的模型是在transformer的结构中的。
  2. 通过加入Adapter模型,与全量微调相比,训练的参数减少,降低了极大部分的训练资源开销。

缺点:
3. 增加了模型的深度,因为是和Transformer中的结构串联的。

6.LoRA

示意图:
在这里插入图片描述
释义:

  1. 上图左侧蓝色表示预训练模型的任意一个线性层;右侧表示LoRA模型,即可以在预训练模型的任意一层线性层旁边加入LoRA模型进行微调。
  2. LoRA使用的仍然是Adapter的思想,在网络中加入新的训练模型,结合原有预训练模型参数,获得对下游任务的良好表现,只是LoRA是并联
  3. 其中A、B分别可以等价于Adapter中的FFDP、FFUP两层。
  4. r就是秩;比如:W是L * H 是768 * 768;A、B分别是:768 * 8 、8 * 768;那么这里的8就是r。
  5. transformer结构中,大多数网络层都是线性的;比如Q、K、V;那么这些模型层都可以加入LoRA进行微调训练。对模型改变和影响深度非常大。
  6. 注意: 初始化A、B权重矩阵时,注意,A的权重是随机初始化的,B的权重是全部为0可以进行微调训练的原因: 为了微调的起点是预训练模型,B的权重为0,则A、B相乘为0;如果A、B都不会零,随机初始化,就会导致训练一开始,计算loss,就不是基于预训练模型进行的微调。如果A、B初始化都为零,则梯度更难计算,模型学习更加困难。
  7. LoRA有参数:r、lora_alpha、lora_dropout、target_modules;r就是降维的比例;lora_dropout就是Dropout参数;target_modules即需要加载LoRA模型的位置;加上LoRA后,可以看成:下面BAx的部分,最后BAx会乘以一个缩放参数,这个参数值是:lora_alpha与r的商
    在这里插入图片描述

优点:

  1. 加入的LoRA的模型,添加的模型层更多,可为微调的范围也就越大,更能对模型输出施加影响。
  2. 与全量微调相比,训练的参数减少,降低了极大部分的训练资源开销。
  3. 没有加深模型的整体层数和深度,模型计算更快。

7.模型推理加速(KV cache 技术)

简介: 由于并发、响应速度的需求,需要在不影响模型推理效果的基础上,提高现有模型推理速度,根据对模型的结构和计算过程的分析,在self-attention结构上,有一个非常好的改进点。

示意图:在这里插入图片描述
原理: 在Q、K、V计算时,有一个与文本等长的矩阵,计算输入中,各字词之间的要素相关性;在推理预测下一个字的过程中,矩阵的长宽是不断变大的,计算量也就不断变大;由于每次预测相较于前一次,只是增加了前一个输出的相关性,那么将前面的输出的相关性,存在缓存中,每次只计算新增的这一个输出,就会减少大量的计算量。

举例如下:
在这里插入图片描述
释义:

  1. 原有计算:将今天天气不错,全部输入到Q、K计算矩阵中,也就每次计算,都是完整的内容。
  2. 当前计算:每次计算Q、K的结果都保留到缓存中,上述内容中,当前只需要计算:这一列;前面今天天气不都直接用缓存中的即可。并且将当前的计算,也加入到缓存中。降低的计算时间、计算量。效果显著。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

arcpy总结

arcpy 一、是什么二、为什么三、怎么用1、在哪里打开2、基础术语3、代码组织4、案例&#xff08;1&#xff09;裁剪&#xff08;2&#xff09;土地变化特征分析&#xff08;4&#xff09;文件访问与检测&#xff08;5&#xff09;空间数据的查询、插入与更新&#xff08;6&…

伯努利分布(Bernoulli distribution)的两次成功之间间隔次数的分布

伯努利分布&#xff08;Bernoulli distribution&#xff09;是一种特殊的二项式分布&#xff0c;即0-1分布。百科上已经说明了这种分布&#xff0c;即&#xff0c;其中。其数学期望为&#xff0c;方差为。详细说明见0—1分布_百度百科 本文进一步说明对于这类分布的事件&#…

BUUCTF-greatescape1

发现有ftp包和tcp包居多 下载解压是个流量包&#xff0c;使用wiresharh打开&#xff0c;CTRLF&#xff0c;按下图搜索ftp tcp18流发现ssc.key 传送&#xff0c;在19流发现key内容 复制保存为ssc.key, 加载key解密tls&#xff0c;再追踪tls流可得flag INS{OkThatWasWay2Easy} …

微知-Bluefield DPU使用flint烧录固件报错MFE_NO_FLASH_DETECTED是什么?MFE是什么?

文章目录 背景一些报错场景MFE是什么&#xff1f;有哪些MFE 背景 在DPU的fw操作flint的时候&#xff0c;很多命令都会报这个错误&#xff1a;MFE_NO_FLASH_DETECTED&#xff0c;早期很疑惑并且猜测MFE是Mellanox Firmware Engine。实际并不是&#xff0c;具体还得走到mellanox…

linux 中mysql my.cnf 配置模版

前置准备 sudo systemctl stop mysqld 注意&#xff1a; 原本配置重命名做备份 备份数据 删文件 直接新建 my.cnf 把配置 11要粘进去的内容 直接粘进去 注意&#xff1a;尽管log-bin 和 log_bin 都可以启用二进制日志&#xff0c;但为了保持与现代MySQL版本的兼容性和一…

【算法系列-哈希表】两数之和(Map)

【算法系列-哈希表】两数之和 (Map) 文章目录 【算法系列-哈希表】两数之和 (Map)1. 两数之和(LeetCode 1, 梦开始的地方)1.1 思路分析&#x1f3af;1.2 解题过程&#x1f3ac;1.3 代码示例&#x1f330; 2. 四数相加II(LeetCode 454)2.1 思路分析&#x1f3af;2.2 解题过程&am…

MySQL-08.DDL-表结构操作-创建-案例

一.MySQL创建表的方式 1.首先根据需求文档定义出原型字段&#xff0c;即从需求文档中可以直接设计出来的字段 2.再在原型字段的基础上加上一些基础字段&#xff0c;构成整个表结构的设计 我们采用基于图形化界面的方式来创建表结构 二.案例 原型字段 各字段设计如下&…

rsync 数据镜像同步服务笔记

1. rsync概述 定义&#xff1a;rsync是一款数据镜像备份工具&#xff0c;支持快速完全备份和增量备份&#xff0c;支持本地复制与远程同步。镜像指两份完全相同的数据备份.特点&#xff1a; 支持整个目录树和文件系统的更新&#xff1b;可选择性地保留符号链接、文件属性、权限…

【Orange Pi 5嵌入式应用编程】-BMP280传感器驱动

BMP280传感器驱动 文章目录 BMP280传感器驱动1、BMP280传感器介绍2、BMP280的测量流程2.1 气压测量2.2 温度测量2.3 IIR滤波2.4 滤波器选择2.5 噪声3、BMP280的功耗模式3.1 休眠模式3.2 强制模式3.3 正常模式3.4 模式转换4、数据读取及计算4.1 寄存器数据覆盖4.2 输出补偿4.3 补…

一键生成证件照的开源利器:HivisionIDPhotos使用教程

HivisionIDPhotos使用教程&#xff1a;一键生成证件照的开源利器 HivisionIDPhotos 是一款开源的、轻量级且高效的AI工具&#xff0c;专注于证件照的自动生成。通过这一工具&#xff0c;用户只需上传一张自拍或其他照片&#xff0c;便能快速生成标准尺寸的证件照&#xff0c;免…

跟李沐学AI:Transformer

Transformer架构 (图源:10.7. Transformer — 动手学深度学习 2.0.0 documentation) 基于编码器-解码器架构来处理序列对 与使用注意力的seq2seq不同&#xff0c;Transformer纯基于注意力 多头注意力&#xff08;Multi-Head Attention&#xff09; (图源:10.5. 多头注意力 …

MyBatis环境配置详细过程

在此之前我们需要知道Maven和依赖是什么。 什么是Maven&#xff1f; Maven 是一个项目管理和构建自动化工具&#xff0c;最初由Apache软件基金会开发&#xff0c;主要用于Java项目的构建、依赖管理、文档生成和发布。Maven使用一种基于XML的配置文件&#xff08;pom.xml&…

vue后台管理系统从0到1(6)引入pinia实现折叠功能

文章目录 vue后台管理系统从0到1&#xff08;6&#xff09;引入pinia实现折叠功能分析&#xff1a;安装并使用 pinia vue后台管理系统从0到1&#xff08;6&#xff09;引入pinia实现折叠功能 分析&#xff1a; 首先&#xff0c;接着上一期&#xff0c;我们项目启动起来应该是…

【算法思想·二叉树】用「遍历」思维解题 II

本文参考labuladongsuanfa笔记[【强化练习】用「遍历」思维解题 II | labuladong 的算法笔记] 如果让你在二叉树中的某些节点上做文章&#xff0c;一般来说也可以直接用遍历的思维模式。 270. 最接近的二叉搜索树值 | 力扣 | LeetCode | 给你二叉搜索树的根节点 root 和一个目…

通信工程学习:什么是SDRAM同步动态随机存取存储器

SDRAM&#xff1a;同步动态随机存取存储器 SDRAM&#xff0c;全称为Synchronous Dynamic Random Access Memory&#xff0c;即同步动态随机存取存储器&#xff0c;是一种广泛应用于计算机和嵌入式系统中的内存技术。以下是对SDRAM的详细介绍&#xff1a; 一、SDRAM的定义与特点…

TimeGen3.2

一、安装 1.安装包下载 软件安装压缩包&#xff0c;点击链接下载&#xff0c;自取。 链接: https://pan.baidu.com/s/1kebJ2z8YPMhqyvDiHLKktw?pwd0000 提取码: 0000 二、解压安装 1.解压 2.安装软件 &#xff08;1&#xff09;双击timegen-pro-3.2.exe文件 &#xff…

[CTF夺旗赛] CTFshow Web13-14 详细过程保姆级教程~

前言 ​ CTFShow通常是指网络安全领域中的“Capture The Flag”(夺旗赛)展示工具或平台。这是一种用于分享、学习和展示信息安全竞赛中获取的信息、漏洞利用技巧以及解题思路的在线社区或软件。参与者会在比赛中收集“flag”&#xff0c;通常是隐藏在网络环境中的数据或密码形…

SHCTF-2024-week1-wp

文章目录 SHCTF 2024 week1 wpMisc[Week1]真真假假?遮遮掩掩![Week1]拜师之旅①[Week1]Rasterizing Traffic[Week1]有WiFi干嘛不用呢&#xff1f; web[Week1] 单身十八年的手速[Week1] MD5 Master[Week1] ez_gittt[Week1] jvav[Week1] poppopop[Week1] 蛐蛐?蛐蛐! SHCTF 2024…

一些自定义函数

目录 一.strcmp()函数 二.strstr()函数 三.memcpy函数 四.memmove函数 五.strncpy函数 六.strcat函数 七.atoi函数 八.strlen函数 一.strcmp()函数 strcmp 函数是用于比较两个字符串是否相等的函数。它通过逐个字符比较两个字符串的 ASCII 值&#xff0c;来判断它们的相…

QD1-P3 HTML 基础内容介绍

本节学习&#xff1a;HTML基础语法介绍。 本节视频 www.bilibili.com/video/BV1n64y1U7oj?p3 ‍ 一、运行HTML代码 在 HBuilderX编辑器中创建空项目&#xff0c;添加一个 html 文件 <!-- QD1-P3 HTML基础语法 --><!DOCTYPE html> <html><head>&l…