《大规模语言模型从理论到实践》第一轮学习--Fine-tuning微调

news2024/10/9 5:55:02

第一轮学习目标:了解大模型理论体系

第二轮学习目标:进行具体实操进一步深入理解大模型

从大语言模型的训练过程来理解微调

大预言模型训练主要包含四个阶段:预训练、有监督微调、奖励建模、强化学习。

预训练(Pretraining)阶段需要利用海量的训练数据,完成深度神经网络参数训练,构建基础语言模型 (Base Model)。

有监督微调(Supervised Finetuning),也称为指令微调(Instruction Tuning),利用少量高质量数据集合,包含用户输入的提示词(Prompt)和对应的理想输出结果。用户输入包括问题、闲聊对 话、任务指令等多种形式和任务。得到有监督微调模型(SFT 模型)

奖励建模(Reward Modeling)阶段目标是构建一个文本质量对比模型,对于同一个提示词,SFT模型给出的多个不同输出结果的质量进行排序。如果 RM 模型的目标是针对 所有提示词系统所生成输出都能够高质量的进行判断,该问题所面临的难度在某种程度上与文本 生成等价,因此如何限定 RM 模型应用的泛化边界也是本阶段难点问题。

强化学习(Reinforcement Learning)阶段根据数十万用户给出的提示词,利用在前一阶段训练的 RM 模型,给出 SFT 模型对用户提示词补全结果的质量评估,并与语言模型建模目标综合得到更好的效果。使用强化学习,在 SFT 模型基础上调整参数,使得最 终生成的文本可以获得更高的奖励(Reward)。由于强化学习方法稳定性不高,并且超参数众多,使得模型收敛难度大,再叠加 RM 模型的准确率问题,使得在大规模 语言模型如何能够有效应用强化学习非常困难。

大模型微调步骤

数据准备、选择基础模型、设置微调参数(学习率、训练轮次(epochs)、批处理大小(batch size)等超参数)、微调(加载预训练的模型和权重、选择微调方法、选择合适的损失函数和优化器、训练)

一、按微调参数规模划分

1.1全参微调(Full Parameter Fine-Tuning,FPFT)

       用预训练权重作为初始化权重,在特定数据集上继续训练,全部参数都更新。

1.2低参微调(Parameter Efficient Fine-Tuning,PEFT)

       用更少的计算资源完成参数的更新,只更新部分参数,或者通过对参数进行某种结构化约束,例如稀疏化低秩近似解来降低微调的参数量。

      可以分为以下三类方法

  1. 增加额外参数(Additive)。又主要分为:类适配器(Adapter-like)方法、软提示(Soft prompts)
  2. 选取一部分参数更新(Selective)
  3. 重参数化(Reparametrization-based) 

         补充:

         稀疏化:稀疏化是指通过去除矩阵或向量中的大部分元素,将其变得稀疏(即非零元素较少)的过程。有阈值法、L1正则化、PCA主成分分析可以实现这些方法。

         低秩近似解:矩阵的秩代表了矩阵中线性无关的行(或列)的最大数量通过减少矩阵的秩来去除冗余信息,同时保留数据的主要特征,从而降低存储空间和计算量。应用于矩阵补全、数据压缩等问题中。可以通过凸或者非凸松弛方法实现。

请复习线性代数的相关知识

1.2.1LoRA

LoRA(Low-Rank Adaptation)是一种旨在微调大型预训练语言模型(如GPT-3或BERT)的技术。其核心理念在于,在模型的决定性层次中引入小型、低秩的矩阵来实现模型行为的微调,而无需对整个模型结构进行大幅度修改。

为了达到降秩且最小化目标矩阵与原矩阵差异的目的,常用的方法是对原矩阵进行奇异值分 解并裁去较小的奇异值。

这种方法的优势在于,在不显著增加额外计算负担的前提下,能够有效地微调模型,同时保留模型原有的性能水准。

LoRA的操作流程如下:

确定微调目标权重矩阵:首先在大型模型(例如GPT)中识别出需要微调的权重矩阵,这些矩阵一般位于模型的多头自注意力和前馈神经网络部分。

引入两个低秩矩阵:然后,引入两个维度较小的低秩矩阵A和B。

计算低秩更新:通过这两个低秩矩阵的乘积AB来生成一个新矩阵,其秩(即r)远小于原始权重矩阵的秩。这个乘积实际上是对原始权重矩阵的一种低秩近似调整。

结合原始权重:最终,新生成的低秩矩阵AB被叠加到原始权重矩阵上。因此,原始权重经过了微调,但大部分权重维持不变。这个过程可以用数学表达式描述为:新权重 = 原始权重 + AB。

以一个具体实例来说,假设我们手头有一个大型语言模型,它通常用于执行广泛的自然语言处理任务。现在,我们打算将其微调,使其在处理医疗健康相关的文本上更为擅长。

AdaLoRA :LoRA 算法给所有的低秩矩阵指定了唯一的秩,从而忽略了不同模块、不同层的参数对于微调 特定任务的重要性差异。因此,文献 [147] 提出了 AdaLoRA(Adaptive Budget Allocation forParameterEfficient Fine-Tuning)算法,在微调过程中根据各权重矩阵对下游任务的重要性动态调整秩的大 小,用以进一步减少可训练参数量的同时保持或提高性能。

1.2.2QLoRA

QLoRA(Quantized Low-Rank Adaptation)是一种结合了LoRA(Low-Rank Adaptation)方法与深度量化技术的高效模型微调手段。

QLoRA的核心在于量化技术:QLoRA采用创新的技术将预训练模型量化为4位。这一技术包括低精度存储数据类型(4-bit NormalFloat,简称NF4)和计算数据类型(16-bit BrainFloat)。这种做法极大地减少了模型存储需求,同时保持了模型精度的最小损失。

补充:

量化是一个将连续信号转换为离散信号的过程

1Byte=8bit

32位浮点数占用4个字节的存储空间。量化后的表示将原始的32位浮点数转换为4位,也就是0.5个字节。新的集合由16个不同的值组成(因为2^4=16)。

微调阶段:在训练期间,QLoRA先以4-bit格式加载模型,训练时将数值反量化到bf16进行训练,这样大幅减少了训练所需的显存。例如,33B的LLaMA模型可以在24 GB的显卡上进行训练。

量化过程的挑战在于设计合适的映射和量化策略,以最小化精度损失对性能的影响。在大型模型中,这种方法可以显著减少内存和计算需求,使得在资源有限的环境下部署和训练成为可能。

1.2.3适配器调整(Adapter Tuning)

适配器调整的方法是在模型的每个层或选定层之间插入小型神经网络模块,称为“适配器”。这些适配器是可训练的,而原始模型的参数则保持不变。

适配器调整的关键步骤包括:

以预训练模型为基础:初始阶段,我们拥有一个已经经过预训练的大型模型,如BERT或GPT,该模型已经学习了丰富的语言特征和模式。

插入适配器:在预训练模型的每个层或指定层中,我们插入适配器。适配器是小型的神经网络,一般包含少量层次,并且参数规模相对较小。

维持预训练参数不变:在微调过程中,原有的预训练模型参数保持不变。我们不直接调整这些参数,而是专注于适配器的参数训练。

训练适配器:适配器的参数会根据特定任务的数据进行训练,使适配器能够学习如何根据任务调整模型的行为。

针对任务的调整:通过这种方式,模型能够对每个特定任务进行微调,同时不影响模型其他部分的通用性能。适配器有助于模型更好地理解和处理与特定任务相关的特殊模式和数据。

高效与灵活:由于只有部分参数被调整,适配器调整方法相比于全模型微调更为高效,并且允许模型迅速适应新任务。

1.2.4前缀调整(Prefix Tuning)

在每一层Transformer结构的输入前都添加可训练的Token,使得模型在更深层次上能够捕捉到任务相关的信息。但这也增加了参数的数量和计算成本。

前缀实际上是一种连续可微的虚拟标记(Soft Prompt/Continuous Prompt),与离散的Token相比,它们更易于优化并且效果更佳。这种方法的优势在于不需要调整模型的所有权重,而是通过在输入中添加前缀来调整模型的行为,从而节省大量的计算资源,同时使得单一模型能够适应多种不同的任务。

在Prefix Tuning中,假设你希望模型能够更准确地翻译医学领域的句子,你可以在每一层Transformer的输入前都添加一些与医学相关的Token,如“[MEDICAL]”。然后,通过训练这些Token,模型能够更好地理解并翻译医学领域的句子。

1.2.5 提示调整(Prompt Tuning)

通过在输入层添加prompt tokens来为每个任务定制模型。这些prompt tokens可以看作是模型的一种“提示”,它们被添加到输入序列的开头或结尾,以引导模型更好地适应不同任务。

提示调整与前缀调整都涉及在输入数据中添加可学习的向量,这些向量是在输入层添加的,但两者的策略和目的不同:

提示调整主要通过引入任务指导信息来引导模型生成特定类型的输出,而前缀调整则通过提供输入数据的上下文信息来影响模型的行为。

例子:原始输入句子是:“What is the best place to visit in summer?”(夏天最好的旅游地点是哪里?)。在Prompt Tuning中,你会在输入句子前添加一些额外的Token,比如[TRAVEL],让输入变成:[TRAVEL] What is the best place to visit in summer? 这些[TRAVEL] Token是可训练的,通过训练这些Token,你可以让模型更好地理解这是一个关于旅游的问题。

1.2.6 P-Tuning

核心思想是在特定位置插入可训练的Token,使模型能够更好地理解下游任务的需求。

假设你有一个已经训练好的模型,可以生成文章。现在你希望它能够生成关于科技的文章。原始输入句子是:“Artificial intelligence is transforming the world.”(人工智能正在改变世界。)在P-Tuning中,你会在输入序列中间插入一些Token,比如[TECH],让输入变成:“Artificial intelligence [TECH] is transforming the world.” 这些[TECH] Token是可训练的,通过训练这些Token,你可以让模型更好地理解这是一个关于科技的文章。

1.2.7. P-Tuning v2

P-Tuning v2的改进在于,不仅在第一层插入连续提示,而是在多层都插入连续提示,且层与层之间的连续提示是相互独立的。

二、按训练流程划分

LLM训练流程

 2.1上下文学习(In-Context learning,ICL)

 不对 LLMs 执行任何的微调,直接将模型的输入输出拼接起来作为一个prompt,引导模型根据输入的数据结构demo,给出任务的预测结果。提示微调(Prompt Tuning)属于ICL的方式之一。

2.1.1语境学习(Incontext Learning, ICL)

是指模型可以从上下文中的几个例子中学习:向模型输入特定任务的一些具体例子(也称示例(Demonstration))以及要测试的样例,模型可以根据给定的示例续写出测试样例的答案。语境学习的关键思想是从类比中学习,整个过程并不需要对模型进行参数更新,仅执行向前的推理。

2.1.2模型上下文窗口扩展

上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。

2.2有监督微调(Supervised Fine-Tuning,SFT)

又称指令微调,使用标记数据对预训练模型进行微调的过程

2.3RLHF(Reinforcement Learning from Human Feedback)

还没学完这部分单独写一篇文章

强化学习(Reinforcement Learning)结合人类反馈(Human Feedback)来微调大语言模型 

2.3.1强化学习基本概念

智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策。 动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态以及当前动作所带来的奖励。智能体的目标就是尽可能多地从环境中获取奖励。

从机器狗学习抓飞盘的深入理解强化学习的概念

机器狗扔飞盘,机器狗形成了一个智能体。它会执行动作。飞盘的轨迹、速度构成了环境。机器狗根据当前环境反馈的关于飞盘的状态来决定采取什么动作。同时,根据机器狗所执行的动作,环境随后会给出一个反馈即奖励

机器狗根据不同的环境状态采取不同的动作的过程就是学习策略的过程,同时它会根据价值函数来预测自己所采取的行为可能带来的奖励是多少。

总体来说,强化学习的目标就是让智能体通过与环境的互动,学习到一个策略,使其能够在将来获得的奖励最大化。这使得强化学习不总是关注近期奖励,而是在短期的奖励与远期奖励之间找到平衡。

动作分类:离散动作空间、连续动作空间

策略:将输入的状态变成动作。随机性策略:根据输入的状态利用概率分布采样一个动作,确定性策略:智能体直接采取最有可能的动作。

价值函数:对未来奖励的预测。

智能体分类:基于价值的智能体(Value-based Agent)显式地学习价值函数,隐式地学习策略。基于策略的智能体(Policy-based Agent)则 是直接学习策略函数。策略函数的输入为一个状态,输出为对应动作的概率。演员-评论员智能体(Actor-critic Agent)则 是把基于价值的智能体和基于策略的智能体结合起来。

在LLM中智能体是模型,动作是它输出的结果

2.3.2基于人类反馈的强化学习

步骤1:预训练语言模型+有标签数据微调

步骤2:训练奖励模型

评判模型输出的回答在人类看来是否质量不错,即输入 [提示(prompt),模型生成的回答] ,奖励模型输出一个能表示回答质量的标量数字。这些不同的排序结果会通过某种归一化的方式变成定量的数据丢给模型训练,从而获得一个奖励模型。也就是一个裁判员。

步骤3:通过强化学习微调语言模型

近端策 略优化的实施流程如下:

(1) 环境采样:策略模型基于给定输入生成一系列的回复,奖励模型则对这些回复进行打分获得奖励。

(2) 优势估计:利用评论模型预测生成回复的未来累积奖励,并借助广义优势估计(Generalized Advantage Estimation,GAE)算法来估计优势函数,能够有助于更准确地评估每次行动的 好处。

(3) 优化调整:使用优势函数来优化和调整策略模型,同时利用参考模型确保更新的策略不会有 太大的变化,从而维持模型的稳定性。

三 总结

3.1Prompt-based Learning、Prompt tuning、Prompt engineering的区别

提示学习(Prompt-based Learning)

以下图为例包括三个步骤:提示添加、答案搜索、答案映射。

  • Prompt-based Learning是一种更广泛的概念,它涵盖了利用预训练语言模型处理各种下游任务的方法,而Prompt Tuning和Prompt Engineering则是这种方法的两种具体实现。
  • Prompt Tuning侧重于通过修改输入提示来引导模型生成符合特定任务或情境的输出,而无需对模型的全量参数进行微调。它更关注于提示的修改和模型输出的引导。
  • Prompt Engineering则更侧重于对输入文本的精心设计,包括选择适当的词汇、语法结构和上下文等,以生成能够引导模型产生期望输出的提示。它更关注于提示的优化和模型表现的提升。
  • Prompt-based Learning、Prompt Tuning和Prompt Engineering都旨在利用预训练语言模型处理各种下游任务,并通过优化输入端的提示来提高模型的准确性和效率。
  • 在实际应用中,Prompt Tuning和Prompt Engineering可以相互补充。通过Prompt Tuning对输入提示进行微调,可以进一步优化Prompt Engineering中设计的提示,从而提高模型的表现。

3.2提示工程,RAG和微调

提示工程(Prompt Engineering):构建文本,然后把它输入给large language model,得出我们想要的结果。

RAG(Retrieval Augmented Generation):拿到用户的question之后,先在我们的知识库中去检索和用户的query相关的内容,再基于这些检索的结果,用它来组织prompt,提示给大模型得出我们希望能够得到的那种高质量的准确的响应。

微调(Fine-tuning):它和前两个不同的地方在于,前面两种技术,不管是提示工程还是RAG,大模型本身是没有任何的变化的,但是如果做微调,其实是要去通过一个训练的过程来修改大模型它本身的参数。

参考说明

1.【大模型微调】一文掌握7种大模型微调的方法-CSDN博客

2.大模型学习路线(4)——大模型微调_p-tuning v2是全参微调吗-CSDN博客

3.五万字综述!Prompt-Tuning:深度解读一种新的微调范式 - 知乎 (zhihu.com)

4.【大模型开发 】 一文搞懂Fine-tuning(大模型微调)_finetuning大模型-CSDN博客

5. 《大规模语言模型从理论到实践》书第5、6章

6.大语言模型上下文窗口初探(上)-CSDN博客

7.五分钟弄清楚爆火的提示工程,RAG和微调-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2198208.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[paddle]paddleseg快速开始

快速开始 为了让大家快速了解PaddleSeg,本文档使用一个简单示例进行演示。在实际业务中,建议大家根据实际情况进行调整适配。 在开始下面示例之前,请大家确保已经安装好PaddleSeg开发环境(安装说明)。 1 准备数据 …

被AI坑的一天—CentOS7导入阿里云YUM源报错的 GPG密钥提示404

过于相信人工智能 配置YUM源根据AI的说法换阿里云的YUM源验证AI配置结果解决问题 配置YUM源 由于电脑受限制 , 不能访问境外网站,所以用不了centos自带的源 ,是报404的 根据AI的说法换阿里云的YUM源 编辑 /etc/yum.repos.d/CentOS-Base.repo ,更换为 配置完成后sudo yum …

nacos多数据源插件介绍以及使用

概述 在微服务架构中,服务配置的集中管理和动态调整是至关重要的。Nacos 提供了配置管理和服务发现的功能,其中配置管理支持动态数据源的切换,增强了其在复杂环境中的适用性。默认情况下,Nacos 支持 MySQL 和Derby,但…

C++——AVL树的模拟实现

目录 一、AVL树结点 二、AVL树结构 三、插入数据(重点) 1、右单旋 2、左单旋 3、左右双旋 4、右左双旋 AVL树是一颗平衡二叉搜索树,它的本质就是一颗之前说过的二叉搜索树。但是二叉搜索树可能会出现极端情况,导致二叉搜索树变…

不同时期的USB接口

Type-A Type-A接口最早于USB1.0标准(1996)推出,拥有四个引脚:VBUS提供5V电源,D-和D用于数据传输,GND接地。 Type-B Type-B接口最早于USB1.0标准(1996)推出,拥有四个引脚:VBUS提供5V电源,D-和D用…

QD1-P7 HTML常用标签:div和span

本节学习&#xff1a;div 和 span 标签。 本节视频 www.bilibili.com/video/BV1n64y1U7oj?p7 ‍ 一、div 标签 用途 ​<div>​ 标签在 HTML 中是一个通用 容器 &#xff0c;用于将 HTML 文档中的内容分组并在文档中划分区域。<div> ​元素本身不具有特定的含…

道路积水检测数据集 1450张 路面积水 带分割 voc yolo

道路积水检测数据集 1450张 路面积水 带分割 voc yolo 分类名: (图片张数&#xff0c; 标注个数) puddle:(1468,1994) 总数:(1468&#xff0c;1994) 总类(nc): 1类 道路积水检测数据集介绍 项目名称 道路积水检测数据集 项目概述 本数据集包含1450张带有标注的图像&#x…

【ubuntu】ubuntu20.04安装cuda12.6与显卡驱动

目录 1.安装cuda12.6 2.安装显卡驱动 1.安装cuda12.6 https://developer.nvidia.com/cuda-toolkit-archive https://developer.nvidia.com/cuda-12-6-0-download-archive?target_osLinux&target_archx86_64&DistributionUbuntu&target_version20.04&target_…

记一次 stm32f407 无法进入 standby 问题

记一次 stm32f407 无法进入 standby 问题 通过查看当前中断信息,发现是 systick 中断pending未处理导致进入standby 模式的 WFI 失败,所以需要在执行 WFI 之前清除 systick 中断pending标志. 查看<Cortex M3与M4权威指南>如下: 可知ICSR寄存器的bit 26表示systick中断是…

RadioGroup RadioButton底部导航栏

参考: https://blog.csdn.net/lu202032/article/details/117632709 activity_home.xml <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://sch…

八大排序--07归并排序

假设数组 arr[] {5,7,4,2,0,1,6},请通过插入排序的方式&#xff0c;实现从小到大排列&#xff1a; 方法&#xff1a;先拆分&#xff0c;再合并&#xff0c;并在合并过程中结束临时空间进行排序&#xff1b; 拆分&#xff1a;从待排序列中间位置拆开&#xff0c;数据分成左右两…

windows C++-创建图像处理的异步消息(二)

创建图像处理网络 此部分介绍如何创建对给定目录中的每个 JPEG (.jpg) 图像执行图像处理的异步消息块网络。 网络执行以下图像处理操作&#xff1a; 对于 Tom 创作的任何图像&#xff0c;转换为灰度。 对于任何以红色作为主色的图像&#xff0c;移除绿色和蓝色分量&#xff0…

MCU 移值FreeRTOS:【图文+源代码】

1&#xff1a;裸机程序执行 在裸机程序中&#xff0c;对于简单的方式&#xff0c;经常采用查询方式&#xff0c;即一件事完成后&#xff0c;再去完成另一件事&#xff0c;按照顺序执行&#xff0c;这种执行导致当有紧急情况时&#xff0c;可能会得不到处理。对于更复杂的程序&…

pymupdf 解析 PDF

使用大模型处理文档时&#xff0c;需要对二进制格式的文档进转解析提取文字和图片&#xff0c;本文使用 pymupdf 开源库&#xff0c;对 PDF 进行解析提取文字和图片。 安装依赖 首先安装 pymupdf 依赖 pymupdf4llm0.0.17 pymupdf1.24.10 apscheduler3.10.4PDF 转 Markdown …

MyBatis-Plus 之 typeHandler 的使用

一、typeHandler 的使用 1、存储json格式字段 如果字段需要存储为json格式&#xff0c;可以使用JacksonTypeHandler处理器。使用方式非常简单&#xff0c;如下所示&#xff1a; 在domain实体类里面要加上&#xff0c;两个注解 TableName(autoResultMap true) 表示自动…

等级保护等保资料原件合集(word源资料)

第二章 系统定级与安全域 2.1 系统定级 2.1.1 不同等级的安全保护能力 2.1.2 重要信息系统 2.1.3 定级参考 2.2 安全域定义 2.2.1 安全域定义方法 2.2.2 安全域等级描述 第三章 实施方案设计 3.1 三级等保要求 3.2 基本要求的详细技术要求 3.2.1 物理安全 3.2.2 网…

非线性关卡设计

【GDC】如何设计完全非线性的单人关卡_DOOM (bilibili.com) 本文章算是此视频的简单笔记&#xff0c;更详细还请看视频 设计完全非线性关卡强调自由移动和沙盒式玩法&#xff0c;鼓励玩家进行不可预测的移动和空间探索。讲解者分享了设计此类关卡的具体步骤&#xff0c;包括明…

element ui 使用

文章目录 element ui1.组件内部传值使用说明&#xff1a;当我们在app组件中使用movie组件&#xff0c;我们希望movie组件的内容是由app组件来定义&#xff0c;就可以使用prop关键字1.在app组件中导入movie组件并且使用2.在movie中写死数据测试3.使用date测试4.使用props 2.elem…

排序--DS

1. 排序 所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。 #稳定性&#xff1a; 假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&#xff0c;若经过排序&#xff0c;这些记录…

CentOS 7 yum命令报错...

例如 yum install wget 可以看到是报错的 解决方案 对系统本身的 yum 源进行备份 进入源目录 cd /etc/yum.repos.d/备份 sudo cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup下载阿里云 CentOS 7 镜像源配置文件 sudo curl -o /etc/yum…