大语言模型的微调方法_大语言模型六种微调方法

news2025/2/25 20:23:55

01

引言

自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。

02

Adapter Tuning

Adapter Tuning[1]是一种经典的PEFT技术,在2019年由谷歌的研究人员提出,也由此拉开了PEFT研究的序幕。

研究人员发现在面对下游任务微调BERT时,如果进行全量微调,效率较低,而如果固定预训练模型的大部份参数,只对为下游任务添加的几层参数进行微调时,效果较差。

因此,他们设计了Adapter结构(下图右),并将其集成在Transformer中(下图左)。在微调阶段,只对Adapter中的参数进行调整,固定所有其他参数。

Adapter模块包含一个down-project层(即将高维特征映射为低维特征)、非线性层和up-project层(即将低维特征映射回高维特征)。同时包含skip-connection结构,与残差类似。

Adapter的效果如下图所示,其能够在只增加并训练BERT-large的3.6%的参数的情况下,在GLUE基准达到80.0的总分(BERT-large全量微调的得分为80.4)

03

Prefix Tuning与Prompt Tuning

2021年,斯坦福大学的研究人员提出了Prefix Tuning[2]。该方法的主要做法是在输入 token 之前构造一段与任务相关的前缀token(即Prefix),在训练时只更新Prefix部份参数,固定模型中其他参数,如下图所示。

直接更新Prefix会导致训练过程不稳定,因此研究人员在Prefix前加上一个MLP结构,将一个含有较少参数的矩阵P’转化为Prefix,训练时更新P’与MLP的参数,在训练完成后删除这些参数,只保留并存储不同任务的Prefix,而模型其他参数由不同任务共享。

下图是将表格转化为文本的任务中,在不同训练数据量上Prefix tuning与全量微调的对比。可以看到在使用20%-80%数据量时,Prefix tuning的效果要好于全量微调。

这种方法与现在常用的Prompt类似,但是是由模型自动对Prompt进行隐式编码,而不是人为构造显式的Prompt。

2021年,谷歌的研究团队也提出了Prompt Tuning方法[3]。与现在我们所熟知的Prompt不同,这个方法可以看作是另一种Prefix Tuning,在输入层加入prompt token并与原输入拼接,并没有额外加入MLP,如下图所示。

作者对T5模型进行了实验,并且发现随着预训练模型参数量增大,Prompt tuning的效果会越来越接近全量微调,如下图所示。

04

LoRA

Adapter Tuning与Prefix Tuning各有一定优势,但也有一定的缺点。Adapter Tuning中添加的adapter模块会带来额外的计算量,而Prefix Tuning的前缀长度会影响到下游任务可输入的序列长度,且有一定优化问题,其性能随参数规模变化情况并不一定是单调递增的。

LoRA[4]被发表在ICLR 2022上,它的核心思想是通过低秩分解来表示模型的权重更新,并且只更新分解矩阵部分的参数。

为了便于理解,首先附上原论文的LoRA示意图,如下图所示。

图中,左侧蓝色矩形表示预训练权重矩阵,右侧表示其参数更新过程的低秩分解,先通过矩阵A将特征映射到低维(r一般为2/4/8/16),再通过矩阵B映射回原维度。训练时固定预训练矩阵,只更新A与B,再将预训练矩阵与A、B合并(BA的维度与W相同)。

LoRA假设模型的权重更新在微调过程中具有较低的“内在秩(intrinsic rank)”,对预训练的权重矩阵,用低秩分解来表示其更新:

将A初始化为均值为0的正态分布,B初始化为0,在训练过程中只训练A、B,固定预训练权重。

这种方法的优势在于:(1)只需更新A、B矩阵并与预训练权重合并,没有引入额外的结构导致推理延时;(2)大大降低显存消耗;(3)可灵活定制,即可对模型的任意一部份权重矩阵应用LoRA。

下图为WikiSQL数据集上GPT-3 175B的验证准确率与可训练参数量的关系,可以看到LoRA在相同可训练参数规模下表现比其他PEFT方法更好。

另外,论文作者也在18M的参数预算(如果使用FP16精度,大约35MB空间)下,将LoRA应用在GPT-3 175B中Transformer的不同注意力权重矩阵上并对比实验,如下表所示。

可以发现,将所有参数放入Wq或Wk会导致性能显著降低,同时调整Wq、Wv会产生更好的结果,这表明即秩较低,也能在更多矩阵中捕获更多信息。因此,在相同显存约束的情况下,采用更多权重矩阵、更小的维度结果可能会更好。

05

小结

本文介绍了Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA几种主要的PEFT方法,这些方法可以总结为以下几种思路:

1、在模型中增加少量参数,与原模型串行;

2、在输入层增加少量参数,并行输入模型;

3、在模型中的特定矩阵利用低秩分解增加少量参数矩阵,与原矩阵并行。

在大模型时代,对于一般的研究机构而言,要想在少量GPU上部署大模型,对PEFT的研究必不可少。目前HuggingFace已开源其PEFT库(https://huggingface.co/docs/peft/index),Prefix Tuning、LoRA等PEFT算法都可以通过它来调用,这将一定程度降低大模型的训练门槛,增加我们对大模型的研究效率。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RPM命令和YUM命令

目录 一、RPM软件包 1.1、RPM概述 1.2、查询已安装的rpm软件信息 1.3、查询未安装的 RPM 软件包文件中信息 1.4、安装、升级、卸载 RPM 软件包 二、YUM常规命令 三、手动配置Apache(http)服务 3.1、前提条件 3.2、开始配置 3.3、开启验证服务 …

YOLOv10改进 | 注意力篇 | YOLOv10引入iRMB

1. iRMB介绍 1.1 摘要:本文重点关注开发现代、高效、轻量级的模型来进行密集预测,同时权衡参数、FLOP 和性能。 反向残差块(IRB)作为轻量级 CNN 的基础设施,但基于注意力的研究尚未认识到对应的部分。 这项工作从统一的角度重新思考高效IRB和Transformer有效组件的轻量级…

更换域名流程记录

华为云的服务器,阿里云购买的域名。 1.购买域名 2.在域名服务商绑定服务器ip(以阿里云为例) 控制台->域名控制台->域名列表->点击域名->域名解析->添加记录 记录类型填A , 主机记录“”或“www”,记录值填服务器i…

自养号测评助亚马逊、速卖通店铺快速提升商品流量与转化率?

在全球化的浪潮下,跨境电商行业如日中天,速卖通作为行业的领军者,汇聚了世界各地的消费者与商家。要想在速卖通平台上成功打造爆款产品,我们需从多个维度出发,精心策划与实施。 一、产品选择的艺术 在速卖通上&#…

Go web框架|Beego、Gin、Echo、Iris等干货教程

Go 是一门正在快速增长的编程语言,专为构建简单、快速且可靠的软件而设计。golang提供的net/http库已经很好了,对于http的协议的实现非常好,基于此再造框架,也不会是难事,因此生态中出现了很多框架。 本篇文章主要介绍…

平安养老险浙江分公司开展防范非法集资宣传,守护群众“钱袋子”

为进一步提高群众对非法集资的防范意识的鉴别能力,近期,平安养老保险股份有限(以下简称“平安养老险”)浙江分公司以“守住钱袋子、护好幸福家”为宣传主题,深入居民社区、办公职场等公共场所开展的宣传活动。 平安养老…

微信小程序轮播图

效果图 详情可见 微信小程序 参照&#xff1a;swiper | uni-app官网 代码&#xff1a; <!--轮播图-- > <swiper interval"2000" autoplay"true" circular"true" style"height: 300px;"><swiper-item style&qu…

Nacos 2.x 系列【15】数据源插件支持达梦、Oracel、PostgreSQL......

文章目录 1. 概述2. 持久层机制2.1 固定语句2.2 数据源插件 3. 案例演示3.1 编译已实现插件3.2 自定义插件3.3 数据库初始化3.4 插件引入3.4.1 方式一&#xff1a;引入到源码3.4.2 方式二&#xff1a;插件加载目录 3.5 修改配置3.6 测试 1. 概述 在实际项目开发中&#xff0c;…

【尚庭公寓SpringBoot + Vue 项目实战】移动端项目初始化(十九)

【尚庭公寓SpringBoot Vue 项目实战】移动端项目初始化&#xff08;十九&#xff09; 文章目录 【尚庭公寓SpringBoot Vue 项目实战】移动端项目初始化&#xff08;十九&#xff09;1、 SpringBoot配置2、Mybatis-Plus配置3、Knife4j配置4、导入基础代码5、导入接口定义代码6…

ElementPlus组件与图标按需自动引入

按需自动引入组件 1. 安装ElementPlus和自动导入ElementPlus组件的插件 pnpm install element-plus pnpm install -D unplugin-vue-components unplugin-auto-import 2. vite.config.ts进行修改 import { defineConfig } from vite import vue from vitejs/plugin-vue // …

从boost库到时间戳

一、以问题引入 授权证书一般有到期时间的说法&#xff0c;公司测试同事在测试更新后的证书时&#xff0c;将系统时间调到了2050年&#xff0c;重启服务后发现各个进程的cpu占用率特别高&#xff1b;结合日志分析&#xff0c;发现这些进程 都在不停的刷heartbeat()的日志&#…

正版 navicat 下载

1. 打开浏览器访问 navicat 官网 Navicat | 下载 Navicat Premium 14 天免费 Windows、macOS 和 Linux 的试用版 windows 用户选择这三项其中一个就可以 2. 下载 点击之后等个几秒钟就会开始下载了 3. 双击打开 下载好的 .exe 程序 进入安装程序 (不影响之前已经安装过的) 可…

12.2 Go 编写测试代码

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

web3技术的特点

Web1、Web2和Web3是互联网发展的三個阶段&#xff0c;它们在架构、数据所有权、应用模式等方面都有着本质的区别。需要注意的是&#xff0c;Web3 仍处于早期发展阶段&#xff0c;其技术和应用场景还在不断探索和完善。Web3 的最终形态和影响还有待观察。北京木奇移动技术有限公…

排序1---插入排序

目录 插入排序的基本思路&#xff1a; 插入排序的代码实现&#xff1a; 代码&#xff1a; 代码解读&#xff1a; 插入排序的时间、空间复杂度&#xff1a; 插入排序的基本思路&#xff1a; 插入排序是一个比较简单的排序。 我们插入排序就是我们先假设前面的一段区间有序…

【每天学会一个渗透测试工具】AWVS安装及使用指南

&#x1f31d;博客主页&#xff1a;泥菩萨 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 ✨AWVS介绍 是应用漏洞扫描工具 &#x1f4a6;使用docker安装 docker pull dockermi3aka/awvs启动镜像 docker run -dit …

期货分仓软件的搭建流程

期货分仓软件的搭建流程&#xff0c;是一个涉及多个环节的复杂过程。首先&#xff0c;明确功能需求是至关重要的&#xff0c;这有助于更好地规划软件的开发和设计。接下来&#xff0c;技术选型是关键一步&#xff0c;需要根据开发经验和项目需求&#xff0c;选择适合的编程语言…

webpack处理样式资源04--webpack入门学习

处理样式资源 本章节学习使用 Webpack 如何处理 Css、Less、Sass、Scss、Styl 样式资源 介绍 Webpack 本身是不能识别样式资源的&#xff0c;所以我们需要借助 Loader 来帮助 Webpack 解析样式资源 我们找 Loader 都应该去官方文档中找到对应的 Loader&#xff0c;然后使用…

C# WPF入门学习主线篇(二十二)—— 样式(Styles)的定义和应用

C# WPF入门学习主线篇&#xff08;二十二&#xff09;—— 样式&#xff08;Styles&#xff09;的定义和应用 欢迎来到C# WPF入门学习系列的第二十二篇。本篇文章将详细介绍WPF中的样式&#xff08;Styles&#xff09;的定义和应用。样式在WPF中起到重要作用&#xff0c;通过样…

Hallo技术:革新电影、游戏与虚拟现实中的动态肖像动画

在数字娱乐的浪潮中&#xff0c;逼真的动态肖像动画成为了电影制作、游戏开发和虚拟现实等领域不可或缺的一部分。复旦大学研发的Hallo技术&#xff0c;以其独特的扩散模型和分层音频驱动视觉合成模块&#xff0c;为这一领域带来了革命性的突破。 技术概览 Hallo技术是一种基…