大语言模型的微调方法_大语言模型六种微调方法,零基础入门到精通,收藏这一篇就够了

news2024/10/5 11:27:10

01

引言

自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。

02

Adapter Tuning

Adapter Tuning[1]是一种经典的PEFT技术,在2019年由谷歌的研究人员提出,也由此拉开了PEFT研究的序幕。

研究人员发现在面对下游任务微调BERT时,如果进行全量微调,效率较低,而如果固定预训练模型的大部份参数,只对为下游任务添加的几层参数进行微调时,效果较差。

因此,他们设计了Adapter结构(下图右),并将其集成在Transformer中(下图左)。在微调阶段,只对Adapter中的参数进行调整,固定所有其他参数。

Adapter模块包含一个down-project层(即将高维特征映射为低维特征)、非线性层和up-project层(即将低维特征映射回高维特征)。同时包含skip-connection结构,与残差类似。

Adapter的效果如下图所示,其能够在只增加并训练BERT-large的3.6%的参数的情况下,在GLUE基准达到80.0的总分(BERT-large全量微调的得分为80.4)

03

Prefix Tuning与Prompt Tuning

2021年,斯坦福大学的研究人员提出了Prefix Tuning[2]。该方法的主要做法是在输入 token 之前构造一段与任务相关的前缀token(即Prefix),在训练时只更新Prefix部份参数,固定模型中其他参数,如下图所示。

直接更新Prefix会导致训练过程不稳定,因此研究人员在Prefix前加上一个MLP结构,将一个含有较少参数的矩阵P’转化为Prefix,训练时更新P’与MLP的参数,在训练完成后删除这些参数,只保留并存储不同任务的Prefix,而模型其他参数由不同任务共享。

下图是将表格转化为文本的任务中,在不同训练数据量上Prefix tuning与全量微调的对比。可以看到在使用20%-80%数据量时,Prefix tuning的效果要好于全量微调。

这种方法与现在常用的Prompt类似,但是是由模型自动对Prompt进行隐式编码,而不是人为构造显式的Prompt。

2021年,谷歌的研究团队也提出了Prompt Tuning方法[3]。与现在我们所熟知的Prompt不同,这个方法可以看作是另一种Prefix Tuning,在输入层加入prompt token并与原输入拼接,并没有额外加入MLP,如下图所示。

作者对T5模型进行了实验,并且发现随着预训练模型参数量增大,Prompt tuning的效果会越来越接近全量微调,如下图所示。

04

LoRA

Adapter Tuning与Prefix Tuning各有一定优势,但也有一定的缺点。Adapter Tuning中添加的adapter模块会带来额外的计算量,而Prefix Tuning的前缀长度会影响到下游任务可输入的序列长度,且有一定优化问题,其性能随参数规模变化情况并不一定是单调递增的。

LoRA[4]被发表在ICLR 2022上,它的核心思想是通过低秩分解来表示模型的权重更新,并且只更新分解矩阵部分的参数。

为了便于理解,首先附上原论文的LoRA示意图,如下图所示。

图中,左侧蓝色矩形表示预训练权重矩阵,右侧表示其参数更新过程的低秩分解,先通过矩阵A将特征映射到低维(r一般为2/4/8/16),再通过矩阵B映射回原维度。训练时固定预训练矩阵,只更新A与B,再将预训练矩阵与A、B合并(BA的维度与W相同)。

LoRA假设模型的权重更新在微调过程中具有较低的“内在秩(intrinsic rank)”,对预训练的权重矩阵,用低秩分解来表示其更新:

将A初始化为均值为0的正态分布,B初始化为0,在训练过程中只训练A、B,固定预训练权重。

这种方法的优势在于:(1)只需更新A、B矩阵并与预训练权重合并,没有引入额外的结构导致推理延时;(2)大大降低显存消耗;(3)可灵活定制,即可对模型的任意一部份权重矩阵应用LoRA。

下图为WikiSQL数据集上GPT-3 175B的验证准确率与可训练参数量的关系,可以看到LoRA在相同可训练参数规模下表现比其他PEFT方法更好。

另外,论文作者也在18M的参数预算(如果使用FP16精度,大约35MB空间)下,将LoRA应用在GPT-3 175B中Transformer的不同注意力权重矩阵上并对比实验,如下表所示。

可以发现,将所有参数放入Wq或Wk会导致性能显著降低,同时调整Wq、Wv会产生更好的结果,这表明即秩较低,也能在更多矩阵中捕获更多信息。因此,在相同显存约束的情况下,采用更多权重矩阵、更小的维度结果可能会更好。

05

小结

本文介绍了Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA几种主要的PEFT方法,这些方法可以总结为以下几种思路:

1、在模型中增加少量参数,与原模型串行;

2、在输入层增加少量参数,并行输入模型;

3、在模型中的特定矩阵利用低秩分解增加少量参数矩阵,与原矩阵并行。

在大模型时代,对于一般的研究机构而言,要想在少量GPU上部署大模型,对PEFT的研究必不可少。目前HuggingFace已开源其PEFT库(https://huggingface.co/docs/peft/index),Prefix Tuning、LoRA等PEFT算法都可以通过它来调用,这将一定程度降低大模型的训练门槛,增加我们对大模型的研究效率。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2189781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

jQuery——文档的增删改

1、添加 / 替换元素 append(content):向当前匹配的所有元素内部的最后插入指定内容prepend(content):向当前匹配的所有元素内部的最前面插入指定内容before(content):…

一、机器学习算法与实践_06迭代法和KMeans、线性回归、逻辑回归算法笔记

0 迭代法 迭代法不仅是机器学习、深度学习的核心,也是整个人工智能领域的重要概念,其对于算法的设计和实现至关重要 0.1 适合场景 对于不能一次搞定的问题,将其分成多步来解决,逐步逼近解决方案 0.2 典型应用 KMeans 聚类算法…

开放式耳机哪个品牌好?适合运动的开放式蓝牙耳机分享

如今,开放式耳机的购买量呈现出持续上升的趋势,变得越来越多。而随着人们对音频设备需求的不断提升以及对舒适佩戴体验和自然聆听感受的日益追求,开放式耳机也以其独特的优势逐渐走进大众的视野,成为众多消费者的新宠。 在各大电…

中文llama3仿openai api实战

课程介绍 本次课属于【大模型本地部署应用】,基于Chinese-LLaMA-Alpaca-3(GitHub - ymcui/Chinese-LLaMA-Alpaca-3: 中文羊驼大模型三期项目 (Chinese Llama-3 LLMs) developed from Meta Llama 3)项目,介绍如何封装一个私有的兼容…

谷歌收录批量查询,谷歌收录批量查询的简单方法

谷歌收录批量查询是网站管理员和SEO优化人员常见的需求,以下提供几种简单且高效的批量查询方法: 一、使用Google Search Console(谷歌搜索控制台) 注册并验证网站: 首先,确保你已经在Google Search Conso…

常用正则匹配中国手机号码

正则表达式匹配中国的手机号码。 我可以提供一些匹配中国手机号码的常用正则表达式: 仅匹配11位数字的手机号码:^1[3456789]\d{9}$匹配以1开头的11位数字手机号码:^1\d{10}$更宽松的匹配规则,允许0开头的手机号码:^(?:0|86|+?86)?1[3-9]\d{9}$ 这些正则表达式可…

Java基础知识总结(超详细整理)

Java基础知识总结(超详细整理) Java语言的特点 1.面向对象 面向对象(OOP)就是Java语言的基础,也是Java语言的重要特性。面向对象的概念:生活中的一切事物都可以被称之为对象,生活中随处可见的事物就是一个对象&#…

CMSIS-RTOS V2封装层专题视频,一期视频将常用配置和用法梳理清楚,适用于RTX5和FreeRTOS(2024-09-28)

【前言】 本期视频就一个任务,通过ARM官方的CMSIS RTOS文档,将常用配置和用法给大家梳理清楚。 对于初次使用CMSIS-RTOS的用户来说,通过梳理官方文档,可以系统的了解各种用法,方便大家再进一步的自学或者应用&#x…

【人工智能深度学习应用】妙策API最佳实践

功能概述 在文章创作过程中,用户可以借助AI妙策来辅助创作。AI妙策主要集中在聚合热点话题榜和平台话题榜两个方面。 具体功能 话题分析 AI妙策中的话题分析可以作为创作的灵感来源,通过网页视角选题、热门视角选题、时效视角选题、新颖视角选题&…

网站建设中,如何处理多语言版本?

在全球化的今天,网站多语言版本的处理成为了一项基本要求,尤其是对于面向国际用户的企业来说。以下是一些关于网站建设中如何处理多语言版本问题的建议: 使用URL国际化:通过在URL中添加语言代码(如example.com/en/表示…

【文心智能体】猫咪用品购物指南搭建教程

前言 随着科技的飞速发展和人们生活水平的提高,越来越多的家庭开始养宠物,其中猫咪因其可爱、独立和温顺的性格而备受青睐。然而,面对市场上琳琅满目的猫咪用品,如何为自家的“喵星人”挑选最合适的商品,成为了许多宠…

vue3学习:axios输入城市名称查询该城市天气

说来惭愧,接触前端也有很长一段时间了,最近才学习axios与后端的交互。今天学习了一个查询城市天气的案例,只需输入城市名称,点击“查询”按钮便可以进行查询。运行效果如下: 案例只实现了基本的查询功能,没…

51单片机的金属探测器【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块金属检测传感器继电器LED、蜂鸣器等模块构成。适用于金属探测仪、检测金属、剔除金属等相似项目。 可实现功能: 1、LCD1602实时显示是否检测到金属 2、金属检测传感器(按键模拟)检测是否有…

利用 Python 爬虫采集 1688商品详情

1688是中国的一个大型B2B电子商务平台,主要用于批发和采购各种商品。对于需要从1688上获取商品详情数据、工程数据或店铺数据的用户来说,可以采用以下几种常见的方法: 官方API接口:如果1688提供了官方的API接口,那么可…

Java | Leetcode Java题解之第456题132模式

题目&#xff1a; 题解&#xff1a; class Solution {public boolean find132pattern(int[] nums) {int n nums.length;List<Integer> candidateI new ArrayList<Integer>();candidateI.add(nums[0]);List<Integer> candidateJ new ArrayList<Integer…

【华为HCIP实战课程四】OSPF邻居关系排错时间和区域问题,网络工程师

一、OSPF邻居关系排错 1、MA网络(默认的以太网、FR和ATM)要求掩码一致 2、相邻OSPF设备RID相同不能建立邻居-----上节已经详细演示说明 3、同一链路必须相同区域 4、Hello和死亡时间匹配 5、MTU检测 6、认证 7、Flag位的一致性 8、华为设备上网络类型不一致 二、同一…

红日靶场1学习笔记

一、准备工作 1、靶场搭建 靶场地址 靶场描述 靶场拓扑图 其他相关靶场搭建详情见靶场地址相关说明 2、靶场相关主机信息 后续打靶场的过程中&#xff0c;如果不是短时间内完成&#xff0c;可能ip会有变化 主机ip密码角色win7192.168.122.131hongrisec2019!边界服务器win…

华为OD机试 - 垃圾短信识别(Python/JS/C/C++ 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加入华为OD刷题交流群&#xff0c;…

8645 归并排序(非递归算法)

### 思路 非递归归并排序通过逐步合并相邻的子数组来实现排序。每次合并后输出当前排序结果。 ### 伪代码 1. 读取输入的待排序关键字个数n。 2. 读取n个待排序关键字并存储在数组中。 3. 对数组进行非递归归并排序&#xff1a; - 初始化子数组的大小curr_size为1。 - 逐…

手机使用技巧:8 个 Android 锁屏移除工具 [解锁 Android]

有时候&#xff0c;您会被锁定在自己的 Android 设备之外&#xff0c;而且似乎不可能重新进入。 一个例子就是你买了一部二手手机&#xff0c;后来发现无法使用。另一种情况是你忘记了屏幕锁定密码和用于验证密码的 Google 帐户凭据。这种情况很少见&#xff0c;但确实会发生&…