【NLP笔记】大模型微调方法概述

news2024/11/28 6:28:56

对于一些生成式场景而言,没有固定的回答结果,采用AI Agent的增强范式,可以极大地提升模型生成的效果。但是对于有固定格式、输出目标的场景而言,仅从prompt优化的角度出发很难突破瓶颈,需要通过微调来提升效果(如:分类模型);

微调方法汇总

微调的目标是提升在特定任务上的效果,因此需要搜集特定领域样本数据,然后选择合适的方法进行微调。那么选择哪种方式来更新模型参数,也是十分重要的一环,模型参数的更新大致可分为以下几种:

微调方法描述特点代表方法
全参数调整算不上真正意义上的微调,在预训练模型基础上进行全量参数调整需要有大量的样本和计算资源做支撑,成本较高预训练模型均可进行全量参数优化,无特殊技巧
引入强化学习引入奖励模型(RM),是用一对(prompt,response)和一个奖励分数来训练一个模型,在给定输入上输出分数是机器学习中一个非常常见的任务,可以将其看作是分类或回归任务。该模型为每一个文本输入到文本输出的结果打分,来评估模型的性能。依赖于奖励模型人工标注的质量,成本较高RLHF
部分参数调整大部分是冻结模型前面的参数层,仅调整后面几层的参数保持模型的部分知识(如低级特征提取)不变,基于此进行微调,在大部分任务上效果不如LoRa、Adapter等方式BitFit
增加Adapter在原始预训练模型基础上,额外增加几层Adapter,对新增的Adapter进行参数调整会增加额外的计算成本和参数量,使得推理时间变长Adapter Tuning及其变体
增加前缀Token在模型输入或隐藏层增加可学习的前缀Token,只训练前缀参数,相当于为不同任务训练不同的自适应prompt为前缀保留部分序列长度会导致处理下游任务的序列长度减少Prefix Tuning、Prompt Tuning、P-Tuning、P-Tuning v2
重构简化参数通过学习小参数的低秩矩阵近似模拟模型权重矩阵的参数更新,微调时仅训练低秩矩阵的参数思路巧妙,结构简单效果好,适配性强LoRA、AdaLoRA、QLoRA
混合调整在Adapter、Prefix Tuning和LoRA等方法间建立联系的联合微调方法结合各种微调提升技术的优点,集成的高效微调方式MAM Adapter、UniPELT

微调主要方法发展进程:
在这里插入图片描述
在这里插入图片描述

上述微调技术现在已经封装至现有的微调框架,主流的微调框架有:

  • DeepSpeed Chat : 微软开源,提供了一键式RLHF训练框架,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了DeepSpeed HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。;
  • PEFT:PEFT 是 Huggingface 开源的一个参数高效微调库,它提供了最新的参数高效微调技术,并且可以与 Transformers 和 Accelerate 进行无缝集成;

其中PEFT使用较为广泛,微调优化算法中LoRA的应用较为广泛,因为能在少量(1000左右)数据集的基础上调整少量参数,就能够较好地适配目标场景;

资料汇总

上述方法相关资料汇总,有时间可以学习下原文:

方法时间&机构论文链接代码链接
RLHF2023微软DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All ScalesDeepSpeed-Chat
BitFit2022巴伊兰大学BitFit: BitFit: Simple Parameter-efficient Fine-tuning or Transformer-based Masked Language-modelsBitFit
Adapter Tuning2019谷歌Parameter-Efficient Transfer Learning for NLPadapter-bert
Prefix-Tuning2021斯坦福大学Prefix-Tuning: Optimizing Continuous Prompts for GenerationPrefixTuning
Prompt Tuning2021谷歌The Power of Scale for Parameter-Efficient Prompt Tuningprompttunning
P-tuning2021清华GPT Understands, TooP-tuning
P-tuning v22022清华P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and TasksP-tuning-v2
LoRA2021微软LoRA: Low-Rank Adaption of Large Language ModelsLoRA
AdaLoRA2023微软Adaptive Budget Allocation for Parameter-Efficient Fine-TuningAdaLoRA
QLoRA2023华盛顿大学QLORA: Efficient Finetuning of Quantized LLMsqlora
MAM Adapter2022卡内基梅隆&南加利福利亚大学Towards A Unifined View of Parameter-Efficient Transfer Learningunify-parameter-efficient-tuning
UniPELT2022伊利诺伊大学&MetaUNIPELT: A Unified Framework for Parameter-Efficient Language Model TuningUniPELT

参考:

  • 微调入门篇:大模型微调的理论学习
  • 利用RLHF优化大模型:提升性能与应用能力
  • 大模型参数高效微调技术原理综述(六)-MAM Adapter、UniPELT
  • llm-action:超全大模型微调实战教程
  • 大模型的领域适配 —— Parameter-Efficient Fine-Tuning (PEFT)
  • LoRA(Low-Rank Adaptation)详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1587069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

背 单 词 (考研词汇闪过)

单词: 买考研词汇闪过 研究艾宾浩斯遗忘曲线 https://www.bilibili.com/video/BV18Y4y1h7YR/?spm_id_from333.337.search-card.all.click&vd_source5cbefe6dd70d6d84830a5891ceab2bf9 单词方法 闪记背两排(5min)重复一遍(2mi…

vue中预览docx、xlsx、pptx、pdf

前言:其实本来是要做全类型文件预览的,但是一直找不到合适的doc,xlx,ppt预览插件。要是有可以使用的,可以评论推荐给我 我使用的node版本:v18.19.1 参考官网:preview 文件预览 | ran 引入方式: //安装组…

Flask快速搭建文件上传服务与接口

说明:仅供学习使用,请勿用于非法用途,若有侵权,请联系博主删除 作者:zhu6201976 一、需求背景 前端通过浏览器,访问后端服务器地址,将目标文件进行上传。 访问地址:http://127.0.0…

✔ ★Java项目——设计一个消息队列(二)

Java项目——设计一个消息队列 四. 项⽬创建五. 创建核⼼类创建 Exchange(名字、类型、持久化)创建 MSGQueue(名字、持久化、独占标识)创建 Binding(交换机名字、队列名字、bindingKey用于与routingKey匹配&#xff09…

前端docker jenkins nginx CI/CD持续集成持续部署-实战

最近用go react ts开发了一个todolist后端基本开发完了,前端采用CI/CD方式去部署。 步骤总结 先安装docker 和 docker-compose。安装jenkins镜像,跑容器的时候要配好数据卷。配置gitee或github(我这里使用gitee)在服务器上一定要创建好dokcer的数据卷,以便持久保存jenkin…

【MySQL】锁篇

SueWakeup 个人主页:SueWakeup 系列专栏:学习技术栈 个性签名:保留赤子之心也许是种幸运吧 本文封面由 凯楠📸友情提供 目录 本系列专栏 1. MySQ 中的锁 2. 表锁和行锁 表锁 行锁 3. InnoDB 存储引擎的三种行级锁 4. 悲观锁…

怎么开发一个预约小程序_一键预约新体验

预约小程序,让生活更便捷——轻松掌握未来,一键预约新体验 在快节奏的现代生活中,我们总是在不断地奔波,为了工作、为了生活,不停地忙碌着。然而,在这繁忙的生活中,我们是否曾想过如何更加高效…

探探各个微前端框架

本文作者为 360 奇舞团前端开发工程师 微前端架构是为了在解决单体应用在一个相对长的时间跨度下,由于参与的人员、团队的增多、变迁,从一个普通应用演变成一个巨石应用(Frontend Monolith)后,随之而来的应用不可维护的问题。这类问题在企业级…

点击按钮(文字)调起elementUI大图预览

时隔一年,我又回来了 ~ 最近在做后台,遇到一个需求,就是点击“查看详情”按钮,调起elementUI的大图预览功能,预览多张图片,如下图: 首先想到的是使用element-ui的el-image组件,但它是…

Towards Geolocation of Millions of IP Addresses(2012年)

下载地址: Towards geolocation of millions of IP addresses | Proceedings of the 2012 Internet Measurement Conference 被引用次数:70 Hu Z, Heidemann J, Pradkin Y. Towards geolocation of millions of IP addresses[C]//Proceedings of the 2012 Internet Measure…

利用Python实现可视化交互界面:Dash

Dash是一个低代码数据框架,用Python实现可视化交互界面,不用写Javascript,开源,支持回调、HTML组件等功能。 安装 pip install dash使用 # Import packages from dash import Dash, html, dash_table, dcc, callback, Output, …

[BT]BUUCTF刷题第14天(4.10)

第14天&#xff08;共5题&#xff09; Web [BJDCTF2020]ZJCTF&#xff0c;不过如此 打开网站直接显示源代码&#xff1a; <?php error_reporting(0); //关闭报错 $text $_GET["text"]; $file $_GET["file"]; if(isset($text)&&(file…

C#如何用NPOI创建、读取、更新Excel文件

一.获取引用NPOI VS2017&#xff0c;通过Nuget工具包下载NPOI到指定的项目中&#xff0c;如下 二.添加如下命名空间,其中HSSF是操作*.xls文件&#xff0c;XSSF操作*.xlsx文件. using NPOI; using NPOI.SS.UserModel; using NPOI.XSSF.UserModel; using NPOI.HSSF.UserModel; …

Debian 安装 Docker

Debian 安装 Docker。 这是官方安装文档 Install Docker Engine on Debian | Docker DocsLearn how to install Docker Engine on Debian. These instructions cover the different installation methods, how to uninstall, and next steps.https://docs.docker.com/engine/i…

如何将普通maven项目转为maven-web项目

文件-项目结构&#xff08;File-->Project Structure &#xff09; 模块-->learn&#xff08;moudle-->learn&#xff09; 选中需要添加web的moudle&#xff0c;点击加号&#xff0c;我得是learn&#xff0c;单击选中后进行下如图操作&#xff1a; 编辑路径 结果如下…

【网站项目】英语学习激励系统小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

神经网络背后的数学原理

原文地址&#xff1a;The Math Behind Neural Networks 2024 年 3 月 29 日 深入研究现代人工智能的支柱——神经网络&#xff0c;了解其数学原理&#xff0c;从头开始实现它&#xff0c;并探索其应用。 神经网络是人工智能 &#xff08;AI&#xff09; 的核心&#xff0c;为…

性能优化“万金油”:缓存Cache

1、首次请求数据时,先从缓存中获取,如果没有,则继续向数据库中获取。获取到数据后,将数据保存到缓存中。再次请求数据,一样先从缓存中获取,成功获取,“缓存命中”。多次请求中,命中次数占全部请求次数的比例,叫“命中率”。如果数据源的数据发生变化,而缓存中的数据没…

【RV1106的ISP使用记录之一】基础环境搭建

公司缺少ISP工程师&#xff0c;做为图像算法工程师的我这就不就给顶上来了么&#xff0c;也没给发两份工资&#xff0c;唉~ 先写个标题&#xff0c;占一个新坑&#xff0c;记录RK平台的传统ISP工作。 一、基础环境的硬件包括三部分&#xff1a; 1、相机环境&#xff0c;用于采…

3D开发工具HOOPS:推动汽车行业CAD可视化发展

在最近的行业对话中&#xff0c;Tech Soft 3D&#xff08;HOOPS厂商&#xff09;的Jonathan Girroir和Actify的Peter West探讨了CAD可视化在当代企业中的重要性和挑战。作为CAD可视化领域的佼佼者&#xff0c;Actify通过其广受欢迎的Spinfire应用&#xff0c;赋能了全球40多个国…