大模型开发 - 一文搞懂Fine-tuning(大模型微调)

news2024/9/29 12:50:15

本文将从Fine-tuning的本质、Fine-tuning的原理Fine-tuning的应用三个方面,带您一文搞懂大模型微调:Fine-tuning

图片

Fine-tuning(微调):通过特定领域数据对预训练模型进行针对性优化,以提升其在特定任务上的性能。

  • 一、微调的定义

    大模型微调是利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。

  • 二、微调的核心原因

    定制化功能:微调的核心原因是赋予大模型更加定制化的功能。通用大模型虽然强大,但在特定领域可能表现不佳。通过微调,可以使模型更好地适应特定领域的需求和特征。

    领域知识学习:通过引入特定领域的数据集进行微调,大模型可以学习该领域的知识和语言模式。这有助于模型在特定任务上取得更好的性能。

  • 三、微调与超参数优化

    微调过程中,超参数的调整至关重要。超参数如学习率、批次大小和训练轮次等需要根据特定任务和数据集进行调整,以确保模型在训练过程中的有效性和性能。

图片

******************ChatGPT 大模型微调********************

**Hugging Face:***********一个提供丰富预训练模型和工具的领先平台,助力自然语言处理(NLP)任务的快速开发与部署。*******

  • 一、公司介绍

  • Hugging Face 是一家专注于自然语言处理(NLP)模型训练和部署的平台公司。

  • 二、平台特点

  • 提供多种 NLP 任务的模型库,如语言翻译、文本生成和问答。

  • 提供了在特定数据集上微调预训练模型的工具。

  • 提供了访问和利用应用程序中预训练模型的 API。

  • 提供了构建定制模型并将其部署到云端的工具。

  • 三、使用优势

    模型多样性:提供大量预训练的 NLP 模型,满足不同任务需求。

  • 跨平台兼容性:与 TensorFlow、PyTorch 和 Keras 等主流深度学习框架兼容。

  • 微调便捷性:提供微调工具,节省从头开始训练模型的时间和精力。

  • 社区支持:拥有庞大且活跃的用户社区,提供互助和支持。

  • 文档丰富:提供大量文档,便于用户学习和有效使用平台。

图片

HuggingFace

二、Fine-tuning的原理

大模型微调的步骤:*在选定相关数据集和预训练模型的基础上,通过设置合适的超参数并对模型进行必要的调整,使用特定任务的数据对模型进行训练以优化其性能。*

*大模型微调***包含以下四个核心步骤:****

  • 数据准备

    • 选择与任务相关的数据集。
    • 对数据进行预处理,包括清洗、分词、编码等。
  • 选择基础模型

    • 选择一个预训练好的大语言模型,如BERT、GPT-3等。
  • 设置微调参数

    • 设定学习率、训练轮次(epochs)、批处理大小(batch size)等超参数。
    • 根据需要设定其他超参数,如权重衰减、梯度剪切等。
  • 微调流程

    • 加载预训练的模型和权重。
    • 根据任务需求对模型进行必要的修改,如更改输出层。
    • 选择合适的损失函数和优化器。
    • 使用选定的数据集进行微调训练,包括前向传播、损失计算、反向传播和权重更新。

图片

*大模型微调***流程****

******************RLHF(Reinforcement Learning from Human Feedback):***********************一种利用人类反馈作为奖励信号来训练强化学习模型的方法,旨在提升模型生成文本等内容的质量,使其更符合人类偏好。***

******************强化学习(Reinforcement Learning)结合人类反馈(Human Feedback)来微调大语言模型(Large Language Models)的一般过程:********************

  • 一、使用监督数据微调语言模型

    • 这一步与传统的fine-tuning类似,即使用标注过的数据来调整预训练模型的参数,使其更好地适应特定任务或领域。

图片

********************微调语言模型**********************

  • 二、训练奖励模型

    • 奖励模型用于评估文本序列的质量,它接受一个文本作为输入,并输出一个数值,表示该文本符合人类偏好的程度。
    • 训练数据通常由多个语言模型生成的文本序列组成,这些序列经过人工评估或使用其他模型(如ChatGPT)进行打分。
    • 这个奖励信号在后续的强化学习训练中至关重要,因为它指导模型生成更符合人类期望的文本。

图片

********************训练奖励模型**********************

  • 三、训练RL模型

    • 在强化学习框架中,需要定义状态空间、动作空间、策略函数和价值函数。
    • 状态空间是输入序列的分布,动作空间是所有可能的token(即词汇表中的词)。
    • 价值函数结合了奖励模型的输出和策略约束,用于评估在给定状态下采取特定动作的价值。
    • 策略函数就是经过微调的大型语言模型,它根据当前状态选择下一个动作(token),以最大化累计奖励。

图片

********************训练RL模型**********************

***三、

大模型微调的方式**:可通过全量调整所有参数以充分适应新任务,或采用参数高效微调技术仅优化部分参数以实现快速且低成本的迁移学习。**

一、*全量微调(Full Fine-Tuning)*

全量微调利用特定任务数据调整预训练模型的所有参数,以充分适应新任务。它依赖大规模计算资源,但能有效利用预训练模型的通用特征。

二、*参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)*

PEFT旨在通过最小化微调参数数量和计算复杂度,实现高效的迁移学习。它仅更新模型中的部分参数,显著降低训练时间和成本,适用于计算资源有限的情况。PEFT技术包括Prefix Tuning、Prompt Tuning、Adapter Tuning等多种方法,可根据任务和模型需求灵活选择。

  1. Prefix Tuning

    • 方法:在输入前添加可学习的virtual tokens作为Prefix。
    • 特点:仅更新Prefix参数,Transformer其他部分固定。
    • 优点:减少需要更新的参数数量,提高训练效率。
  2. Prompt Tuning

    • 方法:在输入层加入prompt tokens。
    • 特点:简化版的Prefix Tuning,无需MLP调整。
    • 优点:随着模型规模增大,效果接近full fine-tuning。
  3. P-Tuning

    • 方法:将Prompt转换为可学习的Embedding层,并用MLP+LSTM处理。
    • 特点:解决Prompt构造对下游任务效果的影响。
    • 优点:提供更大的灵活性和更强的表示能力。
  4. P-Tuning v2

    • 方法:在多层加入Prompt tokens。
    • 特点:增加可学习参数数量,对模型预测产生更直接影响。
    • 优点:在不同任务和模型规模上实现更好的性能。
  5. Adapter Tuning

    • 方法:设计Adapter结构并嵌入Transformer中。
    • 特点:仅对新增的Adapter结构进行微调,原模型参数固定。
    • 优点:保持高效性的同时引入少量额外参数。
  6. LoRA

    • 方法:在矩阵相乘模块中引入低秩矩阵来模拟full fine-tuning。
    • 特点:更新语言模型中的关键低秩维度。
    • 优点:实现高效的参数调整,降低计算复杂度。

**![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D'1.0'%20encoding%3D'UTF-8'%253F%253E%253Csvg%20width%3D'1px'%20height%3D'1px'%20viewBox%3D'0%200%201%201'%20version%3D'1.1'%20xmlns%3D'http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg'%20xmlns%3Axlink%3D'http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink'%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D'none'%20stroke-width%3D'1'%20fill%3D'none'%20fill-rule%3D'evenodd'%20fill-opacity%3D'0'%253E%253Cg%20transform%3D'translate(-249.000000%2C%20-126.000000&pos_id=img-iXRQ3Xed-1727575328525)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)**

********************参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)**********************

支持微调的模型和数据集大型语言模型通过微调可以适应不同任务,而中文微调数据集为模型在中文领域的应用提供了关键资源。

**************![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D'1.0'%20encoding%3D'UTF-8'%253F%253E%253Csvg%20width%3D'1px'%20height%3D'1px'%20viewBox%3D'0%200%201%201'%20version%3D'1.1'%20xmlns%3D'http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg'%20xmlns%3Axlink%3D'http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink'%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D'none'%20stroke-width%3D'1'%20fill%3D'none'%20fill-rule%3D'evenodd'%20fill-opacity%3D'0'%253E%253Cg%20transform%3D'translate(-249.000000%2C%20-126.000000&pos_id=img-IsKOAP2a-1727575328526)' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)**************

********************支持微调的模型**********************

**********二、大模型微调开源数据集************

**********1. 对于大型语言模型的微调,数据集是关键。************

************************instruction字段通常用于描述任务类型或给出指令,input字段包含模型需要处理的文本数据,而output字段则包含对应输入的正确答案或期望输出。**************************

![**************************![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://i-blog.csdnimg.cn/direct/f45cca8f36f344619a7847920e817d7f.png)

                           **典型数据集格式**

2. 常用中文微调数据集可能包括:

  • 中文问答数据集(如CMRC 2018、DRCD等),用于训练问答系统。
  • 中文情感分析数据集(如ChnSentiCorp、Fudan News等),用于训练情感分类模型。
  • 中文文本相似度数据集(如LCQMC、BQ Corpus等),用于训练句子对匹配和相似度判断任务。
  • 中文摘要生成数据集(如LCSTS、NLPCC等),用于训练文本摘要生成模型。
  • 中文对话数据集(如LCCC、ECDT等),用于训练聊天机器人或对话系统。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
在这里插入图片描述

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2176751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

别人做谷歌seo凭什么比你好?

谷歌SEO的竞争激烈,做得好的才能占据排名。但为什么有些人做SEO就是比你好?其中一个关键因素就是资源投入。SEO的核心包括技术优化、内容质量和外链建设等。这些方面都需要专业知识和时间投入,但如果资源有限,你的优化效果就会受到…

NVM:nvm list available命令执行异常

一、异常图片 二、解决 在nvm的安装位置找到文件settings.txt,修改镜像地址 node_mirror: https://npmmirror.com/mirrors/node/ npm_mirror: https://npmmirror.com/mirrors/npm/ 再次执行 三、相关知识 3.1 nvm简介 NVM(Node Version Manager&#…

huggingface使用国内镜像站下载

huggingface使用国内镜像站下载 huggingface开源的模型托管仓库,预训练模型的数量已超过30万个,并且任何模型在下载之前都可以使用huggingface提供的spaces空间去测试效果 huggingface的国内镜像站HF-Mirror的地址:https://hf-mirror.com/ …

聊聊JIT是如何影响JVM性能的!

文章内容收录到个人网站,方便阅读:http://hardyfish.top/ 文章内容收录到个人网站,方便阅读:http://hardyfish.top/ 文章内容收录到个人网站,方便阅读:http://hardyfish.top/ 我们知道Java虚拟机栈是线程…

pwn练习(1)

[BJDCTF 2020]babystack2.0 p.sendline(-1): 通过之前建立的连接,向服务器发送字符串"-1"和一个换行符。这可能是为了触发某个特定的行为或条件。 from pwn import* premote(node4.anna.nssctf.cn,28575) p.sendline(-1) payloadbA*(0X108)p64(0x40072A) …

基于SSM的“实习支教中小学学校信息管理系统”的设计与实现(源码+数据库+文档)

基于SSM的“实习支教中小学学校信息管理系统”的设计与实现(源码数据库文档) 开发语言:Java 数据库:MySQL 技术:SSM 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 主页 注册页面 师资力量界面 个…

十个最好看的桌面屏保 最好用的桌面屏保软件推荐

屏保是指在计算机长时间空闲时自动启动的一种程序,屏保作用可以保护你的屏幕隐私,屏保还可以起到美化作用。今天小编给大家带来最酷最好看的十个桌面电脑屏保:芝麻时钟(下载地址:https://clock.zhimasoft.cn/?bili &a…

汽车总线之---- LIN总线

Introduction LIN总线的简介,对于传统的这种点对点的连接方式,我们可以看到ECU相关的传感器和执行器是直接连接到ECU的,当传感器和执行器的数量较少时,这样的连接方式是能满足要求的,但是随着汽车电控功能数量的不断增…

linux 内核代码学习(十)--Linux内核启动和文件系统

前面第九章介绍了linux内核文件系统从软盘启动的几种方式:1、从软盘直接启动的linux,软盘上包括内核及简单文件系统;2、从软盘直接启动的linux,将内核与文件系统分别放置在一张软盘上;3、Grub做为引导程序,…

【软件类】OPPO 2024届校招正式批笔试题-研发通用(C卷)

昨天做了一场OPPO的,BC两题都速切了,其中B为语法题,C为思维题,想明白mid的范围即可,但A题真给我搞汗流浃背了,倒不是A题难,而是数据卡的很死。从下午一直调到了晚上还是TLE了,最后出…

测试矩阵:快速完成测试用例设计的高效模板

一般来说,测试矩阵用于整理测试思路,便于其他人进行测试审核,后续测试用例基本基于测试矩阵内容进行,测试矩阵主要元素为测试模块、测试场景和测试点,其他内容可在设计测试用例时再进行完善,以下模板包含了…

上海我店:创新模式引领本地生活新风尚

近年来,一个名为“上海我店”的新兴平台在网络空间中迅速崛起,其公布的业绩令人瞩目——在短短三年内,交易流水已跨越百亿大关,并在最近一个月内迎来了近百万的新增注册用户。这一强劲的增长势头,无疑吸引了众多商家和…

服务器数据恢复—raid磁盘故障导致数据库文件损坏的数据恢复案例

服务器存储数据恢复环境&故障: 存储中有一组由3块SAS硬盘组建的raid。上层win server操作系统层面划分了3个分区,数据库存放在D分区,备份存放在E分区。 RAID中一块硬盘的指示灯亮红色,D分区无法识别;E分区可识别&a…

STM32F407HAL库输出互补PWM波以及死区时间计算

互补PWM波配置 STM32F407VET6的高级定时器TIM1、TIM8可以生成互补的PWM波,用HAL库配置非常方便。 我们使用高级定时器TIM1,选择一个通道(我这里选择通道二),然后选择PWM Generation CH2 CH2N。这里N的意思是互补&…

基于趋近律的滑模控制器设计、仿真(S-function)

目录 一、什么是滑模控制?1. 滑模面2. 控制策略3. 抗干扰和鲁棒性4. 滑模控制的应用 二、什么是趋近律?1. 趋近律三大设计目标2. 常见的趋近律形式1. 等速趋近律2. 指数趋近律3. 幂次趋近律 三、滑模控制器设计四、滑模仿真示例1. Simulink仿真框图2. 不同k值下的仿…

JAVA全球美业新风尚国际版同城美容美发到店上门一体化服务系统小程序源码

全球美业新风尚,美丽触手可及!✨ 🌍 开篇:引领国际美业新潮流 在这个追求个性与美丽的时代,美容美发已不再是简单的日常护理,它成为了我们展现自我、追求品质生活的一种方式。而“全球美业新风尚国际版同…

ASP.NET Zero是什么?适合哪些业务场景?

一、ASP.NET Zero是什么? ASP.NET Zero 是一个基于 ASP.NET Boilerplate (ABP) 框架的模板项目,它提供了预建的页面和强大的基础设施架构,以便开发者能够快速开发应用层。它的特点包括但不限于: 多合一解决方案:提供多…

4.数据结构与算法-线性表的顺序表示和实现

2.1 线性表的定义和特点 线性表例子 线性表的逻辑特征 2.2 案例引入 案例2.1 案例2.1:一元多项式的运算 案例2.2:系数多项式的运算 用时间换取空间--线性数组相对链式访问速度快 但这种方法链式更节省空间,所以用时间换取空间 案例2.3&…

2024平价电容笔推荐!精选五大靠谱电容笔测评盘点!

现在电子设备已经成为我们生活、学习和工作中不可或缺的重要工具。而电容笔作为与电子设备紧密配合的配件,其重要性也日益凸显,为我们的数字操作体验带来极大的便利和提升。然而,市场上电容笔的品牌众多,价格、性能和品质参差不齐…

工业制氮机在食品行业的应用优势

作为一种高效、环保的设备,制氮机通过物理方法从空气中分离出高纯度氮气,为食品行业提供了全方位的品质提升和安全保障。本文将详细探讨工业制氮机在食品行业的应用优势。 一、保障食品质量与安全性 工业制氮机在食品行业中最为显著的应用优势之一&#…