【AI大模型】Transformers大模型库（八）：大模型微调之LoraConfig

【AI大模型】Transformers大模型库（八）：大模型微调之LoraConfig

news2025/2/22 0:49:39

目录

一、引言

二、LoraConfig配置参数

2.1 概述

2.2 LoraConfig参数说明

2.3 代码示例

三、总结

一、引言

这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测、训练等服务。

🤗 Transformers 提供了数以千计的预训练模型，支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的 NLP 技术人人易用。
🤗 Transformers 提供了便于快速下载和使用的API，让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。同时，每个定义的 Python 模块均完全独立，方便修改和快速研究实验。
🤗 Transformers 支持三个最热门的深度学习库： Jax, PyTorch 以及 TensorFlow — 并与之无缝整合。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。

本文重点介绍LoraConfig配置参数

二、LoraConfig配置参数

2.1 概述

LoraConfig是Hugging Face transformers库中用于配置LoRA（Low-Rank Adaptation）的类。LoRA是一种用于微调大型语言模型的轻量级方法，它通过添加低秩矩阵到预训练模型的权重上来实现适应性调整，从而在不显著增加模型大小的情况下提升特定任务的性能。这种方法特别适合于资源有限的环境，因为它减少了存储和计算的需求。

2.2 LoraConfig参数说明

LoraConfig允许用户设置以下关键参数来定制LoRA训练。

r: 低秩矩阵的秩，即添加的矩阵的第二维度，控制了LoRA的参数量。
alpha: 权重因子，用于在训练后将LoRA适应的权重与原始权重相结合时的缩放。
lora_dropout: LoRA层中的dropout率，用于正则化。
target_modules: 指定模型中的哪些模块（层）将应用LoRA适应。这允许用户集中资源在对任务最相关的部分进行微调。
bias: 是否在偏置项上应用LoRA，通常设置为'none'或'all'。
task_type: 指定任务类型，如'CAUSAL_LM'，以确保LoRA适应正确应用到模型的相应部分。

2.3 代码示例

这是一段LoraConfig配置Qwen2的代码，指定模型中的"q_proj"、"v_proj"等层应用LoRA，了解具体有哪些层，可以通过print(model)查看。

config = LoraConfig(
    r=64,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj", "v_proj", "o_proj", "gate_proj", "up_proj","down_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, config)
print_trainable_parameters(model)

三、总结

本文简要介绍LoraConfig的配置参数情况，具体的机遇peft对大模型进行微调后面单独开一页详细讲解。

如果您还有时间，可以看看我的其他文章：

《AI—工程篇》

AI智能体研发之路-工程篇（一）：Docker助力AI智能体开发提效

AI智能体研发之路-工程篇（二）：Dify智能体开发平台一键部署

AI智能体研发之路-工程篇（三）：大模型推理服务框架Ollama一键部署

AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

AI智能体研发之路-工程篇（五）：大模型推理服务框架LocalAI一键部署

《AI—模型篇》

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

AI智能体研发之路-模型篇（三）：中文大模型开、闭源之争

AI智能体研发之路-模型篇（四）：一文入门pytorch开发

AI智能体研发之路-模型篇（五）：pytorch vs tensorflow框架DNN网络结构源码级对比

AI智能体研发之路-模型篇（六）：【机器学习】基于tensorflow实现你的第一个DNN网络

AI智能体研发之路-模型篇（七）：【机器学习】基于YOLOv10实现你的第一个视觉AI大模型

AI智能体研发之路-模型篇（八）：【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战

AI智能体研发之路-模型篇（九）：【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战

《AI—Transformers应用》

【AI大模型】Transformers大模型库（一）：Tokenizer

【AI大模型】Transformers大模型库（二）：AutoModelForCausalLM

【AI大模型】Transformers大模型库（三）：特殊标记（special tokens）

【AI大模型】Transformers大模型库（四）：AutoTokenizer

【AI大模型】Transformers大模型库（五）：AutoModel、Model Head及查看模型结构

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1813634.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

3.2 窗口滚动条

3.2 窗口滚动条

本节讲述窗口滚动条的简单使用方法。如果窗口客户区的内容太多，为了方便浏览窗口客户区的所有内容，就需要在创建窗口时添加窗口垂直或水平滚动条样式。窗口过程处理WM_CREATE消息时初始化滚动条的位置和滚动范围。窗口过程处理WM_VSCROLL或WM_HSCROLL消息…

阅读更多...

讲透计算机网络知识(实战篇)01——计算机网络和协议

讲透计算机网络知识(实战篇)01——计算机网络和协议

一、计算机网络和协议 1、网络和互联网络 1.1 网络、互联网、Internet 用交换机、集线器连接在一起的计算机构成一个网络。用路由器连接多个网络，形成互联网。全球最大的互联网：Internet。 1.2 网络举例家庭互联网图中的无线拨号路由器既是路由…

阅读更多...

281 基于matlab的路径规划GUI交互

281 基于matlab的路径规划GUI交互

基于matlab的路径规划GUI交互。包括蚁量系统、蚁周系统、蚁密系统、蚁群系统、免疫混合算法。11种路径规划数据，最多225个规划点。蚁群和免疫算法的参数可进行设置，使得效果最佳。动态显示可视化规划结果。程序已调通，可直接运行。

阅读更多...

防止Selenium被检测 Google Chrome 125

防止Selenium被检测 Google Chrome 125

背景最近在使用selenium自动播放学习课程，相信大家也有一些类似的使用场景。能自动化的事情，绝不自己干。为防止被检测是机器人做题，刷视频，需要做一些小调整。先来看作为服务方维护者，是如何检测是Selenium打…

阅读更多...

8.transformers量化

8.transformers量化

Transformers 核心设计Auto Classes Transformers Auto Classes 设计：统一接口、自动检索 AutoClasses 旨在通过全局统一的接口 from_pretrained() ，实现基于名称（路径）自动检索预训练权重（模型）、配置文件、词汇表等所有与模型相关的抽象。灵活扩展的配置AutoConfig…

阅读更多...

uniapp地图自定义文字和图标

uniapp地图自定义文字和图标

这是我的结构： <map classmap id"map" :latitude"latitude" :longitude"longitude" markertap"handleMarkerClick" :show-location"true" :markers"covers" /> 记住别忘了在data中定义变量…

阅读更多...

pip 配置缓存路径

pip 配置缓存路径

在windows操作平台，默认情况，pip下使用的系统目录 C:\Users\用名名称\AppData\Local\pip C盘是系统盘，如果常常使用pip安装会占用大量的空间很快就满，这时候就有必要变更一下缓存保存路径了。 pip 配置缓存路径： Win…

阅读更多...

【NoSQL数据库】Redis Cluster集群（含redis集群扩容脚本）

【NoSQL数据库】Redis Cluster集群（含redis集群扩容脚本）

Redis Cluster集群 Redis ClusterRedis 分布式扩展之 Redis Cluster 方案功能数据如何进行存储 redis 集群架构集群伸缩向集群中添加一个新的master节点，并向其中存储 num10 .脚本对redis集群扩容缩容，脚本参数为redis集群，固定从6001移动200…

阅读更多...

创建第一个Springboot项目HelloWorld

创建第一个Springboot项目HelloWorld

目录一、准备工作一、创建springboot项目三、使用git上传到代码仓库gitee 四、git使用过程问题总结一、准备工作安装jdk：8u201（可以使用高一点的版本） jdk所有版本下载：Java Archive | Oracle 安装maven：不用…

阅读更多...

Kafka生产者消息发送流程原理及源码分析

Kafka生产者消息发送流程原理及源码分析

Kafka是一个分布式流处理平台，它能够以极高的吞吐量处理数据。在Kafka中，生产者负责将消息发送到Kafka集群，而消费者则负责从Kafka集群中读取消息。本文将探讨Kafka生产者消息发送流程的细节，包括消息的序列化、分区分配、记录提交等关键步骤。先看一个生产者发送消息的代…

阅读更多...

【五】Linux软件仓库Yum源--SSH远程控制--SCP远程传输

【五】Linux软件仓库Yum源--SSH远程控制--SCP远程传输

RPM（红帽软件包管理器） RPM建立统一的数据库文件，记录软件信息并分析依赖关系。目前RPM的优势已经被公众所认可，使用范围也已不局限在红帽系统中了。常见RPM命令如下： 安装软件 rpm -ivh file…

阅读更多...

$数据结构（DS）学习笔记（二）：数据类型与抽象数据类型$

数据结构（DS）学习笔记（二）：数据类型与抽象数据类型

参考教材：数据结构C语言版（严蔚敏，杨伟民编著） 工具：XMind、幕布、公式编译器正在备考，结合自身空闲时间，不定时更新，会在里面加入一些真题帮助理解数据结构目录 1.1数据…

阅读更多...

【DevOps】什么是容器 - 一种全新的软件部署方式

【DevOps】什么是容器 - 一种全新的软件部署方式

目录引言一、什么是容器二、容器的工作原理三、容器的主要特性四、容器技术带来的变革五、容器技术的主要应用场景六、容器技术的主要挑战七、容器技术的发展趋势引言在过去的几十年里,软件行业经历了飞速的发展。从最初的大型机时代,到后来的个人电脑时代,…

阅读更多...

neo4j 3.5.5版本创建新的数据库

neo4j 3.5.5版本创建新的数据库

neo4j 3.5.5版本创建新的数据库 1.找到neo4j的conf文件点进去 2.点击neo4j.conf 选择记事本打开 3.把graph.db换成自己想要创建的数据库名称 4.打开neo4j服务出现新的数据库

阅读更多...

信息系统项目管理师0151：输出（9项目范围管理—9.4收集需求—9.4.3输出）

信息系统项目管理师0151：输出（9项目范围管理—9.4收集需求—9.4.3输出）

点击查看专栏目录文章目录 9.4.3 输出9.4.3 输出需求文件需求文件描述各种单一需求将如何满足项目相关的业务需求。一开始可能只有高层级的需求，然后随着有关需求信息的增加而逐步细化。只有明确的（可测量和可测试的）、可跟踪的、完整的、相互协调的，且主要干系人愿意认…

阅读更多...

FreeRTOS学习笔记-基于stm32（14）内存管理

FreeRTOS学习笔记-基于stm32（14）内存管理

一、FreeRTOS 内存管理简介 FreeRTOS有两种方法来创建任务，队列，信号量等，一种动态一种静态。静态方法需要手动定义任务堆栈。使用动态内存管理的时候 FreeRTOS 内核在创建任务、队列、信号量的时候会动态的申请 RAM。我们在移植FreeRTOS时可…

阅读更多...

采用java+springboot+vue+uniapp自主研发的智慧城管源码，城管综合执法平台源代码

采用java+springboot+vue+uniapp自主研发的智慧城管源码，城管综合执法平台源代码

智慧城管执法平台源码，PCAPP端全套源码，城管综合执法系统源码。智慧城管系统拥有自主版权，项目落地案例，有演示，适合二次开发项目使用。智慧城管执法系统旨在提高城市管理效率，涵盖了城市管理中的很多业务…

阅读更多...

RabbitMQ从入门到入土

RabbitMQ从入门到入土

同步与异步同步调用优势： 时效性强，等到结果后就返回问题： 扩展性差性能下降级联失败问题异步调用优势： 耦合度低，扩展性强无需等待，性能好故障隔离，下游服务故障不影响上游缓…

阅读更多...

探索乡村振兴新模式：发挥科技创新在乡村振兴中的引领作用，构建智慧农业体系，助力美丽乡村建设

探索乡村振兴新模式：发挥科技创新在乡村振兴中的引领作用，构建智慧农业体系，助力美丽乡村建设

随着科技的不断进步，乡村振兴工作正迎来前所未有的发展机遇。科技创新作为推动社会发展的重要力量，在乡村振兴中发挥着越来越重要的引领作用。本文旨在探讨如何发挥科技创新在乡村振兴中的引领作用，通过构建智慧农业体系，助力美丽…

阅读更多...

汉语翻译藏语的软件，有3款宝藏软件！

汉语翻译藏语的软件，有3款宝藏软件！

在数字化飞速发展的今天，语言不再是沟通的障碍。对于想要学习藏语或需要与藏区人民交流的朋友们来说，一款优质的汉语翻译藏语的软件无疑是一大福音。那么，市面上究竟有哪些值得推荐的汉语翻译藏语的软件呢？接下来，就让…

阅读更多...

推荐文章

最新文章