【Finetune】（一）、transformers之BitFit微调

news2026/2/14 2:09:33

文章目录

0、参数微调简介
1、常见的微调方法
2、代码实战
- 2.1、导包
- 2.2、加载数据集
- 2.3、数据集处理
- 2.4、创建模型
- 2.5、BitFit微调*
- 2.6、配置模型参数
- 2.7、创建训练器
- 2.8、模型训练
- 2.9、模型推理

0、参数微调简介

参数微调方法是仅对模型的一小部分的参数（这一小部分可能是模型自身的，也可能是外部引入的）进行训练，便可以为模型带来显著的性能变化，在一些场景下甚至不输于全量微调。
由于训练一小部分参数，极大程度降低了训练大模型的算力需求，不需要多机多卡，单卡就可以完成对一些大模型的训练。不仅如此，少量的训练参数，对存储的要求同样降低很多，大多数的参数微调方法只需要保存训练部分的参数，与动辄几十GB的原始大模型相比，几乎可以忽略。

1、常见的微调方法

常见的微调方法如图所示：
在这里插入图片描述

Lialin, Vladislav, Vijeta Deshpande, and Anna Rumshisky. “Scaling down to scale up: A guide to parameter-efficient fine-tuning.” arXiv preprint arXiv:2303.15647 (2023).

2、代码实战

模型——bloom-389m-zh
数据集——alpaca_data_zh

2.1、导包

from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

2.2、加载数据集

ds = Dataset.load_from_disk("./alpaca_data_zh/")

2.3、数据集处理

tokenizer = AutoTokenizer.from_pretrained("../Model/bloom-389m-zh")
tokenizer

def process_func(example):
    MAX_LENGTH = 256
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer("\n".join(["Human: " + example["instruction"], example["input"]]).strip() + "\n\nAssistant: ")
    response = tokenizer(example["output"] + tokenizer.eos_token)
    input_ids = instruction["input_ids"] + response["input_ids"]
    attention_mask = instruction["attention_mask"] + response["attention_mask"]
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"]
    if len(input_ids) > MAX_LENGTH:
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

tokenized_ds = ds.map(process_func, remove_columns=ds.column_names)
tokenized_ds

2.4、创建模型

model = AutoModelForCausalLM.from_pretrained("../Model/bloom-389m-zh",low_cpu_mem_usage=True)

2.5、BitFit微调*

#选择模型参数里面的所有bias部分
#非bias部分冻结
num_param = 0
for name,param in model.named_parameters():
    if 'bias' not in name:
        param.requires_grad = False
    else:
        num_param+=param.numel()
num_param

2.6、配置模型参数

args = TrainingArguments(
    output_dir="./chatbot",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    logging_steps=10,
    num_train_epochs=1
)

2.7、创建训练器

trainer = Trainer(
    args=args,
    model=model,
    train_dataset=tokenized_ds,
    data_collator=DataCollatorForSeq2Seq(tokenizer, padding=True, )
)

2.8、模型训练

trainer.train()

2.9、模型推理

from transformers import pipeline

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)

ipt = "Human: {}\n{}".format("考试有哪些技巧？", "").strip() + "\n\nAssistant: "
pipe(ipt, max_length=256, do_sample=True, temperature=0.5)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2146764.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Finetune】（一）、transformers之BitFit微调

文章目录

0、参数微调简介

1、常见的微调方法

2、代码实战

2.1、导包

2.2、加载数据集

2.3、数据集处理

2.4、创建模型

2.5、BitFit微调*

2.6、配置模型参数

2.7、创建训练器

2.8、模型训练

2.9、模型推理

相关文章

Java lambda表达式的变量捕获

3D虚拟商城是什么？有哪些优势？

vue2项目实现国际化（若依框架示例）

设计模式之访问者模式：灵活访问对象结构的强大工具

在网络环境中怎么保护个人信息安全？

【Node.js】初识微服务

《中国数据库前世今生》观后感：数据库与中国IT的崛起

2.C++中程序的语法基础--关键字与分隔符

智能车镜头组入门（四）元素识别

科技修复记忆：轻松几步，旧照变清晰

【Python基础】Python模块（提高代码可维护性与重用性的关键）

（黑马点评）五、探店达人系列功能实现

开始你的博客之旅：从零到一的详细指南

windows环境下安装python第三方包

【线性规划求解系列】MATLAB中使用linprog解决线性规划问题

《中国数据库前世今生》纪录片观感：从古至今数据库的演变与未来

基于机器学习的注意力缺陷/多动障碍（ADHD）（python论文+代码）HYPERAKTIV

盘点BDC/ZCU方案常用的芯片

自定义项目授权文件生成与认证

LVGL 控件之滑动条（lv_slider）