基于Optuna的transformers模型自动调参

news2025/7/17 19:39:00

文章目录

一、导入相关包
二、加载数据集
三、划分数据集
四、数据集预处理
五、创建模型（区别一）
六、创建评估函数
七、创建 TrainingArguments(区别二)
八、创建 Trainer(区别三)
九、模型训练
十、模型训练(自动搜索)(区别四)
启动 tensorboard

以文本分类为例

六、Trainer和文本分类

一、导入相关包

!pip install transformers datasets evaluate accelerate

from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

二、加载数据集

dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split="train")
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset
'''
Dataset({
    features: ['label', 'review'],
    num_rows: 7765
})
'''

三、划分数据集

datasets = dataset.train_test_split(test_size=0.1)
datasets
'''
DatasetDict({
    train: Dataset({
        features: ['label', 'review'],
        num_rows: 6988
    })
    test: Dataset({
        features: ['label', 'review'],
        num_rows: 777
    })
})
'''

四、数据集预处理

import torch

tokenizer = AutoTokenizer.from_pretrained("hfl/rbt3")

def process_function(examples):
    tokenized_examples = tokenizer(examples["review"], max_length=128, truncation=True)
    tokenized_examples["labels"] = examples["label"]
    return tokenized_examples

tokenized_datasets = datasets.map(process_function, batched=True, 
                                  remove_columns=datasets["train"].column_names)
tokenized_datasets
'''
DatasetDict({
    train: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 6988
    })
    test: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 777
    })
})
'''

五、创建模型（区别一）

def model_init():
    model = AutoModelForSequenceClassification.from_pretrained("hfl/rbt3")
    return model

六、创建评估函数

import evaluate

acc_metric = evaluate.load("accuracy")
f1_metirc = evaluate.load("f1")

def eval_metric(eval_predict):
    predictions, labels = eval_predict
    predictions = predictions.argmax(axis=-1)
    acc = acc_metric.compute(predictions=predictions, references=labels)
    f1 = f1_metirc.compute(predictions=predictions, references=labels)
    acc.update(f1)
    return acc

七、创建 TrainingArguments(区别二)

logging_steps=500为了防止多次训练 log 太多可以增大 logging_steps

train_args = TrainingArguments(output_dir="./checkpoints",      # 输出文件夹
                               per_device_train_batch_size=64,  # 训练时的batch_size
                               per_device_eval_batch_size=128,  # 验证时的batch_size
                               logging_steps=500,               # log 打印的频率
                               evaluation_strategy="epoch",     # 评估策略
                               save_strategy="epoch",           # 保存策略
                               save_total_limit=3,              # 最大保存数
                               learning_rate=2e-5,              # 学习率
                               weight_decay=0.01,               # weight_decay
                               metric_for_best_model="f1",      # 设定评估指标
                               load_best_model_at_end=True)     # 训练完成后加载最优模型

八、创建 Trainer(区别三)

没有指定 model而是指定 model_init

from transformers import DataCollatorWithPadding
trainer = Trainer(model_init=model_init, 
                  args=train_args, 
                  train_dataset=tokenized_datasets["train"], 
                  eval_dataset=tokenized_datasets["test"], 
                  data_collator=DataCollatorWithPadding(tokenizer=tokenizer),
                  compute_metrics=eval_metric)


# 之前
from transformers import DataCollatorWithPadding
trainer = Trainer(model=model,
                  args=train_args,
                  train_dataset=tokenized_datasets["train"],
                  eval_dataset=tokenized_datasets["test"],
                  data_collator=DataCollatorWithPadding(tokenizer=tokenizer),
                  compute_metrics=eval_metric)

九、模型训练

trainer.train()

十、模型训练(自动搜索)(区别四)

!pip install optuna

使用默认的超参数空间
compute_objective=lambda x: x["eval_f1"]中的 x是指的评价函数的返回值,在这里因为没有显示的指定评价函数返回值的 key,所以 f1的 key采用默认值 eval_f1

trainer.hyperparameter_search(compute_objective=lambda x: x["eval_f1"], direction="maximize", n_trials=10)

自定义超参数空间
- 可以在default_hp_space_optuna 函数中增加 trainer 的选项

def default_hp_space_optuna(trial):
    return {
        "learning_rate": trial.suggest_float("learning_rate", 1e-6, 1e-4, log=True),
        "num_train_epochs": trial.suggest_int("num_train_epochs", 1, 5),
        "seed": trial.suggest_int("seed", 1, 40),
        "per_device_train_batch_size": trial.suggest_categorical("per_device_train_batch_size", [4, 8, 16, 32, 64]),
        "optim": trial.suggest_categorical("optim", ["sgd", "adamw_hf"]),
    }

trainer.hyperparameter_search(hp_space=default_hp_space_optuna, compute_objective=lambda x: x["eval_f1"], direction="maximize", n_trials=10)

启动 tensorboard

进入运行日志文件夹
- 终端启动

!tensorboard --logdir runs

jupyter 启动

# 运行这行代码将加载 TensorBoard并允许我们将其用于可视化
%reload_ext tensorboard 
%tensorboard --logdir=./runs/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1215669.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

基于Optuna的transformers模型自动调参

文章目录

一、导入相关包

二、加载数据集

三、划分数据集

四、数据集预处理

五、创建模型（区别一）

六、创建评估函数

七、创建 TrainingArguments(区别二)

八、创建 Trainer(区别三)

九、模型训练

十、模型训练(自动搜索)(区别四)

启动 tensorboard

相关文章

使用 Redis 构建轻量的向量数据库应用：图片搜索引擎（一）

C++进阶-STL 常用算法列举

Linux C/C++全栈开发知识图谱（后端/音视频/游戏/嵌入式/高性能网络/存储/基础架构/安全）

8086与8088

为什么红帽Linux值得学习？红帽Linux是什么

Redis内存淘汰机制

避坑指南！！在树莓派4b上安装Pycharm以及无法使用终端的问题解决！！

小米手机获取电池健康度

Stages—研发过程可视化建模和管理平台

web环境实现一键式安装启动

JS原生-弹框+阿里巴巴矢量图

LeetCode - 160. 相交链表（C语言，配图）

【分享课】11月16日晚19:30PostgreSQL分享课：PG缓存管理器主题

《洛谷深入浅出基础篇》 p3370字符串哈希——hash表

谭巍主任科普：面对HPV感染挑战，迈出关键一步！

表单校验wed第十九章

flutter绘制弧形进度条

蘑菇街获得mogujie商品详情 API 返回值说明

SystemVerilog学习（7）——面向对象编程

React父组件怎么调用子组件的方法