【笔记】Huggingface Transformers 库加载预训练模型的 4 种方式

news2025/2/21 17:45:45

Transformers 库加载预训练模型的 4 种方式

Hugging Face Transformers 库提供了 4 种核心代码范式用于加载预训练大语言模型（LLM），具体分类如下：

通用模型加载（无任务头）
使用 AutoModel 加载基础架构，适用于自定义下游任务：

from transformers import AutoModel, AutoTokenizer
# 加载纯Transformer架构
model = AutoModel.from_pretrained("Meta-Llama-3-8B-Instruct")  
tokenizer = AutoTokenizer.from_pretrained("Meta-Llama-3-8B-Instruct")

用途：获取隐藏状态（hidden states），用于自定义任务（如特征提取）。

这里的模型的输出就是隐藏状态，不包含最后的线性层转换为词表概率

任务专用加载（带预置任务头）
通过 AutoModelFor[Task] 加载任务优化模型：

# 自回归生成（如GPT）
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Meta-Llama-3-8B-Instruct")

# 序列分类
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")

# 文本生成（如T5）
from transformers import AutoModelForSeq2SeqLM
model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")

特点：自动附加任务相关输出层（如分类头、LM 头）

比如 AutoModelForCausalLM 就是 hidden states 后多加载一个线性层转换为词表的概率分布

自定义模型扩展
继承 PreTrainedModel 并自定义前向逻辑，适配特殊需求：

from transformers import PretrainedModel, AutoConfig

class CustomModel(PretrainedModel):
    def __init__(self, config):
        super().__init__(config)
        self.llama = AutoModel.from_config(config)  # 加载预训练配置
        self.custom_layer = nn.Linear(config.hidden_size, 10)

    def forward(self, inputs):
        outputs = self.llama(**inputs)
        return self.custom_layer(outputs.last_hidden_state)

config = AutoConfig.from_pretrained("Meta-Llama-3-8B-Instruct")
model = CustomModel(config)  # 可加载预训练权重

适用场景：修改模型结构或添加自定义模块

快速推理 Pipeline
使用 pipeline API 一键加载模型和分词器：

from transformers import pipeline

generator = pipeline("text-generation", model="Meta-Llama-3-8B-Instruct")
result = generator("DeepSeek-R1 is")

优势：自动处理预处理（tokenize）和后处理（decode）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2301111.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【笔记】Huggingface Transformers 库加载预训练模型的 4 种方式

Transformers 库加载预训练模型的 4 种方式

相关文章

Unity Shader学习6：多盏平行光+点光源 ( 逐像素 ) 前向渲染 (Built-In)

tailwindcss学习01

DIN：引入注意力机制的深度学习推荐系统，

【前端】如何安装配置WebStorm软件？

【Golang学习之旅】Go 语言微服务架构实践（gRPC、Kafka、Docker、K8s）

Spring核心思想之—AOP（面向切面编程）

关于使用雪花算法生成唯一ID,返回给前端ID不一致的问题

axios post请求接收sse[eventsource]数据的

大语言模型常用微调与基于SFT微调DeepSeek R1指南

聚焦地灾防治，助力城市地质安全风险防控

为什么WP建站更适合于谷歌SEO优化？

用deepseek学大模型08-长短时记忆网络 (LSTM)

（蓝桥杯——10. 小郑做志愿者）洛斯里克城志愿者问题详解

小胡说技书博客分类（部分目录）：服务治理、数据治理与安全治理对比表格

开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B-LoRA微调-LLaMA-Factory-单机单卡-V100（一）

uni-app发起网络请求的三种方式

EasyRTC：智能硬件适配，实现多端音视频互动新突破

LeetCode1287

深度学习笔记之自然语言处理(NLP)

自动化测试框架搭建-单次接口执行-三部曲