HuggingFace学习笔记--Model的使用

news2025/4/4 16:04:55

1--Model介绍

Transformer的 model 一般可以分为：编码器类型（自编码）、解码器类型（自回归）和编码器解码器类型（序列到序列）；

Model Head（任务头）是在base模型的基础上，根据不同任务而设置的模块；base模型只起到一个编码和建模特征的功能；

简单代码：

from transformers import AutoTokenizer, AutoModel, AutoModelForSequenceClassification

if __name__ == "__main__":
    # 数据处理
    sen = "弱小的我也有大梦想！"
    tokenizer = AutoTokenizer.from_pretrained("hfl/rbt3")
    inputs = tokenizer(sen, return_tensors="pt")
        
    # 不带model head的模型调用
    model = AutoModel.from_pretrained("hfl/rbt3", output_attentions=True)
    output1 = model(**inputs)
    print(output1.last_hidden_state.size()) # [1, 12, 768]
    
    # 带model head的模型调用
    clz_model = AutoModelForSequenceClassification.from_pretrained("hfl/rbt3", num_labels=10)
    output2 = clz_model(**inputs)
    print(output2.logits.shape) # [1, 10]

2--AutoModel的使用

官方文档

AutoModel 用于加载模型；

2-1--简单Demo

测试代码：

from transformers import AutoTokenizer, AutoModel

if __name__ == "__main__":
    checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
    tokenlizer = AutoTokenizer.from_pretrained(checkpoint) 
    
    raw_input = ["I love kobe bryant.", "Me too."]
    inputs = tokenlizer(raw_input, padding = "longest", truncation = True, max_length = 512, return_tensors = "pt")
    
    # 加载指定的模型
    model = AutoModel.from_pretrained(checkpoint)
    print("model: \n", model)
    
    outputs = model(**inputs)
    print("last_hidden_state: \n", outputs.last_hidden_state.shape) # 打印最后一个隐层的输出维度
    # [2 7 768] batch_size为2，7个token，每个token的维度为768

输出结果：

last_hidden_state: 
 torch.Size([2, 7, 768])

# 最后一个隐层的输出
# batchsize为2，表示两个句子
# 7表示token数，每一个句子有7个token
# 768表示特征大小，每一个token的维度为768

测试代码：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

if __name__ == "__main__":
    checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
    tokenlizer = AutoTokenizer.from_pretrained(checkpoint) 
    
    raw_input = ["I love kobe bryant.", "Me too."]
    inputs = tokenlizer(raw_input, padding = "longest", truncation = True, max_length = 512, return_tensors = "pt")

    model2 = AutoModelForSequenceClassification.from_pretrained(checkpoint) # 二分类任务
    print(model2)
    outputs2 = model2(**inputs)
    print(outputs2.logits.shape)

运行结果：

torch.Size([2, 2])
# 两个句子，每个句子二分类的概率

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1273149.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

HuggingFace学习笔记--Model的使用

1--Model介绍

2--AutoModel的使用

2-1--简单Demo

相关文章

Windows11如何让桌面图标的箭头消失(去掉快捷键箭头)

【unity实战】如何更加规范的创建各种Rogue-Lite（肉鸽）风格的物品和BUFF效果（附项目源码）

VS2022使用Vim按键

shell编程系列(7)-使用wc进行文本统计

electron调用dll问题总汇

在Linux上安装KVM虚拟机

vue3 router-view 使用keep-alive报错parentcomponent.ctx.deactivate is not a function

2023/11/30JAVAweb学习

C 中的结构 - 存储、指针、函数和自引用结构

Redis学习文档

卡码网语言基础课 | 17. 判断集合成员

Pycharm中使用matplotlib绘制动态图形

jetson nano SSH远程连接（使用MobaXterm）

一文讲透Python机器学习特征选择之互信息法

带键扫的LED专用驱动方案

【强迫症患者必备】SpringBoot项目中Mybatis使用mybatis-redis开启三级缓存必须创建redis.properties优化方案

分享超实用的软文撰写步骤！建议收藏

【java扫盲贴】final修饰变量

麒麟操作系统网桥配置

osgFX扩展库-刻线特效、立方图镜面高光特效（2）