Transformers中加载预训练模型的过程剖析(一)

news2025/12/20 20:17:15

使用HuggingFace的Transformers库加载预训练模型来处理下游深度学习任务很是方便，然而加载预训练模型的方法多种多样且过程比较隐蔽，这在一定程度上会给人带来困惑。因此，本篇文章主要讲一下使用不同方法加载本地预训练模型的区别、加载预训练模型及其配置的过程，藉此做个记录，也可供参考。

加载预训练模型的过程

transformers里主要使用 from_pretrained 方法来加载预训练模型，调用这个方法时会执行以下过程：

加载预训练模型：from_pretrained方法可以选择从本地加载已下载的预训练模型，或者提供模型名称从HuggingFace的模型仓库下载预训练模型权重；
加载配置：from_pretrained方法会加载预训练模型的配置文件，配置包含了模型的名称、架构、参数等信息。这些配置参数用来定义模型的结构；
初始化模型：使用配置文件中的参数初始化模型，构建模型的各个层和结构；
载入权重：将预训练模型权重载入到初始化的模型结构中；
创建实例：返回加载了权重的模型实例，利用这个实例进一步完成特定的下游任务。

加载预训练模型

要加载预训练模型，可以使用transformers库的 AutoModel 方法或具体模型对应的方法(比如要加载的是Ernie模型，则可以直接使用 ErnieModel )。这两者有区别吗？

先说结论：AutoModel.from_pretrained 与 ErnieModel.from_pretrained 方法本质上是一样的。

本文以 shibing624/text2vec-base-chinese-paraphrase 模型为例，可以下载到本地以作示例之用。注意至少需要下载 pytorch_model.bin 、config.json 、vocab.txt 三个文件，其中前两个文件加载预训练模型会用到，第三个文件加载切词器会用到，否则会报错。

图1

#需要先安装transformers模块(pip install transformers -i https://pypi.tuna.tsinghua.edu.cn/simple/)
from transformers import AutoModel, ErnieModel

#下载的预训练模型的路径(按自己存放位置修改)
model_path = './pretrain_models/shibing624-text2vec-base-chinese-paraphrase' 
model

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1675194.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！