Transformers中的BertConfig、BertModel详解

news2025/4/1 22:09:55

目录

一、功能

二、用法

1.导入BertConfig

2. 初始化默认配置

 3.使用配置初始化模型

 使用场景:

1.自定义小型BERT模型

 2.加载预训练模型配置

从 Hugging Face 模型库加载 bert-base-uncased 的默认配置:

 通过 BertConfig,你可以灵活定义 BERT 模型的架构,适应不同任务需求和硬件资源限制


BertConfig 是 Hugging Face Transformers 库中用于定义 BERT 模型结构的配置类,它允许你完全控制模型的超参数(如层数、注意力头数、隐藏层维度等)。

一、功能

1.定义模型架构:通过参数指定BERT模型的结构(如层数,注意力头等等)

2.加载预训练配置项:从已有模型(如bert-base-uncased)中读取默认配置项。

3.自定义配置:修改参数以适配硬件资源(如缩小模型尺寸)。

二、用法

1.导入BertConfig

from transformers import BertConfig, BertModel

2. 初始化默认配置

直接创建BertConfig对象时,会使用BERT-base 的默认参数:

config = BertConfig()
print(config)  # 查看所有配置参数

 3.使用配置初始化模型

model = BertModel(config)  # 根据自定义配置创建新模型

 

参数名类型默认值作用
vocab_sizeint30522词表大小
hidden_sizeint768隐藏层维度
num_hidden_layersint12Transformer 层数
num_attention_headsint12注意力头数
intermediate_sizeint3072FFN 层中间维度
max_position_embeddingsint512最大位置编码长度
hidden_actstr"gelu"激活函数(如 "gelu""relu"

 使用场景:

1.自定义小型BERT模型

# 定义更小的模型配置
config = BertConfig(
    vocab_size=30522,
    hidden_size=256,          # 隐藏层维度缩小到256
    num_hidden_layers=6,      # 仅6层Transformer
    num_attention_heads=8,    # 8个注意力头
    intermediate_size=1024,  # FFN层中间维度缩小
)

model = BertModel(config)     # 初始化自定义模型
print(model)                  # 查看模型结构

 2.加载预训练模型配置

从 Hugging Face 模型库加载 bert-base-uncased 的默认配置:

config = BertConfig.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased", config=config)

 通过 BertConfig,你可以灵活定义 BERT 模型的架构,适应不同任务需求和硬件资源限制

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu下载docker、xshell

配置:VMware虚拟机、Ubuntu24.04.1 首先打开vm启动虚拟机 下载docker Ubuntu启动之后,按CTRLALTT 打开终端 1.更新软件包索引并安装依赖 sudo apt-get updatesudo apt-get install \ca-certificates \curl \gnupg \lsb-release 2.添加docker官方的GP…

迅为iTOP-RK3576人工智能开发板Android 系统接口功能测试

2.1 开机启动 开发板接通电源,并按下电源开关,系统即启动,在启动过程中,系统会显示下图中的开机画面,它们分别是 Android 系统启动时的 Logo 画面: 最后会显示如下解锁画面: 2.2 命令终端 将…

office_word中使用宏以及DeepSeek

前言 Word中可以利用DeepSeek来生成各种宏,从而生成我们需要各种数据和图表,这样可以大大减少我们手工的操作。 1、Office的版本 采用的是微软的office2016,如下图: 2、新建一个Word文档 3、开启开发工具 这样菜单中的“开发工具…

数据结构day04

一 栈 1栈的基本概念 各位同学大家好,从这个小节开始,我们会正式进入第三章的学习,我们会学习栈和队列,那这个小节中我们会先认识栈的基本概念。我们会从栈的定义和栈的基本操作来认识栈这种数据结构,也就是要探讨栈的…

质量工程:数字化转型时代的质量体系重构

前言:质量理念的范式转移阅读原文 如果把软件开发比作建造摩天大楼: 传统测试 竣工后检查裂缝(高成本返工) 质量工程 从地基开始的全流程监理体系(设计图纸→施工工艺→建材选择→竣工验收) IEEE研究…

pyQt学习笔记——Qt资源文件(.qrc)的创建与使用

Qt资源文件(.qrc)的创建与使用 1. 选择打开资源2. 创建新资源3. 添加资源文件夹4. 选择要加载的图片文件5. 编译resource.qrc文件6. 替换PySlide6为PyQt57. 其他说明 1. 选择打开资源 在Qt项目中,可以通过windowIcon点击选择打开资源。 2. 创…

优雅的开始一个Python项目

优雅的开始一个Python项目 这是我在初始化一个Python项目时,一键生成的项目文件。它自动完成了git初始化、环境管理、日志模块这三件事情,并在最后进入了虚拟环境。 uv安装 uv是一个现代的Python包管理和项目管理工具。uv中文文档 安装uv: # unix: …

[学成在线]07-视频转码

视频转码 视频上传成功后需要对视频进行转码处理。 首先我们要分清文件格式和编码格式: 文件格式:是指.mp4、.avi、.rmvb等这些不同扩展名的视频文件的文件格式 ,视频文件的内容主要包括视频和音频,其文件格式是按照一定的编码…

qt+opengl 加载三维obj文件

1前面我们已经熟悉了opengl自定义顶点生成一个立方体,并且我们实现了立方体的旋转,光照等功能。下面我们来用opengl来加载一个obj文件。准备我们首先准备一个简单的obj文件(head.obj)。资源在本页下载 2 在obj文件里面&#xff0c…

【实战ES】实战 Elasticsearch:快速上手与深度实践-2.2.1 Bulk API的正确使用与错误处理

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 Elasticsearch Bulk API 深度实践:性能调优与容错设计1. Bulk API 核心机制解析1.1 批量写入原理剖析1.1.1 各阶段性能瓶颈 2. 高性能批量写入实践2.1 客户端最佳…

鸿蒙Flutter开发故事:不,你不需要鸿蒙化

在华为牵头下,Flutter 鸿蒙化如火如荼进行,当第一次看到一份上百个插件的Excel 列表时,我也感到震惊,排名前 100 的插件赫然在列,这无疑是一次大规模的军团作战。 然后,参战团队鱼龙混杂,难免有…

中间件框架漏洞攻略

中间件(英语:Middleware)是提供系统软件和应⽤软件之间连接的软件,以便于软件各部件之间的沟通。 中间件处在操作系统和更⾼⼀级应⽤程序之间。他充当的功能是:将应⽤程序运⾏环境与操作系统隔离,从⽽实…

第21周:RestNet-50算法实践

目录 前言 理论知识 1.CNN算法发展 2.-残差网络的由来 一、导入数据 二、数据处理 四、编译 五、模型评估 六、总结 前言 🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊 理论知识 1.CNN算法发展 该图列举出…

构建大语言模型应用:数据准备(第二部分)

本专栏通过检索增强生成(RAG)应用的视角来学习大语言模型(LLM)。 本系列文章 简介数据准备(本文)句子转换器向量数据库搜索与检索大语言模型开源检索增强生成评估大语言模型服务高级检索增强生成 RAG 如上…

AI-Sphere-Butler之Ubuntu服务器如何部署Nginx代理,并将HTTP升级成HTTPS,用于移动设备访问

环境: AI-Sphere-Butler WSL2 Ubuntu22.04 Nginx 问题描述: AI-Sphere-Butler之Ubuntu服务器如何部署Nginx代理,并将HTTP升级成HTTPS,用于移动设备访问 解决方案: 一、生成加密证书 1.配置OpenSSL生成本地不加…

飞致云荣获“Alibaba Cloud Linux最佳AI镜像服务商”称号

2025年3月24日,阿里云云市场联合龙蜥社区发布“2024年度Alibaba Cloud Linux最佳AI镜像服务商”评选结果。 经过主办方的严格考量,飞致云(即杭州飞致云信息科技有限公司)凭借旗下MaxKB开源知识库问答系统、1Panel开源面板、Halo开…

Django项目之订单管理part6(message组件和组合搜索组件)

一.前言 我们前面讲的差不多了,接着上节课讲,今天要来做一个撤单要求,我们可以用ajax请求,但是我这里介绍最后一个知识点,message组件,但是我会把两种方式都讲出来的,讲完这个就开始讲我们最重…

Taro创建微信小程序项目 第一步搭建项目

1.node: 2.第一步: 安装taro npm install -g tarojs/cli 3.创建文件夹wxxcx, 创建demos的文件夹的项目(demos项目名称) taro init demos 出现以下信息:可以根据自己的需求选择 出现安装项目依赖失败不要紧 4.进入demos文件夹…

S32K144外设实验(六):FTM输出单路PWM

文章目录 1. 概述1.1 时钟系统1.2 实验目的2. 代码的配置2.1 时钟配置2.2 FTM模块配置2.3 输出引脚配置2.4 API函数调用1. 概述 1.1 时钟系统 FTM的CPU接口时钟为SYS_CLK,在RUN模式下最高80MHz。模块的时钟结构如下图所示。 从上图中可以看出,FTM模块的功能时钟为SYS_CLK,…

地下管线三维建模软件工具MagicPipe3D V3.6.1

经纬管网建模系统MagicPipe3D,基于二维矢量管线管点数据本地离线参数化构建地下管网三维模型(包括管道、接头、附属设施等),输出标准3DTiles、Obj模型等格式,支持Cesium、Unreal、Unity、Osg等引擎加载进行三维可视化、…